参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 262

开本 : 16

原书名 : The Auditory System at the Cocktail Party

原出版社: Springer

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

语音识别技术得益于深度学习的发展，已经走进了我们的生活。但是，复杂开放环境下的语音交互是目前语音识别技术发展中无法回避的挑战性难题。本书面向这个主题，从物理层的信号与噪声分离、神经生理层的听觉流分离以及心理认知层的听觉空间注意，进行了全方位地分析；从信号处理的技术实现、计算建模以及听障应用的角度进行了详细地阐述。

图书特色

听觉系统与鸡尾酒会问题
The Auditory System
at the Cocktail Party
[美]约翰·C. 米德尔布鲁克斯（John C. Middlebrooks）
尤纳森·Z. 西蒙（Jonathan Z. Simon）
阿瑟·N. 波珀（Arthur N. Popper）
理查德·R. 费伊（Richard R. Fay）　　编著　
许家铭石晶徐波?译

图书前言

　　鸡尾酒会是一个典型的复杂听觉场景：人声鼎沸，酒杯碰撞，音乐流淌等。日常生活中的其他场景，包括繁忙的办公室、拥挤的餐厅、嘈杂的教室和堵塞的城市街道，在声学上同样是复杂的。正常的听觉系统在解析这些复杂场景过程中表现出卓越的能力。然而，即使相对轻微的听力损伤也会影响这种听觉场景分析能力。
　　本书内容是由2013年在美国马里兰州巴尔的摩举行的耳鼻喉科研究协会冬季会议上的主席研讨会“鸡尾酒会场景下的耳与大脑”（Ears and Brains at the Cocktail Party）发展而来的。在本书中，作者描述了听觉系统擅长将感兴趣的信号与干扰声分离的条件以及该问题不可解决的条件，这一切都是在试图理解这些成功和失败背后的神经机制。第1章整体介绍了本书内容，对鸡尾酒会问题进行了概述，并将这一问题置于听觉神经科学更广泛的探讨和分析中。第2章进一步阐述了听觉客体的关键概念，可以将其视为外部听觉声源与目标选择和注意执行单元之间的感知关联。第3章强调了较低层次下将信号与噪声进行分离的挑战，并考虑了可以克服这些挑战的机制。同时，第3章中也介绍了能量掩蔽和信息掩蔽之间的区别。接下来，第4章通过专注于混叠语音掩蔽问题来扩展信息掩蔽的概念。
　　计算模型能够使鸡尾酒会问题的基本科学理解得以形式化，同时能够在解决实际工程问题中生成一些应用了生物学原理的算法。第5章考虑了面向鸡尾酒会问题建立有效计算模型的挑战。随后，第6章考虑了声源空间分离对于流分离的重要性，并回顾了空间流分离的心理物理学和生理学基础。接下来，第7章回顾了实验人类听觉神经科学领域的新发展。
　　通常，婴幼儿和儿童不会出现在鸡尾酒会中。但是，在类似的听觉场景如嘈杂的游乐园或拥挤的教室中很容易在声学上变得复杂。年幼的听者只能用还未成熟的听觉系统和尚未固化的语言识别能力来理解这些场景。第8章考虑了人类面对鸡尾酒会问题时发育的多个阶段和层次。接下来，第9章认为老年人在语言技能和知识存储方面的成熟可以一定程度上补偿外周和中枢听觉系统的衰退。最后，第10章探讨听觉损伤的后果和对听力恢复（至少部分恢复）的尝试。
　　在鸡尾酒会以及其他日常复杂听觉场景中的成功交流依赖于听觉系统的所有资源，包括从听觉外周的基本编码机制到高阶整合加工。本书旨在从各个层次对这些听觉资源进行探索，包括正常成年人的、早期发育的、老化的以及病变的听觉系统。
　　
　　约翰·C. 米德尔布鲁克斯（John C. Middlebrooks），美国加利福尼亚州欧文市
　　尤纳森·Z. 西蒙（Jonathan Z. Simon），美国马里兰州学院公园市
　　阿瑟·N. 波珀（Arthur N. Popper），美国马里兰州学院公园市
　　理查德·R. 费伊（Richard R. Fay），美国伊利诺伊州芝加哥市

上架指导

计算机/人工智能/语音交互

封底文字

语音识别技术得益于深度学习的发展，已经走进了我们的生活。但是，“鸡尾酒会问题”是目前语音识别技术发展中无法回避的挑战性难题。本书从物理层的信号与噪声分离、神经生理层的听觉流分离以及心理认知层的听觉空间注意的方面，对“鸡尾酒会问题”进行了全方位分析；从信号处理的技术实现、计算建模以及听障应用的角度，对听觉系统建模进行了详细阐述。本书对促进语音技术从感知智能到认知智能的发展有着重要的参考价值。目前，涉及此类内容的中文参考书籍极缺，本书的出版弥补了这一缺憾。译者长期从事该领域的技术研究工作，全书用词准确、行文流畅，是一本难能可贵的前沿性技术书籍，特此予以推荐。
◎ 党建武，天津大学智能与计算学部教授，天津市认知计算与应用重点实验室主任
日本北陆先端科学技术大学院大学兼职教授，中国计算机学会语音对话与听觉专业组主任
本书对近年来鸡尾酒会问题相关的听觉心理学、生理学和认知神经科学的最新研究进展进行了仔细的梳理和系统性的组织，无论从投入精力还是难度上看，这在听觉研究领域都是一项大工程，是一件可喜可贺的大事。通览全书将使你对听觉客体、选择注意、能量掩蔽、信息掩蔽等概念，以及听觉流形成和听觉场景分析计算框架等，形成一个深入全面的认识。重新审视目前语音工程中的基本模块和系统框架，将会激发出新的思想火花和有效的解决思路。
◎ 吴玺宏，北京大学教授，信息科学技术学院副院长，智能科学系主任，言语听觉研究中心主任
听觉处理是言语认知的重要基础，对语音识别、语音增强和认知科学的发展具有重要作用，而鸡尾酒会场景的听觉处理技术是其中具有挑战性的难题。本书从信号层和神经认知层等多个不同的维度，详细阐述了听觉形成的机理和听觉场景的计算框架，以及针对鸡尾酒会问题的详细解决思路，对选择注意、信息掩蔽等现象也进行了深入分析，将能够帮助研究人员系统性地掌握听觉处理的理论与方法，对从事听觉处理技术、语音识别技术、认知科学等方面的研究具有重要的参考价值。译者在该领域有很高的造诣，对原文中的原理性描述，尤其是涉及认知科学的听觉场景计算方法，均能够以准确易懂的方式进行阐述。
◎ 陶建华，中国科学院自动化研究所研究员，模式识别国家重点实验室副主任
中欧信息自动化应用数学联合实验室中方主任，国家杰出青年科学基金获得者，国家万人计划领军人才

译者序

近些年，随着智能交互助手和便携式可穿戴设备的爆炸式发展，语音已经成为人类接入智能计算设备和平台的重要方式。人机语音交互在现实生活中得到非常广泛的应用，重要性日益凸显。根据国际权威调研机构科纳仕（Canalys）发布的2019年度全球智能音箱出货量报告，智能音箱出货量达1.25亿台。可以说，智能语音交互已经从过去的“不可用”发展为限定场景的“基本可用”。然而，由于干扰噪声的存在，复杂开放环境下的语音交互系统仍存在通信质量差、识别准确率低的问题，尚未达到泛场景“很好用”的程度。
该问题早在20世纪50年代初就被英国的认知科学家科林?切利（Colin Cherry）提出，并定义为“鸡尾酒会问题”（Cocktail Party Problem）。鸡尾酒会问题描述了人类听觉系统在复杂听觉场景下令人惊讶的选择性注意能力。例如，当我们身处多个说话人的鸡尾酒会场景中时，我们可以很容易地将注意力集中在某个感兴趣的说话人语音上，并忽略其他说话人语音和环境噪声的干扰。但是半个世纪以来，设计一个能够成功解析复杂场景的计算听觉系统仍是一件极具挑战性的任务。
近些年，得益于深度学习技术的快速发展，听觉感知建模方面的多个任务在实验室环境下几乎取得了全面突破。在标准测试集上，这些系统的语音识别和合成等部分核心性能指标甚至超越了人类水平，端到端方法的产生展现出了广泛的应用前景。然而，在典型实验室环境下设计和训练的计算听觉模型，在不同行业应用场景变换时，容易导致智能交互系统的性能急剧下降。这暴露出现有模型面对通用领域、开放环境自适应能力差，难以满足各种实际应用需求的紧迫问题。
突破智能感知（尤其是听觉感知系统）在复杂开放环境下的基础算法短板，打开端到端深度学习网络黑盒子，借鉴人脑工作机理，让机器能够像人一样灵活地感知复杂听觉场景，从而有效地处理鸡尾酒会问题是当下亟须解决的科学难题，值得深入研究。与视觉的外显注意过程不同，听觉是一个无明显外部指向行为的内隐注意过程，听觉感知器官接收整个听觉场景中所有声源在整个时间轴的混合信号，在复杂的听觉通路上进行信号加工。尽管隐藏在鸡尾酒会问题背后的听觉神经机制尚未明朗，但相关研究依旧取得了一些引人注目的成果。面向复杂环境的类人听觉感知系统需在深入理解人类听觉感知脑机制的基础上展开研究，其科学问题既是听觉语言认知领域的核心科学问题，也是人工智能面临的核心挑战和技术难点。随着人工智能技术的快速发展和类脑研究的多学科融合，我们相信不久的将来，设计面向复杂开放环境下达到类人听觉感知能力的听觉系统将成为可能。正是在这样的背景下，我们确定翻译这本由多名听觉心理学和神经学国际权威专家围绕“鸡尾酒会问题”整理撰写的听觉神经机理与心理行为图书。
在这本书中，将会呈现一大批科研人员在揭秘人耳听觉机制过程中的探索性工作，比如人脑的听觉客体形成和选择机制、空间线索对语音流分离的贡献，以及婴幼儿听觉发育和老年人听觉代偿，等等。本书内容覆盖全面，对我们构建类人听觉计算系统具有重要参考价值和启发意义。
本书的翻译工作在徐波老师的组织下完成，课题组多位同学和老师一同参与了翻译和校对工作，并进行了多次集体研讨，付出了大量的精力。各个章节的翻译者分别是：第1、2章（黄雅婷），第3、5章（石晶），第4、6章（李晨星），第7章（黄旭辉），第8、9章（许家铭），第10章（郝云喆）。审校者分别是：第1、2章（张鹏），第3、5章（许家铭），第4、6章（石晶），第7、10章（程翔），第8、9章（黄雅婷）。最后全部章节再次由许家铭、石晶、梁玮达和倪子懿统一校订。
最后，特别感谢机械工业出版社华章分社姚蕾和柯敬贤编辑在出版工作中付出的辛勤工作。衷心希望能够通过翻译本书为中国研究者在听觉神经科学和听觉计算科学方面的探索贡献绵薄之力，以期共同推进智能语音交互的发展，突破“鸡尾酒会问题”的瓶颈。在图书翻译和审校过程中，受学识水平所限，难免存在不妥之处，欢迎专家和读者给予批评指正，最新勘误列表会及时更新在网址：https://github.com/aispeech-lab/auditory_book。

许家铭石晶徐波
2020年11月，北京

图书目录

推荐语
译者序
前言
第1章解析听觉场景的耳和脑机制 1
1.1 引言 1
1.2 一些关键概念 2
1.3 本书概述 2
1.4 耳和脑 4
参考文献 5
第2章听觉客体的形成和选择 6
2.1 引言 6
2.1.1 鸡尾酒会：令人困惑的混合声音和受限的加工容量 7
2.1.2 基于客体的注意 8
2.1.3 异构化而非层次化加工 9
2.1.4 历史笔记 9
2.2 解析声学场景：听觉客体形成 11
2.2.1 局部频谱时间线索支持“音节层面”的客体形成 11
2.2.2 高阶特征将音节联结成“流” 12
2.2.3 开放问题 13
2.3 聚焦注意：选择什么去加工 14
2.3.1 自上而下控制指导选择 14
2.3.2 自下而上显著性影响注意 14
2.3.3 从不完美的客体中提取语义 15
2.4 基于客体听觉选择性注意的感知结果 15
2.4.1 分散注意的失败 15
2.4.2 客体形成和选择之间的强制性交互 16
2.4.3 转换注意的代价 17
2.5 支持客体形成的神经机制 17
2.6 支持客体选择的神经机制 18
2.6.1 控制注意的视觉认知网络 18
2.6.2 听觉空间注意调用视觉定向和重定向网络 19
2.6.3 非空间听觉注意调动不同的听觉专用网络 20
2.6.4 感知模态和任务要求影响网络活动 20
2.6.5 对关注语音的神经响应夹带 22
2.6.6 关注听觉注意的其他神经特征 23
2.7 总结 23
参考文献 24
第3章能量掩蔽和掩蔽释放 34
3.1 引言 34
3.2 通过基频进行区分 36
3.2.1 基频差值的影响 36
3.2.2 选择一个公共基频的多个谐波分量 37
3.2.3 时域分析 39
3.2.4 外周非线性的影响 40
3.2.5 消除机制 40
3.2.6 加工层级 41
3.2.7 小结 42
3.3 关于包络波动的掩蔽和掩蔽释放 42
3.3.1 在“波谷”中聆听 43
3.3.2 外周非线性的影响 44
3.3.3 调制掩蔽 44
3.3.4 噪声中的内在调制 45
3.3.5 基于调制滤波器组的模型 47
3.3.6 听觉受损者的“波谷聆听”效应 47
3.3.7 小结 49
3.4 掩蔽的空间释放 49
3.4.1 较优耳听觉 50
3.4.2 双耳去掩蔽 52
3.4.3 “迟钝”的问题 53
3.4.4 掩蔽的空间释放模型 53
3.4.5 小结 54
3.5 其他机制 54
3.5.1 频率调制对突出效果的影响 54
3.5.2 起始时间差异与适应的潜在作用 55
3.6 总结 55
参考文献 56
第4章语音识别中的信息掩蔽 61
4.1 引言 61
4.2 混叠语音掩蔽案例的研究历史 62
4.3 确定混叠语音掩蔽中的能量掩蔽和信息掩蔽 64
4.3.1 不确定性 65
4.3.2 控制/估计能量掩蔽 67
4.3.3 语言变量 70
4.4 双耳分析模型在混叠语音掩蔽中的应用 79
4.5 总结 84
参考文献 85
第5章鸡尾酒会问题的建模 90
5.1 引言 90
5.2 定义“鸡尾酒会问题”中的问题 91
5.3 鸡尾酒会问题建模准则 93
5.3.1 算法策略 93
5.3.2 神经学基础 98
5.4 鸡尾酒会问题的自下而上模型 99
5.5 自上而下的过程和鸡尾酒会问题 101
5.6 总结 102
参考文献 103
第6章语音空间流分离 112
6.1 引言 112
6.2 基于心理物理学的空间流分离分析 113
6.2.1 空间线索对语音流整合的微弱掩蔽 114
6.2.2 基于空间线索的鲁棒流分离 115
6.2.3 流分离的空间敏锐度 116
6.2.4 空间流分离的声学线索 118
6.3 一种用于空间流分离的自下向上机制 121
6.3.1 初级听觉皮层的空间流分离 122
6.3.2 皮质神经元的空间节律性掩蔽释放 125
6.3.3 一种自下而上的空间流分离机制 127
6.4 用于空间定位和流分离的“公共”和“专用”空间表示 128
6.5 注意客体的选择 130
6.5.1 行为动物刺激特异性的任务依赖性调节 130
6.5.2 人类神经生理学中的客体选择 131
6.6 总结、综合和未来方向 132
参考文献 133
第7章人类听觉神经科学与鸡尾酒会问题 138
7.1 引言 139
7.1.1 常用实验方法 139
7.1.2 本章主题 140
7.2 人类空间听觉的神经基础 140
7.3 人类听觉流分离的神经基础：简单的声音 143
7.3.1 使用有限注意力操控的研究 144
7.3.2 使用显式注意力操控的研究 147
7.4 人类听觉流分离的神经基础：语音 149
7.4.1 在固定噪声中使用语音的研究 150
7.4.2 使用竞争性语音流的研究 151
7.4.3 噪声中语音处理的神经解剖学 154
7.5 其他方面 155
7.5.1 时间相干性 155
7.5.2 自下而上与自上而下的注意 155
7.6 总结 156
参考文献 157
第8章鸡尾酒会中婴幼儿与儿童的听觉加工 162
8.1 引言 162
8.2 听觉编码的发育 163
8.2.1 频谱分辨率与能量掩蔽 163
8.2.2 基频 164
8.2.3 时间分辨率 165
8.2.4 空间听觉 165
8.2.5 听觉–视觉对应关系 166
8.3 听觉场景分析的发育 166
8.3.1 在讲话中倾听语音 167
8.3.2 听觉场景分析中的线索 168
8.3.3 选择性注意的作用 175
8.4 总结、综合和未来方向 177
参考文献 178
第9章鸡尾酒会中老年人的听觉加工 187
9.1 引言 188
9.2 听觉老化 189
9.2.1 外周 189
9.2.2 语音理解 189
9.2.3 时间加工的心理声学和语音加工的行为测量 190
9.3 听觉和认知老化的电生理学测量 193
9.3.1 脑干 193
9.3.2 皮层 193
9.3.3 调合年龄相关变化的行为和电生理学发现 194
9.4 语音理解中掩蔽声类型依赖的年龄相关差异 195
9.4.1 稳态掩蔽声 195
9.4.2 复杂和波动的非语音掩蔽声 196
9.4.3 语音掩蔽声 196
9.5 前景与背景声音的感知组织中年龄相关差异的行为测量 196
9.5.1 掩蔽的空间分离与释放 197
9.5.2 听觉流分离的形成速度 199
9.5.3 听觉空间注意 200
9.5.4 词汇和句子之上的语篇 201
9.5.5 记忆 202
9.6 认知老化与感觉认知之间的相互作用 203
9.6.1 认知老化 203
9.6.2 感觉认知之间的相互作用 203
9.6.3 脑可塑性与代偿 204
9.7 总结 204
参考文献 205
第10章复杂听觉场景下植入人工耳蜗和助听器的听觉感知 214
10.1 引言 214
10.2 鸡尾酒会中的成人 215
10.2.1 制约表现的因素 215
10.2.2 限制听力损失个体表现的生理因素 216
10.2.3 设备 217
10.3 成人耳蜗植入 218
10.3.1 空间线索可用性 218
10.3.2 双侧植入耳蜗后成人的双耳能力 220
10.3.3 听觉定位 221
10.3.4 双耳掩蔽级差 221
10.3.5 双侧植入耳蜗后成人的掩蔽的空间释放 222
10.3.6 在听觉正常人的测试上模拟人工耳蜗处理的各个方面 225
10.4 使用助听器的成人 226
10.4.1 单侧装配与双侧装配的对比 226
10.4.2 双侧装配的益处 227
10.4.3 技术进步 227
10.5 儿科研究简介 228
10.5.1 研究双侧植入耳蜗儿童 228
10.5.2 双侧顺序植入耳蜗与双侧同时植入耳蜗 230
10.5.3 使用助听器的儿童 231
10.5.4 执行功能的可变性和影响 232
10.5.5 未来方向和临床应用 232
10.6 结论 233
参考文献 233
术语表 240