人与机器听觉:听见声音的意义
作者 : [美]理查德·F. 里昂(Richard F. Lyon) 著
译者 : 朱维彬 高莹莹 译
出版日期 : 2021-08-11
ISBN : 978-7-111-68453-4
适用人群 : 高等院校计算机科学、神经科学等方向的学生,相关科研人员
定价 : 169.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 438
开本 : 16
原书名 : Human and Machine Hearing: Extracting Meaning from Sound
原出版社: Cambridge University Press
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书由谷歌首席科学家Lyon撰写,是一部关于听觉研究的系统性学术著作。书中提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,明确反对将耳蜗视作傅里叶频率分析器的做法。本书内容系统且全面,涵盖人类听觉原理、机器听觉理论、精密听觉模型建模和机器听觉应用实例,还包括对听觉研究史上的标志性人物及事例的介绍。本书对数学原理的阐释脉络清晰,并配有算法源码,适合相关领域的技术人员和研究人员参考,也适合作为高等院校相关研究生课程的教材。

图书特色

图书前言

假如我们对于人自身如何听见声音有更深入的了解,那么从通过声音分析并从中提取有用且有意义的信息这个角度上来讲,我们可以让机器拥有更好的听觉。至少,这是我的观点。我已工作数十年,但近些年有更多的事实愈发强化了我的这个观点,愈发有意愿帮助工程人员、研究人员去理解这些知识片段是如何联结成一体的,进而与大家共同推动这门学科的进步。这样就有很多事要做,本书就是一个尝试,我想帮助大家将精力集中于更有效的方向:使新加入的同行对各种观念的演化有足够的了解,使他们能够直接获得新的研发与实验所需的理论,或直接找到能够解决他们有关声音理解问题的现有技术。
本书的写作过程充满了乐趣,得到了来自家庭、朋友以及同事的支持。然而,他们总是一个劲儿地问两个让人烦恼的问题:“书写好了吗?”以及“书写给谁看?”第一个问题的最终答案不言而喻,但关于第二个问题我还想多说几句。我发现有许多人对声音及听觉感兴趣,他们来自不同的学科,学术背景各不相同,所使用的术语与概念有时也互不相通。我希望他们都能成为我的读者,我想向大家传授一个由各种学术观点综合而成的更加全面的学术架构,该框架囊括了处理机器听觉问题所需的一切。他们的专业背景可能会是电子工程、计算机科学、物理学、生理学、听力学、音乐、心理学等,但都可以是我的读者。还有学生、教师、科研人员、产品经理、研发人员及黑客,也可以是我的读者。
本书对于听觉及工程等方面内容的处理对某些人可能太深,而对另一些人可能又太浅;很多人会发现有些他们所知道的内容没有涉及,但我希望所有人都会发现有些内容是有用的—然而他们以前却不知道。尤其是第二部分中所讲授的系统理论,其目的是使不同学术背景的读者对数学、物理、工程及信号处理原理建立共同的理解,而这部分内容对于后面将要讲授的设计、分析以及对于听觉模型及应用的理解,都是必需的。本书后续部分的许多内容可直接阅读,而不必预先掌握第二部分中的系统理论,但我仍然建议通读这部分内容以便熟悉术语,而且以后如果需要深入了解某个特定的知识点,也知道到哪儿查找参考。
对于所有生物系统,在线性与非线性结合方面,听觉可能是最为深入而又精致的。读者将从中了解到,为什么对于听觉来说,这些线性系统概念如此重要但还不足以解释听觉。而理解非线性系统一直是个挑战,为了解决这个问题,我们采用的方式是,将听觉中重要的非线性拆分为若干定义明确的简单机制,且每个理解起来都不会有难度。我们先是基于连续时间系统构建听觉模型,然后利用离散时间系统实现模型在计算机上的高效运行;再次强调,对于非线性的拆分非常重要。
书中的听觉模型有两个鲜明特点,也是多年来我与许多合作者一直在践行的理想:其一,采用嵌入式非线性滤波级联结构来构建耳蜗模型;其二,利用稳定听觉图像或听觉相关谱图来捕获并显示耳蜗发送给大脑信号中的精细时序结构。这里所涉及的对象分别位于听神经的两端,也与我所采用的“倚重听神经”策略相符。从听觉生理学家那里,我们了解了许多有关声音在听神经中的表征特性,但建立的模型与系统却既不产生也不利用耳蜗神经中与声音有关的丰富信息,这种做法似乎是站不住脚的。本书展示了在利用这些信息时我们所采用的一些富有成效的方法。
本书第三、四部分的听觉模型附带开源代码,这样读者在开始构建机器听觉系统时便容易得多。第五部分对一些热门应用的开放性前景进行了探讨,同时也表达了我对读者的期盼,希望大家一起推动这一领域的发展及应用。
在多数情形下,书中的写作主体“我们”所指代的不仅仅是我自己,还包括所有对这些观念做出了贡献的人,其中也包括我们的读者。在少数情形下,若是单纯的个人评述,我会切换用“我”。
对于朋友和同事指出的缺陷及提出的建议,一经采纳,我会支付一美元的谢礼,尽管如此,我亏欠他们的远非致谢所能表达。通过他们的努力,这本书得到了极大的改进。我希望其他人也能够继续提出建议以改进下一版本,同时也会得到几美元的致谢。可以肯定,书中一定还有些遗漏的错误有待大家发掘。
关于历史及关联内容的专栏
由于针对史实以及其他领域相关概念的评述遍及许多章节,我将其中部分内容纳入专栏中,一则使之突出,同时也不占据行文主线。这样做的目的是,向所引用内容的本源致以敬意,同时通过对关联内容的简要说明来提升文字的可读性。我提到了一些老旧技术,是想传递一个理念并相信其能够被大家所认可:这些真空管(阀)放大器、Helmholtz谐振器以及火焰感压计(flame manometer)等,会作为线索将我们导向由一代代学术巨擘所创造的宝贵遗产,无论是在人类听觉还是机器听觉领域,我们都是站立在这些巨人的肩膀上。
我个人的EE专业训练是在晶体管及早期集成电路时代完成的,那时的课程如“电路、信号与系统”都还在讲授连续时间模拟技术。而在当代,信号与系统是从离散时间概念开始教授的,且理由很充分,一是教学内容的改变,二是必须运用通过数字计算机实施的现代媒体教学手段。当代工程人员可能认为将声音视为离散时间采样数据并利用计算机进行处理是很自然的,但在本书中,我仍然选择将连续时间作为主要概念,这是因为声音与耳朵确确实实存在于连续时间域。我希望读者不会将连续时间域视为过时的东西—现实世界就是如此。

在线资源
查找勘误表、代码链接及其他资源,可访问网址machinehearing.org。
致谢
有许多人关心这本著作,花费精力给予我帮助和鼓励。首先要感谢的是Roy Patterson,没有他的鼓励,这项工作甚至还未启动;也是他,在进展缓慢的过程中不断激励着我。
在所有向我提出有效反馈意见的读者中,Rif(Ryan Rifkin)无疑是最为突出的一位,他从书中发现的bug比其他人合起来还要多。其他给出建设性意见的读者,或是仔细阅读了本书内容,或是反馈了关于本书的整体印象,他们是:Jont Allen,Peggy Asprey,Fred Bertsch,Alex Brandmeyer,Peter Cariani,Wan-Teh Chang,Sourish Chaudhuri,Brian Clark,Lynn Conway,Achal Dave,Bertrand Delgutte,Dick Duda,Diek Duifhuis,Dan Ellis,Doug Eck,Dylan Freedman,Jarret Gaddy,Daniel Galvez,Dan Geisler,Pascal Getreuer,Chet Gnegy,Alex Gutkin,Yuan Hao,Thad Hughes,Aren Jansen,James Kates,Nelson Kiang,Ross Koningstein,Harry Levitt,Carver Mead,Ray Meddis,Harold Mills,Channing Moore,Stephen Neely,Eric Nichols,Fritz Obermeyer,Ratheet Pandya,Brian Patton,Justin Paul,Manoj Plakal,Jay Ponte,Rocky Rhodes,David Ross,Mario Ruggero,R. J. Ryan,Bryan Seybold,Shihab Shamma,Phaedon Sinis,Jan Skoglund,Malcolm Slaney,Daisy Stanton,Rich Stern,John L. Stewart,Ian Sturdy,Jeremy Thorpe,George Tzanetakis,Marcel van der Heijden,Tom Walters,Yuxuan Wang,W. Bruce Warr,Lloyd Watts,Ron Weiss,Kevin Wilson,Kevin Woods,Ying Xiao,Bill Yost,Tao Zhang,等等。或许还是有人被遗漏了,但总而言之,非常感谢大家!
我要将此书献给我的家人:我的妻子Peggy Asprey,她是如此美丽、聪慧、开朗、富有成就、充满活力,她说起话来嗓音是那么的甜美;还有我的两个可爱的孩子Susan和Erik,她们是我生命中的挚爱,是我的宝贵财富。虽然有时我把更多的注意力放在了这本书上,但对于我的写作,她们却是以各种方式全力支持。她们是我最美好的风景,最甜蜜的音乐,是她们支撑着我。
最后,由衷感谢我的编辑,来自剑桥大学出版社的Lauren Cowles,感谢她多年来的耐心,帮助我完成了这本书。

上架指导

计算机\人工智能

封底文字

对于机器听觉来说,本书是一部全面的参考指南。Lyon在此领域耕耘数十载,对机器听觉的科学与艺术有着非凡且深刻的见解,无论是通读全书还是随手翻阅,相信读者一定会从中受益匪浅。
——Roy D. Patterson,神经科学家,曾任剑桥大学听觉神经基础研究中心(CNBH)主管

如果你想了解精彩纷呈的听觉研究史,或者想学习听觉技术,那么不要错过本书。如果你想构建一部会“听”的机器,那么必须拜读本书。
——William Yost,著有Fundamentals of Hearing: An Introduction

作为领域专家,Lyon写了一本无与伦比的好书,涵盖听觉神经科学与建模方面的重要技术和前沿成果,是广大学生和专业人员期待已久的理想之作。
——Daniel J. Levitin,著有This Is Your Brain on Music

本书构建了一套完整的听觉理论框架,具有鲜明的学术观点和创作特色:
创造性地提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,强调将听觉模型引入机器听觉应用,反对将耳蜗视作傅里叶频率分析器的做法。
将听觉系统划分为四层,在底层听觉过程模拟的基础上探索高层信息处理机制并验证模型的有效性,为远近场模型等问题的解决以及CASA等技术的落地提供理论支撑,同时拓展了研究思路。
全面涵盖人类听觉原理、机器听觉理论、精密听觉模型建模方法以及利用机器学习方法构建的应用实例,不仅对研究现状进行了系统梳理,而且穿插着对听觉研究史上标志性人物和事例的介绍。
对听觉问题的阐释直击本质,对相关数学表述及推导过程的讲解尤为清晰明了,无须复杂的专业知识也能逐步理解。此外,所有听觉处理算法均配有可免费下载的源代码,便于读者实践。

图书序言

本书将为读者解答以下几方面的问题:听觉系统及大脑如何处理声音;如何将众多听觉知识封装到计算机算法中;以及如何在机器中将算法组合起来,用以模拟听觉在某些日常生活场景中所发挥的作用,比如在一家喧闹的餐厅里倾听歌曲或与朋友交谈。这便是Dick Lyon所意指的“机器听觉”。这些典型应用还涉及日常环境中的声源分离及辨识,而在这些场景中,其环境声场常常充斥着各种干扰声源及背景噪声。我们有理由相信:采用听觉形式进行声音分析及特征提取,与传统的傅里叶幅度谱及mel频域倒谱系数(MFCC)组合相比,将会更加高效、鲁棒。构建听觉机器并将其投入实际应用是一项艰巨的任务。本书后半部分详细讲解精密听觉模型是如何构建的,以及如何与机器学习算法相融合,用以建造两台听觉机器—听觉搜索引擎及听觉旋律匹配器。而本书前半部分描述用以支撑机器听觉的基础知识,阐述构建运行稳定、计算高效的系统所涉及的问题,以及依次解决这些问题的方法。因此,对于机器听觉来说,本书是一部全面的参考指南,包含对一系列已研究问题的梳理,最后是两个令人印象深刻的机器听觉应用演示及其他可能应用方向的总结。这种结合使得本书成为机器听觉领域专家以及面向研究生的机器听觉课程的理想参考手册。
在Lyon的观念中,机器听觉系统分为四“层”。前两层用以模拟耳蜗中的听觉频率分析及脑干中听觉图像的构建。两者结合形成听觉模型,旨在模拟所有动力学及神经处理,用于产生声音初始听觉图像,即声音的内部听觉表征,其构成了感知、流、听觉场景及所有后续处理的基础。第三层从听觉图像中提取与应用有关的特征,并对特征进行大幅度精减,直至构成稀疏形式并输送给第四层。在第四层利用机器学习技术提取声音的意义。将第三、四层组合起来的听觉模型,可用于针对特定听力任务设计的专用听觉机器。
书中对听觉生理学、听觉感知、声学、听觉滤波及听觉信号处理的数学基础进行了精练的诠释,包括对事实本质及其功能的阐述,同时还附加了针对听觉研究史上标志性人物及实验的概述—作为机器听觉参考指南,这部分内容轻松、可读性强。Lyon在此领域耕耘数十载,他的独特经历与学识赋予各章内容以切实的权威性。本书中间部分描述了Lyon所推崇的听觉模型,该模型分为两个不同的阶段:第一阶段模拟耳蜗的运行;第二阶段模拟发生在耳蜗与听觉皮层之间神经中枢内的转换,即将耳蜗输出转换成声音初始听觉图像。耳蜗处理单元是传输线滤波器组,采用“非对称谐振器级联”(CAR)模拟基底膜位移。调谐器增益由分布式自动增益控制(AGC)网络连续调节,该网络通过各级外毛细胞组件分别调整每级CAR。最终,该模型系统展现出听觉处理“速动压缩”(FAC)的特性,以及中脑输出的长时自适应调整特性。这种刺激适应性调整旨在使机器听觉在应对干扰时具备如同人类听觉所具备的鲁棒性。速动压缩非对称谐振器级联(CARFAC)模型在整个听觉动态范围内提供了准确、稳定的耳蜗仿真,是一项巨大的工程成就。这些章节还穿插了一些精美的插图,用于阐明随着声音强度及内容的变化,AGC网络如何针对整套CARFAC频率响应调整滤波器增益及形状。
听觉模型的神经处理部分相对简单,它将“频闪”时序积分(STI)分别应用于从耳蜗模块流出的每个信息通道。STI自动固定神经活动重复的部分,就像示波器触发机制使得行进中的时域波形产生稳定图像一样。一整套耳蜗通道的输出结果被称为稳定听觉图像(SAI)—一系列二维实数值数据帧,实时呈现时就形成了“SAI电影”。各帧中,竖轴由耳蜗通道号构成,横轴由“频闪相对滞后时间”构成(可查看第21章插图中的众多示例)。动物发声(包括语音)含有周期性音段,据此可在自然界中将动物声源与环境噪声区分开来;对于每个重复的神经模式,只要它在声音中持续存在,SAI就会显示出细节清晰且稳定的影像。利用这种方法,借助STI与SAI可实现日常听力任务中的特征提取与声源分离—而在日常环境里,信号(语音、音乐、动物呼叫)通常与干扰噪声混合在一起。
CARFAC耳蜗模型与SAI一起,囊括了我们现在关于听觉处理已知内容(及假设)的大部分,而且着重解决了日常听力中声音特征与区分性的表征。
接下来就是对听觉大脑进行数字化,构建用于听觉机器的听觉模型。这是本书剩余章节的主题。Lyon对听觉场景分析(ASA)及计算听觉场景分析(CASA)的实现算法进行了总结,结论是这些算法还没有能力模拟听觉大脑,主要原因是我们还未理解听觉大脑背后的皮层处理机制。类似地,对于普遍应用于机器学习的神经网络,利用训练数据中输入模式与对应输出的大量样本,可训练出非线性映射。他的结论是,这类神经网络不太可能成为成功的听觉大脑模型的基础,此外,由于帧的大小及帧速的原因,也不太可能将SAI帧作为其输入模式。对于用于实现机器听觉任务的机器学习系统,必须应用某种形式的听觉特征提取以浓缩SAI帧中的听觉信息,并减少分类问题的规模。Lyon还认为,精细定时信息在基础层级参与了人类听觉特征的构建,所以听觉机器也必须以某种形式引入精细的时序结构。
这种考虑引出了将特征工程与机器听觉工程相结合这一有趣的想法,即一方面利用听觉知识,另一方面利用机器学习知识,通过映射设计将高维声音听觉表征转化为适用于机器学习系统的形式。在可能的情况下,由工程人员辨识人类所使用的听觉特征,并设计算法从SAI流中提取这些特征。然而,Lyon认为,机器听觉的发展并不一定取决于能否成功地辨识人类用来解决听力问题的听觉特征。相反,工程人员只需基于对听觉及机器学习系统的了解,在两者之间建立良好的接口,就有可能完成听觉任务。事实上,有人甚至认为,所设计的映射不应删除机器听觉任务运行所必需之外的信息。机器学习算法可能会发现某些非直观的特征,其实际表现比特征工程设计用以模拟人类所提取的特征表现更好。最终,Lyon的结论是,我们需要小心谨慎地处理未来可能面临的问题。我们对听觉大脑的了解还不够,还无法模拟它。为了使机器听觉成为现实,我们需要通过智能映射过程,将非常精致的CARFAC-SAI模型与有效的学习机器相连接,而在这一过程中提取特征的方式不一定要与人类相同。有关机器听觉工程目前所面临的选择的讨论也很有意义,而对于后续工作如何开展,他给出的结论也非常具有说服力。
Lyon是名优秀的教师,他对机器听觉的科学与艺术有着非凡且深刻的见解。无论是通读全书还是随手翻阅,相信读者一定会从中受益匪浅。

Roy D. Patterson
2016年于英国剑桥

译者序

人类的听觉系统奇妙而又精密,几乎每时每刻都在运行,使我们感知周边发声的事物,获悉与人交谈的言语内容,或沉浸于令人愉悦的音乐旋律,对此我们习以为常,因为这似乎是我们与生俱来的能力。那么,听觉功能究竟是如何实现的?在好奇心的驱使下,200年前人们借助生理解剖就绘制出了堪称精美的耳蜗与螺旋神经节生理结构图,由此开启了波澜壮阔而又坎坷曲折的现代听觉理论与技术探索的征程。时至今日,带有听觉功能的各类机器越来越多地出现在我们的身边。为使机器具备与人类接近乃至超出人类的听觉能力,我们需要对人类如何感知声音有足够的了解。而这也正是本书作者Richard F. Lyon所极力推崇且一直实践的方法:通过模拟人的听觉过程,利用计算模型实现机器听觉。
纵览全书,本书在内容组织上有以下几个特点:
内容翔实,系统全面。本书涉及听觉研究的众多领域,包括:听觉感知与生理理论,以及刻画声波传导的声学理论;针对耳蜗建模所需的线性/非线性系统分析理论,以及耳蜗分布式滤波模型(CARFAC模型);还有用以表征听觉神经传递模式的稳定听觉图像(SAI),以及两个以此为输入特征并利用机器学习方法构建的机器听觉应用实例。书中不仅有对听觉研究问题的全面梳理,还有对听觉研究史上标志性人物及其学术建树的介绍—这部分内容对于国内读者尤其难得。
见解深刻,观点鲜明。通过对听觉现象内在机制的解析,创造性地提出CARFAC模型以模拟耳蜗对声音信号的分析,以及带有精细时序结构的SAI以表征听觉神经模式,二者的结合完成了听觉信息处理前端的大部分任务,形成了书中听觉模型的两大亮点。作者对听觉建模问题进行了深入剖析,给出的结论有力且明确,并旗帜鲜明地对将耳蜗视作傅里叶频率分析器的做法表示批评,一再强调要将听觉模型引入机器听觉应用中,强调精细时序结构对听觉建模的重要性。
说理通透,实操性强。作者从事听觉研究近40年,对于听觉的本质有着敏锐的判断,对听觉问题的诠释由表及里,直达要点。为构建听觉计算模型,书中介绍了相关的数学表述及推导过程,由于已有具体概念作为铺垫,原理阐述特别清晰又不失严谨性。比如针对在CARFAC模型中发挥重要作用的可调参零极点滤波器的介绍,整个环节丝丝相扣,脉络清晰明了,不需要信号与系统以及复变函数的知识背景,顺着书中章节就能轻松掌握。书中所涉及的听觉处理算法皆通过编程验证,且相应的代码都已开源,方便读者学习使用。
近期,由于深度学习技术浪潮的涌起,各类利用深度神经网络进行听觉建模的应用实例层出不穷,而且有大量不同专业背景的研发人员参与其中,因而,迫切需要一部有关听觉计算的全面性参考著作。而在声音信号与信息处理的中文学术专著或教材中,有关听觉分析与建模的内容相对薄弱,要么过于简化,要么不够全面。因此,对于国内读者,本书可谓是应急之需,应景之作。本书的作用远非局限于作为参考文献或研究生专业教材,还可以为听觉计算与听觉研究提供直接的技术支持,并为应用与研究的拓展提供新的思路与方法。通过掌握Lyon所构建的这一整套听觉理论架构,读者可以更有信心去解决以下几个方面的问题:
听觉理论研究的技术支持与模型验证。目前,关于大脑机制的研究计划很多,而听觉大脑研究是其重要组成部分。Lyon将听觉系统划分为四层:第一层,利用CARFAC模型模拟最初层级的耳蜗动力学过程;第二层,耳蜗至脑干的神经传输模式由SAI来表征;第三层,初级听觉图像经由丘脑投射到皮层听觉区域,此阶段的信息处理与实现功能有关,对应于特定稀疏形式的特征转换;第四层,对应于新皮层中语音、音乐等信息处理并形成决策。前两层模型对于听觉过程的模拟非常逼真,并在相当程度上得到了生理实验数据的支持,以此为基础,可更为坚实地开展对第三、四层中信息处理机制的探索并验证理论模型的合理性与有效性。
言语技术应用落地及推广过程中所遇到的问题。这些问题往往涉及深层次的听觉处理机制,而利用听觉模型找出解决方案是更为有效的方法。比如语音识别系统应用过程中依旧存留的几个困难问题—跨信道及远近场的统一模型、声源分离、鸡尾酒会等,就可参照书中所介绍的听觉多层处理机制,利用听觉模型所提供的区分性特征,选择合适的深度网络结构模拟大脑皮层中的信息处理模式,解决复杂噪声背景下目标语音的跟踪、识别与理解。
听觉的意义在于“听见声音的意义”,听觉模型尤其是携有丰富信息的各类SAI可启发多种新的应用。听觉模型提供的特征具有更为显著的区分性,因而可用于提高声音事件检测的鲁棒性,又由于含有精细的时序结构,还可用于实现事件的空间定位并检测事件的其他属性。可以想见,通过与具体应用模型相结合,对于计算听觉场景分析(CASA)技术的落地,如多源空间辨识与跟踪等,听觉模型将发挥关键性作用。
综上所述,本书是一部有关听觉研究的系统性学术著作,不仅适合作为研究生专业课程教材,还可作为相关领域工程技术人员、理论研究人员的工作参考手册。
本书翻译工作是我与中国移动研究院高莹莹博士合作完成的,由于学术素养有限,缺陷与错误在所难免,敬请读者批评指正。

朱维彬
2021年5月
于北京交通大学信息所

图书目录

译者序
序言
前言
关于作者
第一部分 声音分析与表征概述
第1章 引言3
1.1 David Marr论视觉与听觉5
1.2 自上而下与自下而上分析8
1.3 神经模拟方法10
1.4 听觉图像11
1.5 耳朵是频率分析器吗12
1.6 第三音13
1.7 声音理解与意义提取14
1.8 机器视觉与机器学习技术的利用15
1.9 本书的内容安排15
第2章 听觉理论18
2.1 一种“新”的听觉理论18
2.2 更新的听觉理论20
2.3 主动与非线性听觉理论21
2.4 听觉三元理论22
2.5 听觉图像理论23
第3章 对数及幂律听觉27
3.1 对数与幂律27
3.2 对数频率28
3.3 对数功率30
3.4 Bode图31
3.5 感知映射33
3.6 恒Q值分析36
3.7 对数应用注意事项36
第4章 人类听觉概述37
4.1?人机对比37
4.2 听觉生理学37
4.3 听觉中的关键问题39
4.4 响度40
4.5 临界频带、掩蔽与抑制43
4.6 音高感知45
4.7 音色52
4.8 协和与不协和53
4.9 语音感知55
4.10 双耳听觉58
4.11 听觉流59
4.12 非线性60
4.13 后续建议61
第5章 声学方法与听觉修正62
5.1 声音、语音与音乐建模62
5.2 短时谱分析62
5.3 谱的平滑与变换66
5.4 源-滤波器模型与同态信号处理68
5.5 摆脱对数70
5.6 听觉频率尺度70
5.7 mel频率倒谱71
5.8 线性预测编码72
5.9 PLP与RASTA73
5.10 自动语音识别中的听觉技术74
5.11 必要的改进75
第二部分 听觉的系统理论
第6章 线性系统引言79
6.1 平滑:恰当的起点80
6.2 线性时不变系统80
6.3 滤波器与频率82
6.4 微分方程与齐次解83
6.5 冲激响应84
6.6 因果性与稳定性86
6.7 卷积86
6.8 本征函数与传递函数87
6.9 频率响应90
6.10 变换与运算方法92
6.11 有理函数及其零极点94
6.12 传递函数增益与相位的图解计算96
6.13 卷积定理97
6.14 级联、并联与反馈结构中滤波器的互联98
6.15 总结及后续安排100
第7章 离散时间与数字系统102
7.1 计算机模拟系统102
7.2 离散时间线性移不变系统102
7.3 冲激响应与卷积103
7.4 离散时间系统中的频率103
7.5 Z变换及其逆变换103
7.6 单位超前算子与单位延迟算子104
7.7 滤波器与传递函数105
7.8 采样与混叠108
7.9 自连续时间系统的映射110
7.10 滤波器设计111
7.11 数字滤波器112
7.12 多输入输出114
7.13 傅里叶分析与频谱图114
7.14 观点及拓展阅读116
第8章 谐振器117
8.1 带通滤波器117
8.2 四阶谐振器121
8.3 谐振器频率响应123
8.4 谐振器冲激响应125
8.5 复谐振器与通用谐振曲线127
8.6 并联系统的复零点128
8.7 实系统实现132
8.8 数字谐振器134
第9章 gammatone及相关滤波器137
9.1 复合谐振器构成的听觉模型137
9.2 多极点137
9.3 复gammatone滤波器139
9.4 实gammatone滤波器142
9.5 全极点gammatone滤波器144
9.6 gammachirp滤波器146
9.7 变极点Q149
9.8 非重极点149
9.9 数字滤波器150
第10章 非线性系统153
10.1 Volterra级数及其他描述153
10.2 基本非线性155
10.3 Hopf分叉155
10.4 分布式带通非线性156
10.5 非线性系统响应曲线157
10.6 双音调响应160
10.7 非线性与混叠161
10.8 特别关注163
第11章 自动增益控制164
11.1 输入-输出强度压缩164
11.2 非线性反馈控制165
11.3 平衡状态下的AGC压缩166
11.4 多级联可变增益168
11.5 由级联谐振器阻尼控制的增益控制170
11.6 AGC动态特性170
11.7 AGC环路稳定性174
11.8 多环路AGC176
第12章 分布式系统中的波178
12.1 均匀线性介质中的波179
12.2 波数与传递函数184
12.3 非均匀介质186
12.4 非均匀介质等效滤波器级联189
12.5 冲激响应190
12.6 群速度与群延迟191
第三部分 听觉外周
第13章 听觉滤波器模型195
13.1 何谓听觉滤波器196
13.2 从谐振器到高斯滤波器198
13.3 听觉滤波器模型应具备的十大优良特性199
13.4 代表性听觉滤波器模型201
13.4.1 听觉滤波器的三条发展路径201
13.4.2 三个圆滑指数滤波器202
13.4.3 四个gammatone族滤波器203
13.4.4 三种滤波器级联204
13.5 难点:时变与非线性听觉滤波器206
13.6 滤波器模型的拟合参数208
13.6.1 拟合心理声学滤波器形状208
13.6.2 OZGF及PZFC变型采用更少参数产生更好拟合210
13.7 抑制212
13.8 由生理数据导出冲激响应212
13.9 耳蜗模型总结及应用215
第14章 耳蜗建模216
14.1 耳蜗结构216
14.2 行波219
14.3 1D、2D及3D流体力学222
14.4 长波、短波及2D模型224
14.5 主动式微观力学227
14.6 尺度对称性与耳蜗频率-位置图227
14.7 滤波器级联耳蜗模型229
14.8 外毛细胞等效主动增益元件231
14.9 力学模型与实验中的色散关系233
14.10 内毛细胞等效检测器234
14.11 传出控制用于对声音的适应235
14.12 总结及拓展阅读237
第15章 CARFAC数字耳蜗模型238
15.1 各部分汇总238
15.2 CARFAC模型框架239
15.3 生理要素239
15.4 模拟模型与双向模型241
15.5 开源软件242
15.6 CARFAC总结242
第16章 非对称谐振器级联243
16.1 线性耳蜗模型243
16.2 耦合型滤波器实现244
16.2.1 级的直流增益246
16.2.2 级响应与级联响应246
第17章 外毛细胞251
17.1 单一机制中的多重效应252
17.2 非线性函数252
17.3 DOHC的AGC效应254
17.4 典型性畸变响应模式256
17.5 形成闭环259
第18章 内毛细胞260
18.1 利用S形函数实现整流261
18.2 自适应纤毛-细胞模型263
18.2.1 Schroeder-Hall模型264
18.2.2 Allen模型264
18.2.3 Meddis模型265
18.2.4 模型选择266
18.3 数字IHC模型266
第19章 AGC环路滤波器268
19.1 CARFAC的AGC环路268
19.2 AGC滤波器结构268
19.3 平滑滤波器零极点分析269
19.4 AGC滤波器的时域响应271
19.5 AGC滤波器的空间响应273
19.6 带抽取的时空平滑275
19.7 适调特性275
19.8 双耳或多耳操作276
19.9 CARFAC和其他系统中的耦合及多级AGC277
第四部分 听神经系统
第20章 听神经与蜗核281
20.1 从毛细胞到神经放电282
20.2 音调拓扑组构284
20.3 耳蜗谱图中的精细时间结构284
20.4 蜗核中的细胞类型285
20.5 抑制及其他计算286
20.6 尖峰时序编码287
第21章 听觉图像288
21.1 声音的电影288
21.2 历史289
21.3 稳定听觉图像289
21.4 触发式时序积分292
21.4.1 基于触发脉冲的互相关292
21.4.2 触发同步294
21.5 传统短时自相关296
21.6 非对称性296
21.7 SAI计算298
21.8 基音与频谱299
21.9 音乐听觉图像299
21.10 语音听觉图像300
21.11 SAI汇总轨迹:基音谱图302
21.12 SAI耳蜗谱图304
21.13 对数-延迟SAI304
第22章 双耳空间听音308
22.1 Rayleigh双重理论:耳间强度及相位308
22.2 ITD与ILD313
22.3 头相关传递函数314
22.4 耳间差异的神经提取317
22.5 蜗核与斜方体的作用320
22.6 双耳声反射与增益控制321
22.7 优先效应322
22.8 模型实现323
22.9 耳间相干324
22.10 双耳应用324
第23章 听觉大脑326
23.1 场景分析:ASA与CASA326
23.2 注意力及流分离328
23.2.1 合成-分析328
23.2.2 “单纯试音”对比自上而下处理330
23.2.3 时频掩蔽ASA330
23.3 脑中的多级332
23.3.1 听觉图像在哪儿333
23.3.2 CASA在哪儿334
23.4 高层级听觉通路334
23.4.1 下丘336
23.4.2 内侧膝状体336
23.4.3 听觉皮层337
23.4.4 下行通路337
23.5 展望338
第五部分 机器学习及应用
第24章 机器学习神经网络341
24.1 向数据学习341
24.2 感知机341
24.3 训练阶段342
24.4 非线性输出344
24.5 输入中的非线性347
24.6 多感知层348
24.7 神经单元与神经网络348
24.8 误差反向传播训练350
24.9 代价函数与正则化351
24.10 多类分类器353
24.11 神经网络的成功与失败354
24.12 统计学习理论355
24.13 总结与观点356
第25章 特征空间358
25.1 特征工程359
25.2 深度网络自动特征优化360
25.3 带通功率与二次特征361
25.4 耳蜗滤波器组输出的二次特征361
25.5 特征提取中的非线性与增益控制362
25.6 神经启发特征提取363
25.7 稀疏化和赢者通吃特征363
25.8 哪种方法会胜出364
第26章 声音搜索365
26.1 声音建模366
26.1.1 耳蜗模型滤波器组367
26.1.2 基于频闪时序积分的稳定听觉图像367
26.1.3 SAI的稀疏编码367
26.1.4 矩形选择369
26.2 给定文本查询的声音排序370
26.3 实验373
26.3.1 数据集373
26.3.2 实验设置374
26.3.3 稀疏编码参数374
26.3.4 与MFCC对比374
26.4 结果374
26.5 结论与下一步工作377
第27章 音乐旋律匹配378
27.1 算法380
27.1.1 SAI380
27.1.2 听觉图像的色度380
27.1.3 频谱图的色度382
27.1.4 区间谱图的生成382
27.1.5 相似性评分384
27.2 实验385
27.3 讨论387
27.3.1 SAI和基于频谱图的色度387
27.3.2 规模扩展387
27.3.3 区间谱图的哈希387
27.4 总结与结论388
第28章 其他应用389
28.1 听觉生理学与心理声学389
28.2 音频编码与压缩390
28.3 助听器与人工耳蜗390
28.4 声音可视化395
28.5 诊断397
28.6 语音与说话人识别398
28.7 音乐信息检索399
28.8 安全、监视与报警400
28.9 日志、总结与索引400
28.10 结束语401
中英文术语对照表402
参考文献

教学资源推荐
作者: [美]米凯尔·J. 科申德弗(Mykel J. Kochenderfer) 蒂姆·A. 惠勒(Tim A. Wheeler) 著
作者: [希]西格尔斯?西奥多里蒂斯(Sergios Theodoridis)著
作者: Nils J.Nilsson
作者: [德]伯恩哈德·G. 胡姆(Bernhard G. Humm) 著
参考读物推荐
作者: 高聪 王忠民 陈彦萍 著
作者: [美]托马斯·H. 达文波特(Thomas H. Davenport) 著
作者: [西班牙]伯纳多·朗奎洛·贾蓬(Bernardo Ronquillo Japón) 著