教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 544

开本 : 16

原书名 : Pattern Classification，Second Edition

原出版社: John Wiley & Sons(USA)

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

本书是模式识别和场景分析领域奠基性的经典名著。在第2版中，除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外，读者将会发现新增了许多新理论和新方法，其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。

图书特色

模式识别领域经典著作，被斯坦福大学等众多名校选作教材

图书前言

本书第1版《模式分类与场景分析》（Pattern Classification and Scene Analysis）于1973年问世，在逾越四分之一世纪以后我们重写了第2版。写作的初衷依然不变，即尽可能对模式识别中的各个重要课题，尤其是对基本原理进行系统性介绍。我们相信这会为相当多有待解决的专门问题，诸如语音识别、光学字符识别或信号分类等，提供必需的基础。本书第1版的许多读者经常问我们为什么要把“模式分类”与“场景分析”结合在一本书里写。在当时，我们所能做的回答是，分类理论的确是模式识别学科中最重要的与领域无关的（domainindependent）理论，而场景分析是那个年代仅有的并且重要的应用领域。况且，根据1973年的研究水平，完全有可能把两个内容集中在一本书中阐述清楚而不显肤浅。在随后的这些年中，模式识别的理论和应用领域已经迅速扩展，使得上述观点再也站不住脚。因为必须要做出选择，所以我们决定在本版中只介绍分类理论，而把有关应用的课题留给其他专门书籍来解决。自1973年以来，对第1版提出的许多问题开展了大量的研究，并且取得了长足的进步。仅仅是计算机硬件的发展已经大大超过了学习算法和模式识别的步伐。第1版提出的一些突出问题目前已获圆满解决，然而另外一些却依然让人灰心。模式识别系统所显现的重大作用，使该领域的研究方兴未艾，并且激动人心。
当我们撰写本书第1版时，模式识别还只是相当专门的学科，但从其目前丰富的应用领域来看，它已变得十分博大。这些应用包括：笔迹和手势的识别、唇语技术、地学分析、文件检索以及气泡室中的亚原子轨迹判读。它为大量人机界面问题提供核心算法，比如笔输入计算。第2版的篇幅正说明了其现有理论的广博。虽然我们预计本书的绝大多数读者都对开发新的模式识别系统感兴趣，但也不排除有少部分人专注于深刻理解现有的模式识别系统。这当中最显著的莫过于人类和动物的神经认知系统。虽然研究模式识别的生物学起源已明显超出本书的范围，但是，由于对自然界中的模式识别能力感兴趣的神经生物学家和心理学家也越来越多地依赖于先进的数学和理论的帮助，因此这部分专家也必将从本书中获益。
尽管已有很多优秀的书籍集中讨论了某一部分技术，我们仍然强烈地感觉需要像本书这样采取某种不同的讨论方法。也就是说，本书并非集中在某些专门技术（如神经网络）上，相反，我们对一类特定的问题——模式识别——开展研究。本书讨论了多种可行的技术。学生和实践者常常需要知道某种技术是否适用于他们的特定需求或者开发目标，许多专门研究神经网络的书籍未必会讨论其他的技术（诸如判定树、最近邻方法或者其他分类器）以提供比较和选择不同方案的依据。为了避免出现这种问题，我们将在本书中对比讨论各种分类技术，并讨论各自的优势和缺点。
所有这些发展要求改写本书的第1版，以获得一个统一的更新的版本。这一版我们不仅丰富了内容，并且在以下几方面进行了改进。
新的材料书中包含很多最近才发展起来并被实践证明有用的模式识别的新技术，比如神经网络、随机方法以及有关机器学习理论的问题，等等。虽然本书仍然以统计技术为主，但是为了保持完整性，我们也加进了句法（结构）模式识别的内容，以及许多“经典”的技术，如隐马尔可夫模型（HMM）、模型选择机制、组合分类器等。
丰富的例题本书包含许多例题，这些例题通常使用很简单的数据，避免冗长单调的计算，但是又足够复杂，使得能够清楚地解释关键知识点。例题的作用在于增强直观认识，并帮助学生解答课后习题。
算法列表凭借算法可以最清楚地解释所讲述的模式识别技术。本书提供了很多算法。算法只是相应的完整计算机程序的一个基本骨架。我们假定每位读者都熟悉算法采用的伪码形式，或者可以通过上下文来理解
。加星号的节有些节加了星号，表明有些专门化，通常是一些补充材料，但它们一般不影响对后续不带星号的节的理解，所以在初次阅读时可以跳过。
上机练习这些练习并不限制采用哪种计算机语言或系统，学生可以根据情况选择适合自己的语言或系统。
习题增加了一些课后习题，并按提出问题的章节组织。本书的习题另有答案手册，可供教师选用。
关于本书教辅资源，只有使用本书作为教材的教师才可以申请，需要的教师可向约翰·威立出版公司北京代表处申请，电话01084187869，电子邮件ayang@wileycom。——编辑注
每章小结每章小结中含有该章中出现的重要概念和知识点。
增强的图表为了更好地展示概念，我们花了很大的力气来增强本书中的图表，以解释正文中的要点。部分图表经过了大量精心的计算和细致的参数设置。相关的Adobe Acrobat格式的文件可以登录http://wwwwileycom/products/subject/engineering/electrical/software supplemelecenghtml获得。
附录学生们未必拥有所必需的数学基础，这一点也不令人奇怪。为此，在书后附录中补充了必要的数学基础知识。我们力求通篇使用清晰的表示法来解释关键特性，同时又保持可读性。附录中的符号列表能够帮助那些愿意仔细钻研预先使用符号的章节的读者。
本书包含足以适合两学期教学的高年级本科或研究生课程的内容，当然要是仔细挑选也适合一学期使用。一学期课程应当包括第1～6章、第9章和第10章（大部分来自第1版的内容，仅仅增加了神经网络和机器学习），加星号的各节可讲可不讲。
由于研究和发展速度如此之快，每章末尾的文献和历史评述就显得十分有必要，尽管有些简略。我们的目的是帮助读者有重点地选择参考文献来阅读，而并不是记录整个历史发展过程和感谢、赞美或表扬某些研究者。参考文献中有的重要文献可能未必在正文中提及，读者可根据标题自行选阅。
如果没有以下研究机构的帮助，我们是不可能完成本书的。第一个也是最重要的一个当属理光发明公司（Ricoh Innovations，DGS & PEH）。在动荡和严酷的工业竞争环境中，以及对产品和创新的无休止的需求压力之下，该公司能够支持像本书这样长期和广泛的教育研究项目，反映出这里有了不起的环境和氛围，以及少有的和明智的领导集体。感谢理光发明公司研究发展部主任Morio Onoe在我们开始写作时给予的热情支持。同样要感谢在写作本书时为我们提供临时住所和帮助的圣何塞加州州立大学，斯坦福大学电气工程系、统计学和心理学系，加州大学伯克利分校，国际高等科学研究院，尼尔斯·玻尔研究所，圣塔·菲研究所。
非常感谢斯坦福大学的研究生Regis Van Steenkiste、Chuck Lam和Chris Overton在图形准备方面提供的巨大帮助，Sudeshna Adak在解答习题中的帮助。感谢理光发明公司的同事Kathrin Berkner、Michael Gormish、Maya Gupta、Jonathan Hull和Greg Wolff的多方面帮助，图书馆工作人员Rowan Fairgrove帮助找到了很多难找的文献，并确认了许多文献作者的名字。本书的很多内容来自斯坦福大学和圣何塞加州州立大学的讲义，从研究生那里得到的反馈使我们受益匪浅。许多教员和科研同人为本书提供了很好的建议，并纠正了很多疏误。特别要感谢Leo Breiman、David Cooper、Lawrence Fogel、Gary Ford、Isabelle Guyon、Robert Jacobs、Dennis Kibler、Scott Kirkpatrick、Benny Lautrup、Nick Littlestone、Amir Najmi、Art Owen、Rosalind Picard、J.Ross Quinlan、Cullen Schaffer和David Wolpert，他们对本书进行了评论。各领域的著名专家审阅了本书各章，他们是Alex Pentland（1）、Giovanni Parmigiani（2）、Peter Cheeseman（3）、Godfried Toussaint（4）、Padhraic Smyth（5）、Yann Le Cun（6）、Emile Aarts（7）、Horst Bunke（8）、Tom Dietterich（9）、Anil Jain（10）和Rao Vemuri（附录），括号中的内容是他们审阅的章。他们富有洞察力的评语对本书多方面的改进都有帮助。不过，我们对仍然存在的错误负责。本书编辑George Telecki给了我们很大的鼓励和支持，而且没有抱怨我们一拖再拖。他和Wiley公司的其他员工都非常乐于帮助我们，给我们提供了许多专业支持。最后非常感谢Nancy、Alex和Olivia Stork对我们沉迷写作的理解和忍耐。

David G. Stork
Richard O. Duda
Peter E. Hart
2000年8月

上架指导

计算机科学及应用

封底文字

本书第1版是模式识别领域的奠基性著作。而今，第2版从这一领域的新成果中精选出重要的内容，对该领域的发展做出新的总结，并指明了对未来至关重要的问题。本书的风格是简明易读，新增的图表使得许多统计学和数学知识变得更加生动，从而帮助读者深入理解新的主题。
—— Sargur N. Srihari博士，纽约州立大学布法罗分校计算机科学与工程系教授
本书是该领域的经典著作，被卡内基·梅隆大学、哈佛大学、斯坦福大学、剑桥大学等120多所学校选作教材。对于开发和研究模式识别系统的技术人员，无论其应用领域是语音识别、字符识别、图像处理还是信号分析，通常都会遇到需要从各类技术中做出选择的难题。本书针对模式识别问题展开研究，分析不同技术的优缺点，并分享了丰富的实践经验，最终引导读者学会比较并选择合适的技术。

本书特色
涵盖模式识别的经典方法和新方法，包括神经网络、随机方法、遗传算法和机器学习理论。
配有超过350幅高质量的双色图表，突出重要概念。
收录大量实用的例题，并扩充了习题和计算机练习。
用算法形式讲解特殊的模式识别和机器学习技术，并提供算法伪代码。
每章末附有文献历史评述以及重要的参考文献。
作者简介
理查德·O. 杜达（Richard O. Duda）圣何塞州立大学电气工程系荣休教授，以其在声音定位和模式识别方面的工作而闻名。美国人工智能学会会士、IEEE会士。拥有麻省理工学院博士学位。
皮特·E. 哈特（Peter E. Hart）加州理光发明（Ricoh Innovations）公司创始人、总裁，在此之前曾任理光加州研究中心高级副总裁。美国人工智能学会会士、IEEE会士，曾获IEEE信息论协会50周年论文奖。
大卫·G. 斯托克（David G. Stork）加州理光发明公司首席科学家，斯坦福大学电气工程与计算机科学系客座教授。国际模式识别学会会士、IEEE会士。拥有马里兰大学博士学位。

作者简介

[美]理查德·O.杜达(Richard O.Duda) 皮特·E.哈特（Peter E. Hart）大卫·G.斯托克（David G. Stork）著：理查德·O.杜达（Richard O.Duda）圣何塞州立大学电气工程系荣休教授，以其在声音定位和模式识别方面的工作而闻名。美国人工智能学会会士、IEEE会士。拥有麻省理工学院博士学位。

皮特·E.哈特（Peter E. Hart）加州理光发明（Ricoh Innovations）公司创始人、总裁，在此之前曾任理光加州研究中心高级副总裁。美国人工智能学会会士、IEEE会士，曾获IEEE信息论协会50周年论文奖。

大卫·G.斯托克（David G. Stork）加州理光发明公司首席科学家，斯坦福大学电气工程与计算机科学系客座教授。国际模式识别学会会士、IEEE会士。拥有马里兰大学博士学位。

译者序

现代计算机具有强大的计算和信息处理能力，但是它在目标识别、环境感知及复杂条件下的决策能力方面远远不如生物系统。目前，已有很多学科分别从不同角度、以不同途径试图研究和揭示这当中的奥秘，并且希望用计算机实现一个具有感知、识别、理解、自学习和自适应能力的灵活、智能的计算机器。这些学科包括模式识别、人工智能、计算机视觉、机器学习、心理生物学和认知科学等。而“模式识别”因其明确的问题定义、严格的数学基础、坚实的理论框架和广泛的应用价值，越来越受到重视，并且成为上述其他几门学科的中心研究内容之一。在过去的几十年里，模式识别研究得到迅速发展，并且已有丰富的理论成果。其实际应用领域也从最初的光学字符识别（OCR），扩展到如今的笔输入计算机、生物身份认证、DNA序列分析、化学气味识别、药物分子识别、图像理解、人脸辨识、表情识别、手势识别、语音识别、说话人识别、信息检索、数据挖掘和信号处理等。
不过尽管如此，相比生物认知系统，现有人工模式识别系统的适应和识别能力还远远不能令人满意。模式识别中许多基础理论和基本方法方面的问题还远没有得到解决，其他问题也层出不穷。鉴于此，研究者和实践者都很需要一本这一领域高水平的学术著作——覆盖现有基础理论方法，全面反映学科研究现状，以及预测学科未来的发展方向。
说起“模式识别”学科的经典著作，即使刚刚跨入该领域不久的初学者都会提到R. O. Duda和P. E. Hart合著的《模式分类与场景分析》（Pattern Classification and Scene Analysis）这本具有奠基性和权威性的著作。它在模式识别学术界和教育界享有崇高声誉，具有重大影响，我国模式识别和计算机视觉界的很多专家学者对这本著作也情有独钟。在20世纪80年代初期，国内大批专家学者赴美进修，师从傅京孙（K. S. Fu）、黄煦涛（T. S. Huang）等国际模式识别界和计算机视觉界的先驱和大师。当时很多人研读的就是这本著作。这其中也包括译者的老师路浩如教授、顾伟康教授和徐胜荣教授等。回国后他们又继续选用这本书作为教材，并推荐给国内的科技工作者。时至今日，一谈及这本书，他们仍会流露出由衷的敬佩和感激之情。
在20世纪70年代初期，关于模式识别学科的定义尚未明朗，但这本出版于1973年的书却内容全面、翔实，观点深刻而富有生命力，眼光独到而长远，许多在当时作为指引方向的新概念几乎预言了今天很多算法的成功，甚至对其未来的发展仍有参考价值。想想1973年的研究水平和计算能力，这确实难能可贵。近50年来，这本书已被世界上许许多多的著名高校用作经典教科书。根据NEC公司文献情报引用统计数据，至今已有几千篇学术论文和多种著作引用过本书，其中包括新近发表的论文。
令国际学术界高兴的是，这本书的第2版于2001年年初在纽约出版发行了。新版改名为《模式分类》（Pattern Classification，Second Edition），作者为Richard O. Duda、Peter E.Hart和David G. Stork。第2版不仅保留了第1版中有关模式分类理论的所有重要和经典的内容，还增加了很多时新且被实践证明是有生命力的新理论、新方法和新实现。Stork博士在筛选本书第1版问世后的新成果的基础上，又做了大量出色的工作，归纳和总结了“模式识别”这一重要与迅速成长的学科的发展规律，为进一步发展指明了方向。第2版刚刚出版就深受欢迎，已经被许多高校用作教材，其中包括圣何塞加州州立大学、斯坦福大学、加州大学伯克利分校等著名学校。2001年10月第2版的日文版翻译完成并开始发行。2002年2月，第2版的第三次修订版本已经开始销售。著名学者、纽约州立大学布法罗分校计算机系S. N. Srihari教授评价道：“第2版进行了（模式识别学科）里程碑式的成就总结。”
与第1版相比，本书第2版把重点放在最核心的“模式分类”理论上，全面、翔实、系统和深入地介绍了相关理论实现和算法。特别是，本书在介绍各种方法的同时，又根据深层的理论分析和作者几十年的实践经验，对不同方法的优缺点和适用范围进行了对比。此外，第2版在内容和形式上进行了以下几方面的改进。
● 增加了许多新的材料。除了保留原有的重要经典内容以外，书中汇集了很多近年才发展起来的并被实践证明是有用的模式识别新技术，比如神经网络、随机方法、进化计算以及机器学习理论。书中虽然以统计技术为主，但保留了句法（结构）模式识别的内容，也包含许多经典的技术，比如隐马尔可夫模型、模型选择机制和组合分类器等。
● 增加了许多例题、课后习题和计算机练习，这使得本书非常适合用作高年级本科生、研究生的教材。
● 有350多幅高质量的图表。这些图表都是精心计算所得，用于反映正文中的要点，值得非常仔细地研究。
● 算法采用伪代码列表形式，便于查找和使用。
● 书中每章末尾的文献和历史评述很有特色，能帮助读者有重点地选择参考文献来阅读并了解相关主题的历史研究过程。
● 附录补充了必要的数学基础知识。
本书内容十分全面，几乎涵盖目前模式识别领域所有重要的理论和方法。本书并不是百科全书式地堆砌材料，由于作者们都是该领域的权威专家，在介绍各种理论和方法时，时刻不忘将不同理论、方法的对比与作者自身的研究成果和实践经验传授给读者，使读者不至于对如此丰富的理论和方法无所适从。另外，特别值得指出的是，本书的第9章非常有特色，也是非常重要的一章。这一章从更高的观点和更深的层次上探讨模式识别和机器学习的许多理论和哲学基础，引入了对指导理论研究和实际应用都至关重要的物理学中普适的“守恒律”和“互补律”等类比手段。从某种意义上来说，只有弄懂了该章的结论，才可能透彻地理解和更好地运用其他章节的内容。
2001年10月，作者David G. Stork博士邀请我们翻译《模式分类》的第2版。实际翻译工作从2002年年初开始，历时4个月完成。这是一本大部头的经典著作，原著的语言精辟、解说透彻，而翻译时间有限，承担这项任务，译者既感到荣幸，又倍觉压力。我们不得不广泛收集资料，紧密结合教学实践经验，夜以继日地翻译，但不管怎样努力，如果没有其他人的大力协助，翻译工作难以如期完成。为此，我们深表感谢。
特别感谢David G. Stork博士邀请我们翻译本书，感谢他与Wiley公司联系版权事宜和多次寄来“勘误表”以及最新印刷版本；感谢赵平女士在翻译和编辑出版本书的过程中给予的大力支持和协助；感谢刘自强，他在微软亚洲研究院学习期间，给我们介绍了Stork博士与本书第2版，并且协助翻译了第10章；感谢程敏，她为本书的翻译做了大量认真细致的工作。感谢机械工业出版社华章分社的大力协助，倘若没有编辑们的热情支持，本书的中译本难以如此迅速地出版；最后还要感谢顾伟康教授（浙江大学信电系）、叶秀清教授（浙江大学信电系）、荆仁杰教授（浙江大学信电系）、李娜（浙江大学CAD&CG国家重点实验室）、温志颖（浙江大学信电系）、Brendan Codey（Wiley Interscience）、George Telecki（Wiley Interscience）、Duda教授（San Jose State University）、Hart教授（Ricoh Innovation，Inc.）等给予的热心支持和帮助。另外，本书的翻译还得到了“国家自然科学基金项目”（60105003）的资助，特此感谢。
本书作为流行且经典的教材和专业参考书，主要面向电子工程、计算机科学、数学和统计学、媒体处理、模式识别、计算机视觉、人工智能和认知科学等领域的研究生和相关领域的科技人员。翻译出版中译本的目的，就是希望能为国内广大从事相关研究的学者和研究生提供一本全面、系统、权威的教科书和参考书。如果能做到这一点，译者将感到十分欣慰。
本书的第2～5章和附录A由姚天翔翻译；其余主要由李宏东翻译；程敏、刘自强等协助完成了部分翻译工作；李宏东、姚天翔整理了全稿。
在翻译过程中，我们力求忠实、准确地把握原著，同时保留原著的风格，但由于译者水平有限，另外翻译时间仓促，书中难免有错误和不准确之处，恳请广大读者批评指正。

李宏东（Hongdong Li）
姚天翔（Tianxiang Yao）
于浙江大学信电系

图书目录

译者序
前言
第1章绪论1
1.1机器感知1
1.2一个例子1
1.3模式识别系统7
1.3.1传感器7
1.3.2分割和组织8
1.3.3特征提取8
1.3.4分类器9
1.3.5后处理10
1.4设计循环11
1.4.1数据采集11
1.4.2特征选择11
1.4.3模型选择12
1.4.4训练12
1.4.5评价12
1.4.6计算复杂度12
1.5学习和适应12
1.5.1有监督学习13
1.5.2无监督学习13
1.5.3强化学习13
1.6本章小结13
全书各章概要13
文献和历史评述14
参考文献15
第2章贝叶斯决策论16
2.1引言16
2.2贝叶斯决策论——连续特征18
2.3最小误差率分类20
2.3.1极小化极大准则21
2.3.2NeymanPearson准则22
2.4分类器、判别函数及判定面23
2.4.1多类情况23
2.4.2两类情况24
2.5正态密度25
2.5.1单变量密度函数25
2.5.2多元密度函数26
2.6正态分布的判别函数28
2.6.1情况1：Σi=σ2I28
2.6.2情况2：Σi=Σ30
2.6.3情况3：Σi＝任意32
2.7误差概率和误差积分35
2.8正态密度的误差上界36
2.8.1Chernoff界36
2.8.2Bhattacharyya界37
2.8.3信号检测理论和操作特性38
2.9贝叶斯决策论——离散特征40
2.9.1独立的二值特征41
2.10丢失特征和噪声特征43
2.10.1丢失特征43
2.10.2噪声特征44
2.11贝叶斯置信网44
2.12复合贝叶斯决策论及上下文49
本章小结50
文献和历史评述51
习题52
上机练习63
参考文献65
第3章最大似然估计和贝叶斯参数估计67
3.1引言67
3.2最大似然估计68
3.2.1基本原理68
3.2.2高斯情况：μ未知70
3.2.3高斯情况：μ和Σ均未知 71
3.2.4估计的偏差72
3.3贝叶斯估计73
3.3.1类条件密度73
3.3.2参数的分布73
3.4贝叶斯参数估计：高斯情况74
3.4.1单变量情况：p(μ｜)74
3.4.2单变量情况：p(x｜)76
3.4.3多变量情况77
3.5贝叶斯参数估计：一般理论78
3.5.1最大似然方法和贝叶斯方法何时有区别 81
3.5.2无信息先验和不变性82
3.5.3Gibbs算法83
3.6充分统计量83
3.7维数问题87
3.7.1精度、维数和训练集的大小90
3.7.2计算复杂度90
3.7.3过拟合92
3.8成分分析和判别函数94
3.8.1主成分分析94
3.8.2Fisher线性判别分析96
3.8.3多重判别分析99
3.9期望最大化算法102
3.10隐马尔可夫模型105
3.10.1一阶马尔可夫模型105
3.10.2一阶隐马尔可夫模型106
3.10.3隐马尔可夫模型的计算106
3.10.4估值问题107
3.10.5解码问题111
3.10.6学习问题113
本章小结114
文献和历史评述115
习题115
上机练习127
参考文献130
第4章非参数技术132
4.1引言132
4.2概率密度的估计132
4.3Parzen窗方法134
4.3.1均值的收敛性137
4.3.2方差的收敛性137
4.3.3举例说明137
4.3.4分类的例子140
4.3.5概率神经网络141
4.3.6窗函数的选取143
4.4n近邻估计143
4.4.1n近邻估计和Parzen窗估计144
4.4.2后验概率的估计145
4.5最近邻规则146
4.5.1最近邻规则的收敛性147
4.5.2最近邻规则的误差率148
4.5.3误差界149
4.5.4近邻规则150
4.5.5近邻规则的计算复杂度151
4.6距离度量和最近邻分类153
4.6.1度量的性质154
4.6.2切空间距离155
4.7模糊分类157
4.8RCE网络160
4.9级数展开逼近161
本章小结163
文献和历史评述164
习题165
上机练习171
参考文献175
第5章线性判别函数177
5.1引言 177
5.2线性判别函数和判定面177
5.2.1两类情况 177
5.2.2多类的情况 179
5.3广义线性判别函数 180
5.4两类线性可分的情况 183
5.4.1几何解释和术语 183
5.4.2梯度下降算法184
5.5感知器准则函数最小化186
5.5.1感知器准则函数 186
5.5.2单个样本校正的收敛性证明187
5.5.3一些直接的推广 190
5.6松弛算法192
5.6.1下降算法 192
5.6.2收敛性证明 194
5.7不可分的情况 195
5.8最小平方误差方法196
5.8.1最小平方误差及伪逆196
5.8.2与Fisher线性判别的关系 198
5.8.3最优判别的渐近逼近199
5.8.4WidrowHoff 算法或最小均方算法 201
5.8.5随机逼近法 202
5.9HoKashyap算法203
5.9.1下降算法 204
5.9.2收敛性证明 205
5.9.3不可分的情况206
5.9.4一些相关的算法 207
5.10线性规划算法209
5.10.1线性规划209
5.10.2线性可分情况209
5.10.3极小化感知器准则函数210
5.11支持向量机 211
5.12推广到多类问题216
5.12.1Kesler构造法217
5.12.2固定增量规则的收敛性217
5.12.3MSE算法的推广 218
本章小结220
文献和历史评述220
习题221
上机练习226
参考文献229
第6章多层神经网络230
6.1引言 230
6.2前馈运算和分类231
6.2.1一般的前馈运算 233
6.2.2多层网络的表达能力233
6.3反向传播算法 235
6.3.1网络学习 236
6.3.2训练协议 239
6.3.3学习曲线 240
6.4误差曲面241
6.4.1一些小型网络241
6.4.2异或问题242
6.4.3较大型的网络243
6.4.4关于多重极小243
6.5反向传播作为特征映射243
6.5.1隐含层的内部表示——权值 244
6.6反向传播、贝叶斯理论及概率246
6.6.1贝叶斯判别与神经网络 246
6.6.2作为概率的输出 247
6.7相关的统计技术247
6.8改进反向传播的一些实用技术248
6.8.1激活函数 249
6.8.2sigmoid函数的参数250
6.8.3输入信号尺度变换 250
6.8.4目标值251
6.8.5带噪声的训练法 251
6.8.6人工“制造”数据 251
6.8.7隐单元数 251
6.8.8权值初始化 252
6.8.9学习率253
6.8.10冲量项254
6.8.11权值衰减255
6.8.12线索255
6.8.13在线训练、随机训练或成批训练256
6.8.14停止训练256
6.8.15隐含层数256
6.8.16误差准则函数257
6.9二阶技术257
6.9.1赫森矩阵 258
6.9.2牛顿法258
6.9.3Quickprop算法259
6.9.4共轭梯度法 259
6.10其他网络和训练算法262
6.10.1径向基函数网络262
6.10.2特殊的基函数263
6.10.3匹配滤波器263
6.10.4卷积网络264
6.10.5递归网络265
6.10.6级联相关266
6.11正则化、复杂度调节和剪枝267
本章小结269
文献和历史评述269
习题271
上机练习277
参考文献280
第7章随机方法 284
7.1引言 284
7.2随机搜索284
7.2.1模拟退火 286
7.2.2玻耳兹曼因子286
7.2.3确定性模拟退火 289
7.3玻耳兹曼学习291
7.3.1可见状态的随机玻耳兹曼学习292
7.3.2丢失特征和类别约束295
7.3.3确定性玻耳兹曼学习297
7.3.4初始化和参数设置 297
7.4玻耳兹曼网络和图示模型 300
7.5进化方法302
7.5.1遗传算法 302
7.5.2其他启发式方法305
7.5.3遗传算法如何起作用306
7.6遗传规划306
本章小结308
文献和历史评述308
习题309
上机练习313
参考文献315
第8章非度量方法 318
8.1引言 318
8.2判定树 318
8.3CART 320
8.3.1分支数目 320
8.3.2查询的选取与节点不纯度 320
8.3.3分支停止准则324
8.3.4剪枝 325
8.3.5叶节点的标记326
8.3.6计算复杂度 327
8.3.7特征选择 328
8.3.8多元判定树 329
8.3.9先验概率和代价函数329
8.3.10属性丢失问题330
8.4其他树方法 331
8.4.1ID3331
8.4.2C4.5 332
8.4.3哪种树分类器是最优的 332
8.5串的识别333
8.5.1串匹配334
8.5.2编辑距离 336
8.5.3计算复杂度 338
8.5.4容错的串匹配338
8.5.5带通配符的串匹配 339
8.6文法方法339
8.6.1文法 340
8.6.2串文法的类型341
8.6.3利用文法的识别 343
8.7文法推断345
8.8基于规则的方法347
本章小结350
文献和历史评述350
习题351
上机练习358
参考文献362
第9章独立于算法的机器学习 365
9.1引言 365
9.2没有天生优越的分类器366
9.2.1没有免费的午餐定理366
9.2.2丑小鸭定理 369
9.2.3最小描述长度372
9.2.4最小描述长度原理 373
9.2.5避免过拟合及Occam剃刀原理374
9.3偏差和方差 375
9.3.1回归中的偏差和方差关系376
9.3.2分类中的偏差和方差关系377
9.4统计量估计中的重采样技术 380
9.4.1刀切法(jackknife)380
9.4.2自助法(bootstrap)382
9.5分类器设计中的重采样技术 383
9.5.1bagging算法383
9.5.2boosting法 384
9.5.3基于查询的学习 387
9.5.4arcing、基于查询的学习、偏差和方差 388
9.6分类器的评价和比较 389
9.6.1参数模型 389
9.6.2交叉验证 389
9.6.3分类准确率的“刀切法”和“自助法”估计 390
9.6.4最大似然模型比较391
9.6.5贝叶斯模型比较 392
9.6.6问题平均误差率 394
9.6.7从学习曲线预测最终性能 396
9.6.8单个分割平面的能力397
9.7组合分类器 398
9.7.1有判别函数的分量分类器 399
9.7.2无判别函数的分量分类器 400
本章小结401
文献和历史评述402
习题403
上机练习408
参考文献412
第10章无监督学习和聚类416
10.1引言416
10.2混合密度和可辨识性416
10.3最大似然估计418
10.4对混合正态密度的应用419
10.4.1情况1：均值向量未知 419
10.4.2情况2：所有参数未知 422
10.4.3均值聚类423
10.4.4模糊均值聚类 425
10.5无监督贝叶斯学习426
10.5.1贝叶斯分类器426
10.5.2参数向量的学习427
10.5.3判定导向的近似解431
10.6数据描述和聚类432
10.7聚类的准则函数435
10.7.1误差平方和准则436
10.7.2相关的最小方差准则436
10.7.3散布准则437
10.8迭代最优化 440
10.9层次聚类442
10.9.1定义442
10.9.2基于合并的层次聚类方法444
10.9.3逐步优化的层次聚类446
10.9.4层次聚类和导出度量447
10.10验证问题447
10.11在线聚类449
10.11.1聚类数目未知 451
10.11.2自适应共振网 452
10.11.3基于评判的学习 454
10.12图论方法455
10.13成分分析 456
10.13.1主成分分析456
10.13.2非线性成分分析 457
10.13.3独立成分分析458
10.14低维数据表示和多维尺度变换460
10.14.1自组织特征映射 462
10.14.2聚类与降维465
本章小结466
文献和历史评述467
习题468
上机练习475
参考文献479
附录A数学基础 481
索引 512