教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 530

开本 : 16开

原书名 : Pattern Classification

原出版社: John Wiley & Sons

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

本书的第1版《模式分类与场景分析》出版于1973年，是模式识别和场景分析领域奠基性的经典名著。在第2版中，除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外，读者将会发现新增了许多近25年来的新理论和新方法，其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。作者还为来来25年的模式识别的发展指明了方向。书中包含许多实例，各种不同方法的对比，丰富的图表，以及大量的课后习题和计算机练习。
　　本书作为流行和经典的教材，主要面向电子工程、计算机科学、数学和统计学、媒体处理、模式识别、计算机视觉、人工智能和认知科学等领域的研究生和高年级本科生，也可—作为相关领域科技人员的重要参考书。　

图书特色

Richard O．Duda　于麻省理工学院获得电气工程博士学位，是加州san Jose洲立大学电气工程系名誉教授。他是美国人工智能学会会士，IEEE会士。
Peter E. Hart　是加州Ricoh Innovations公司的创始人、总裁和CEO，同时还是理光公司的高级副总裁，在此之前曾任理光加州研究中心的高级副总裁。他是美国人工智能学会会士、IEEE会士，曾获IEEE信息论协会50周年论文奖。
Duda C．Stork　于马里兰大学获得博士学位，现任加州Ricoh Innovations公司的首席科学家，同时也是斯坦福大学电气工程与计算机科学客座教授。

图书前言

本书第1版《模式分类与场景分析》(Pattern Classification and Scene Analysis)于1973年问世，在逾越四分之一世纪以后的今天我们重写了第2版。写作的初衷依然不变，即尽可能地对模式识别中的各个重要课题，尤其是对基本原理进行系统地介绍。我们相信这会为相当多有待解决的专门问题，诸如语音识别、光学字符识别或信号分类等，提供必需的基础。本书第1版的许多读者经常问我们为什么要把“模式分类”与“场景分析”结合在一本书里写。在当时，我们所能做的回答是，分类理论的确是模式识别学科中最重要的与领域无关的(domain—independent)理论，而场景分析是那个年代仅有的并且重要的应用领域。况且，根据1973年的研究水平，完全有可能把两个内容集中在一本书中阐述清楚而不显肤浅。在随后的这些年中，模式识别的理论和应用领域已经迅速扩展，使得上述观点再也站不住脚。因为必须要做出选择，所以我们决定在本版中只介绍分类理论，而把有关应用的课题留给其他专门书籍来解决。自1973年以来，对第1版中提出的许多问题开展了大量的研究，并且取得了长足的进步。仅仅是计算机硬件的发展已经大大超过了学习算法和模式识别的步伐。第1版中提出的一些突出问题目前已获圆满解决，然而另外一些却依然让人灰心。模式识别系统所显现的重大作用，使该领域的研究方兴未艾，并且激动人心。
　　当我们在撰写本书第l版时，模式识别还只是相当专门的学科。但从其目前丰富的应用领域来看，它已变得十分博大。这些应用包括：笔迹和手势的识别、唇语技术、地学分析、文件检索以及气泡室中的亚原子轨迹判读。它为大量人—机界面问题提供核心算法，比如笔输入计算。第2版的篇幅正说明了其现有理论的广博。虽然我们预计本书的绝大多数读者都对开发新的模式识别系统感兴趣，但也不排除有少部分人专注于深刻理解现有的模式识别系统。这当中最显著的莫过于人类和动物的神经认知系统。虽然研究模式识别的生物学起源已明显超出本书的范围，但是，由于对自然界中的模式识别能力感兴趣的神经生物学家和心理学家也越来越多地依赖于先进的数学和理论的帮助，从而也必将从本书中获益。
　　尽管已有很多优秀的书籍集中讨论某一部分技术，我们仍然强烈地感到需要像本书这样采取某种不同的讨论方法。也就是说，本书并非集中在某些专门技术如神经网络上，相反，我们对一类特定的问题——模式识别问题——开展研究。本书讨论了多种可行的技术。学生们和实践者常常需要知道某种技术是否适合于他们的特定需求或者开发目标，许多专门研究神经网络的书籍未必会讨论其他的技术(诸如判定树、最近邻方法或者其他分类器)以提供比较和选择不同方案的依据。为了避免出现这种问题，我们将在本书中对比讨论各种分类技术，并讨论各自的优势和缺点。
　　所有这些发展要求改写本书的第1版，以获得一个统一的更新的版本。我们不仅丰富了本书的内容，并且在以下几方面作了改进。
　　新的材料　书中包含有很多最近十几年才发展起来并被实践证明是有用的模式识别的新技术，比如神经网络、随机方法以及有关机器学习理论的问题，等等。虽然本书仍然以统计技术为主，但是为了保持完整性，我们也加进了句法(结构)模式识别的内容，还包含许多“经典”的技术，如隐马尔可夫模型(HMM)、模型选择机制、组合分类器等。
　　丰富的例题　本书中包含有许多例题，这些例题通常使用很简单的数据，避免冗长单调的计算，但是又足够复杂，使得能够清楚地解释关键知识点。例题的作用在于增加直观认识，帮助学生解决课后习题。
　　算法列表　藉助算法可以最清楚地解释所讲述的模式识别技术。本书中，我们提供了很多算法。算法只是相应的完整计算机程序的一个基本骨架。我们假定每位读者都熟悉算法中采用的伪码形式，或者可以通过上下文来理解。
　　加星号的节　有些节加了星号，表明有些专门化，通常是一些补充材料。但它们一般不影响对后续不带星号的节的理解，所以在初次阅读时可以跳过。
　　上机练习　这些练习并不限制采用哪种计算机语言或系统，学生可以根据情况选择适合自己的语言或系统。
　　课后习题　增加了一些课后的习题，并按提出问题的章节组织。本书的习题另有答案手册，可供教师选用。
　　每章小结　每章小结中含有本章重要的概念和知识点。
　　增强的图表　为了更好地展示概念，我们花了很大的力气来增强本书中的图表，以解释正文中的要点。部分图表的建立，经过了大量精心的计算和细致的参数设置。相关的Adobe Acrobat格式的文件可以登录ftp：／／ftp．wiley．com／public／sci_tech_med／pattern／或http：／／www．wiley．com／products／subject／engineering／electrical／software_supplem_elec_eng．html获得。
　　数学附录　学生们未必拥有所必需的同样的数学基础，这一点也不令人奇怪。为此，在书后附录中补充了必要的数学基础知识。我们力求通篇使用清晰的表示法来解释关键特性，同时又保持可读性。附录中的符号列表能够帮助那些愿意仔细钻研预先使用符号的章节的读者。
　　本书包含足以适合两学期的高年级本科或研究生课程的材料，当然通过仔细挑选也可变成一学期的课程。一学期课程应当包括第1章到第6章，第6章和第10章(大部分来自第1版的内容，仅仅增加了神经网络和机器学习)，加星号的各节可讲可不讲。
　　由于研究和发展速度如此之快，书中每章末尾的文献和历史评述就显得十分有必要，尽管有些简略。我们的目的无非是想帮助读者有重点地选择阅读参考文献，而并非是记录整个历史发展过程和感谢、赞美或表扬某些研究者。参考书目中有的重要文献可能未必在正文中提及，读者可根据标题自行选阅。
　　如果没有以下几个研究机构的帮助，我们是不可能完成本书的。第一个最重要的一个当属理光发明公司(Ricoh Innovations，DGS & PEH)。在动荡和严酷的工业竞争环境中，以及对产品和创新的无休止的需求压力之下，该公司能够支持像本书这样长期和广泛的教育研究项目，反映出这里有了不起的环境和氛围，以及少有的和明智的领导集体。感谢理光有限公司研究发展部主任Morio Onoe在我们开始写作时给予的热情支持。同样要感谢圣何塞加州州文大学，斯坦福大学电气工程系、统计学和心理学系，加州大学伯克利分校，国际高等科学研究院，尼尔斯·玻尔研究所，圣塔·菲研究所，在写作本书时，他们为我们提供了临时寓所和帮助。
　　非常感谢斯坦福大学的研究生Regis Van Steenkiste，Chuck Lam和Chris Overton在图形准备方面提供的巨大帮助，Sudeshna Adak在解答习题中的帮助。感谢理光公司的同事Kathrin Berkner，Michael Gormish，Maya Gupta，Jonathan Hull和Greg Wolff的多方面帮助，图书馆员Rowan Fairgrove帮助找到很多难找的文献，并确认了许多文献作者的名字。本书很多内容来自在斯坦福大学和圣何塞加州州立大学的讲义，从研究生得到的反馈使本书受益匪浅。许多教员和科研同仁为本书提供很好的建议，并纠正了很多疏误。特别要感谢Leo
Breiman，David Cooper，Lawrence Fogel，Gary Ford，Isabelle Guyon，Robert Jacobs，Dennis Kibler，Scott Kirkpatrick，Benny Lautrup，Nick Littlestone，Amir Najmi，Art Owen，Rosalind Picard，J．Ross Quinlan，Cullen Schaffer 和 David Wolpert，他们对本书进行了评论。各领域的著名专家审阅了本书各个章，他们是Alex Pentland(1)，Giovanni Parmigiani(2)，Peter Cheeseman(3)，Godfried Toussaint(4)，Padhraic Smyth(5)，Yann Le Cun(6)，Emile Aarts(7)，Horst Bunke(8)，Tom Dietterich(9)和Anil Jain(10)和 Rao Vemuri(Appendix)，括号中数字是审阅的章号。他们富有洞察力的评语对本书多方面的改进都有帮助。不过，我们对仍然存在的错误负责。本书编辑George Teleeki给了我们很大的鼓励和支持，而且没有对我们一拖再拖的进度抱怨。他和Wiley公司的其他员工都非常乐于帮助我们，并且都是专业性的支持。最后非常感谢Nancy，Alex和Olivia Stork对我们沉迷写作的理解和忍耐。
　　David G. Stork
　　Richard O. Duda
　　Peter E．Hart
　　2000年8月

作者简介

[美]Richard O.Duda,Peter E.Hart,David G.Stork：Richard O.Duda: 于麻省理工学院获得电气工程博士学位，是加州San Jose州立大学电气工程系名誉教授。他是美国人工智能学会会士、IEEE会士。
Peter E.Hart: 是加州Ricoh Innovations公司的创始人、总裁和CEO，同时还是理光公司的高级副总裁，在此之前曾任理光加州研究中心的高级副总裁。他是美国人工智能学会会士、IEEE会士，曾获IEEE信息论协会50周年论文奖。
David G.Stork: 于马里兰大学获得博士学位，现任加州Ricoh Innovations公司的首席科学家，同时也是斯坦福大学电气工程与计算机科学客座教授。

译者简介

李宏东姚天翔等：暂无简介

译者序

现代计算机具有强大的计算和信息处理的能力，但是它在目标识别、环境感知及在复杂条件下的决策能力远远不如生物系统。目前，已有很多学科分别从不同角度、以不同途径试图研究和揭示这当中的奥秘，并且希望用计算机实现一个具有感知、识别、理解、自学习和自适应能力的灵活和智能的计算机器。这些学科包括模式识别、人工智能、计算机视觉、机器学习、心理生物学和认知科学等。而“模式识别”，因其明确的问题定义、严格的数学基础、坚实的理论框架和广泛的应用价值，获得越来越多的重视，并且也成为上述其他几门学科的中心研究内容之一。在过去的几十年里，模式识别的研究得到迅速发展，并且已有丰富的理论成果。其实际应用领域也从最初的光学字符识别(OCR)，扩展到如今的笔输入计算机、生物身份认证、DNA序列分析、化学气味识别、药物分子识别、图像理解、人脸辨识、表情识别、手势识别、语音识别、说话人识别、信息检索、数据挖掘和信号处理等领域。
　　不过尽管如此，相比生物认知系统，现有人工模式识别系统的适应和识别能力还远远不能令人满意。模式识别的许多基础理论和基本方法方面的问题还远没有得到解决，新出现的问题也层出不穷。鉴于此，研究者和实践者都很需要一本这一领域高水平的学术著作，其中包含现有基础理论方法，全面反映学科研究现状，以至预测未来发展的方向。
　　说起“模式识别”学科的经典著作，即使刚刚跨入该领域不久的初学者都会提到R．O．Duda和P．E．Hart合著的《模式分类与场景分析》(Pattern Classi fication and Scene Analysis，John Wiley & Sons，1973)这本奠基性和权威性的名著。它在国际模式识别学术界和教育界享有崇高声誉和具有重大影响，我国的很多模式识别和计算机视觉界的专家学者对这本著作也情有独钟。在20世纪80年代初期，国内大批专家学者赴美进修，师从傅京孙(K．S．Fu)、黄煦涛(T．S．Huang)等国际模式识别界和计算机视觉界的先驱和大师。当时很多人研读的就是这本著作。这其中也包括译者的老师路浩如教授、顾伟康教授和徐胜荣教授等。回国后他们又继续选用本书作教材，传授给国内的学生和科技工作者。时至今日，一谈及本书，他们仍能流露出由衷的敬佩和感激之情。
　　在20世纪70年代初期，关于模式识别学科的定义尚未明朗，但这本出版于1973年的书却内容全面、详实，观点深刻而富有生命力，眼光独到而长远，许多在当时作为指引方向的新概念几乎预言了今天很多算法的成功，甚至对未来的发展仍有参考价值。想想1973年的研究水平和计算能力，这确实难能可贵。30年来，这本书已被许许多多的世界著名高校用作经典教科书。根据NEC公司文献情报引用统计数据，至今已有超过两千篇学术论文和多种著作引用过该书，其中包括新近发表的论文。
　　令国际学术界高兴的是，这本书的第2版于2001年初在纽约出版发行了。新版改名为《模式分类》(Pattern Classification，2nd Edition)，作者为R. O．Duda，P．E．Hart，D．G．Stork。在第1版发行25年之后重写的第2版，不仅保留了第1版中有关模式分类理论的所有重要和经典的内容，而且增加了很多时新的而且被实践证明是有生命力的新理论、新方法和新实现。Stork博士在筛选本书第1版问世后25年间的新成果的基础上，又做了大量出色的工作，归纳和总结了“模式识别”这一重要与迅速成长中的学科的发展规律，为进一步发展指明了方向。第2版刚刚出版就受到普遍欢迎，已经被许多高校用作教材，其中包括圣何塞加州州立大学、斯坦福大学、加州大学伯克利分校等著名学校。2001年10月第2版的日文版翻译完成并开始发行。2002年2月，第2版的第三次修订版本已经开始销售。著名学者，纽约州立大学布法罗分校计算机系S．N．Srihari教授评价道：“第2版作了(模式识别学科)里程碑式的成就总结。”
　　与第1版相比，本书第2版把重点放在最核心的“模式分类”理论上，全面、详实、系统和深入地介绍相关理论实现和算法。特别是，本书在介绍各种方法的同时，又根据深层的理论分析和作者几十年的实践经验总结，对不同方法的优缺点和适用范围作了对比。此外，第2版在内容和形式上作了以下几方面的改进。
　　增加了许多新的材料。除了保留原有的重要经典内容以外，书中包含很多最近十几年才发展起来的并被实践证明是有用的模式识别的新技术，比如神经网络、随机方法、进化计算以及机器学习理论。书中虽然以统计技术为主，但保留了句法(结构)模式识别的内容，也包含许多“经典”的技术，比如隐马尔可夫模型、模型选择机制和组合分类器等。
　　增加许多例题、课后习题和计算机练习，使得本书非常适合用作高年级本科生、研究生教材，有350多幅高质量的图表。这些图表都是精心计算所得，用于反映正文中的要点，值得非常仔细地研究。
　　算法采用伪代码列表形式，便于查找和使用。
　　书中每章末尾的文献和历史评述很有特色，能帮助读者有重点地选择阅读参考文献，并且能了解相关主题研究的历史过程。
　　书后的数学附录补充了必要的数学基础知识。
　　本书内容十分全面，几乎涵盖目前“模式识别”所有重要的理论和方法。本书并没有陷入“百科全书”式的堆砌材料的工作，由于作者们都是该领域的权威专家，在介绍各种理论和方法时，时刻不忘将不同理论、方法的对比与作者自身的研究成果和实践经验传授给读者，使读者不至于对如此丰富的理论和方法无所适从。另外，特别值得指出的是，本书的第9章非常有特色，也是非常重要的一章。这一章从更高的观点和更深的层次上探讨模式识别和机器学习的许多理论和哲学的基础，引入对指导理论研究和实际应用都至关重要的物理学中普适的“守恒
律”和“互补律”等类比的手段。从某种意义上来说，只有懂得了本章的结论，才可能透彻地理解和更好地运用其他章节的内容。
　　2001年10月，作者D．G．Stork博士邀请我们翻译《模式分类》的第2版。实际翻译工作从2002年初开始，历时4个月完成。这是一本大部头的经典著作，原著中的语言精辟、解说透彻，而翻译时间有限，承担这项任务，译者既感到荣幸，又深感肩上的压力。我们不得不广泛收集资料，紧密结合教学实践经验，并夜以继日地进行翻译。但不管怎样努力，如果没有有关人士的大力协助，翻译工作难以如期完成。为此，我们深表感谢。
　　特别感谢D．G．Stork博士邀请我们翻译此书，并与Wiley公司联系版权事宜和多次寄来“勘误表”以及最新印刷版本；感谢赵平女士，在翻译和编辑出版本书中给予的大力支持和协助，感谢刘自强，他在微软亚洲研究院学习期间，给我们介绍了Stork博士与该书第2版，并且协助翻译了第10章；感谢程敏，她为本书的翻译作了大量认真细致的工作。感谢机械工业出版社华章分社的大力协助，倘若没有他们的热情支持，本书的中译本难以如此迅速地出版；最后我们还要感谢顾伟康教授(浙江大学信电系)、叶秀清教授(浙江大学信电系)、荆仁杰教授(浙江大学信电系)、李娜(浙江大学CAD&CG国家重点实验室)、温志颖(浙江大学信电系)、Brendan Codey(Wiley Interscience)、George Telecki(Wiley Interscience)、Duda教授(San Jose State University)、Hart教授(Ricoh Innovation，Inc．)等给予的热心支持和帮助。另外，本书的翻译得到了“国家自然科学基金项目”(60105003)的资助，特此感谢。
　　本书作为流行和经典的教材和专业参考书，主要面向电子工程、计算机科学、数学和统计学、媒体处理、模式识别、计算机视觉、人工智能和认知科学等领域的研究生和相关领域的科技人员。翻译出版中译本的目的，就是希望能为国内广大从事相关研究的学者和研究生提供一本全面、系统、权威的教科书和参考书。如果能做到这一点，译者将感到十分欣慰。
　　本书第2章～第5章和附录A数学基础由姚天翔翻译；其余主要由李宏东翻译；程敏、刘自强等协助完成部分翻译工作；由李宏东、姚天翔整理全稿。
　　在翻译过程中，我们力求忠实、准确地把握原著，同时保留原著的风格。但由于译者水平有限，另外翻译时间仓促，书中难免有错误和不准确之处，恳请广大读者批评指正。
　　李宏东(Hongdong Li)
　　姚天翔(Tianxiang Yao)
　　2002年4月
　　于浙江大学信电系

图书目录

出版者的话
专家指导委员会
译者序
前言
第1章　绪论
1. 1　机器感知
1. 2　一个例子
1. 3　模式识别系统
1. 3. 1　传感器
1. 3. 2　分割和组织
1. 3. 3　特征提取
1. 3. 4　分类器
1. 3. 5　后处理
1. 4　设计循环
1. 4．1　数据采集
1. 4. 2　特征选择
1. 4. 3　模型选择
1. 4. 4　训练
1. 4．5　评价
1. 4. 6　计算复杂度
1. 5　学习和适应，
1. 5. 1　有监督学习
1. 5. 2　无监督学习
1. 5. 3　强化学习
1. 6　本章小结
全书各章概要
文献和历史评述
参考文献
第2章　贝叶斯决策论
2. 1　引言
2. 2　贝叶斯决策论--连续特征
2. 3　最小误差率分类
2. 3. 1　极小化极大准则
2. 3. 2　Neyman-Pearson准则
2. 4　分类器、判别函数及判定面
2. 4. 1　多类情况
2．4. 2　两类情况
2. 5　正态密度
2. 5．1　单变量密度函数
2. 5. 2　多元密度函数
2. 6　正态分布的判别函数
2. 6. 1　情况1：∑i＝ I
2．6．2　情况2：∑i＝∑
2．6．3　情况3：∑i=任意
2. 7　误差概率和误差积分
2．8　正态密度的误差上界
2．8．1　Chernoff界
2．8．2　Bhattacharyya界
2．8．3　信号检测理论和操作特性
2．9　贝叶斯决策论--离散特征
2．9．1　独立的二值特征
2. 10　丢失特征和噪声特征
2．10．1　丢失特征
2. 10. 2　噪声特征
2. 11　贝叶斯置信网
2. 12　复合贝叶斯决策论及上下文
本章小结
文献和历史评述
习题
上机练习
参考文献
第3章　最大似然估计和贝叶斯参数
估计
3．1　引言
3．2　最大似然估计
3. 2. 1　基本原理
3. 2．2　高斯情况：u未知
3．2．3　高斯情况：u和∑均未知
3. 2. 4　估计的偏差
3. 3　贝叶斯估计
3．3. 1　类条件密度
3. 3. 2　参数的分布
3．4　贝叶斯参数估计：高斯情况
3．4. 1　单变量情况：p(u｜D)
3. 4．2　单变量情况：p(x｜D)
3. 4．3　多变量情况
3．5　贝叶斯参数估计：一般理论
3．5. 1　最大似然方法和贝叶斯方法何时有区别
3．5. 2　无信息先验和不变性
3. 5. 3　吉布斯算法
3. 6　充分统计量
3．7　维数问题
3．7．1　精度、维数和训练集的大小
3．7．2　计算复杂度
3．7．3　过拟合
3．8　成分分析和判别函数
3．8. 1　主成分分析
3．8．2　Fisher线性判别分析
3. 8. 3　多重判别分析
3．9　期望最大化算法
3．10　隐马尔可夫模型
3．10．1　一阶马尔可夫模型
3．10．2　一阶隐马尔可夫模型
3．10．3　隐马尔可夫模型的计算
3. 10. 4　估值问题
3．10. 5　解码问题
3. 10. 6　学习问题
本章小结
文献和历史评述
习题
上机练习
参考文献
第4章　非参数技术
4．1　引言
4．2　概率密度的估计
4．3　Parzen窗方法
4．3．1　均值的收敛性
4．3. 2　方差的收敛性
4. 3. 3　举例说明
4．3. 4　分类的例子
4．3．5　概率神经网络
4．3. 6　窗函数的选取
4．4　kn-近邻估计
4．4. 1　kn-近邻估计和Parzen窗估计
4．4. 2　后验概率的估计
4. 5　最近邻规则
4．5. 1　最近邻规则的收敛性
4．5．2　最近邻规则的误差率
4．5. 3　误差界
4. 5. 4　k-近邻规则
4．5. 5　k-近邻规则的计算复杂度
4．6　距离度量和最近邻分类
4．6. 1　度量的性质
4. 6．2　切空间距离
4．7　模糊分类
4．8　RCE网络
4．9　级数展开逼近
本章小结
文献和历史评述
习题
上机练习
参考文献
第5章　线性判别函数
5．1　引言
5．2　线性判别函数和判定面
5. 2．1　两类情况
5. 2．2　多类的情况
5．3　广义线性判别函数
5．4　两类线性可分的情况
5. 4. 1　几何解释和术语
5．4．2　梯度下降算法
5．5　感知器准则函数最小化
5．5．1　感知器准则函数
5．5．2　单个样本校正的收敛性证明
5. 5．3　一些直接的推广
5．6　松弛算法
5. 6．1　下降算法
5．6. 2　收敛性证明
5. 7　不可分的情况
5．8　最小平方误差方法，
5．8. 1　最小平方误差及伪逆
5．8. 2　与Fisher线性判别的关系
5．8. 3　最优判别的渐近逼近
5．8．4　Widrow-Hoff算法或最小均方算法
5. 8. 5　随机逼近法
5．9　Ho-Kashyap算法
5．9. 1　下降算法
5. 9．2　收敛性证明
5．9. 3　不可分的情况
5．9. 4　一些相关的算法
5．10　线性规划算法
5．10．1　线性规划
5．10．2　线性可分情况
5．10．3　极小化感知器准则函数
5．11　支持向量机
5．12　推广到多类问题
5．12. 1　Kesler构造法
5．12. 2　固定增量规则的收敛性
5．12．3　MSE算法的推广
本章小结
文献和历史评述
习题
上机练习
参考文献
第6章　多层神经网络
6. 1　引言
6. 2　前馈运算和分类
6. 2．1　一般的前馈运算
6．2．2　多层网络的表达能力
6．3　反向传播算法
6．3. 1　网络学习
6．3．2　训练协议
6. 3. 3　学习曲线
6. 4　误差曲面
6．4．1　一些小型网络
6．4. 2　异或(XOR)问题
6．4. 3　较大型的网络
6．4．4　关于多重极小
6. 5　反向传播作为特征映射
6．5．1　隐含层的内部表示--权值
6. 6　反向传播、贝叶斯理论及概率
6. 6. 1　贝叶斯判别与神经网络
6．6. 2　作为概率的输出
6．7　相关的统计技术
6．8　改进反向传播的一些实用技术
6．8．1　激活函数
6．8．2　sigmoid函数的参数
6．8．3　输入信号尺度变换
6．8. 4　目标值
6．8．5　带噪声的训练法
6．8．6　人工"制造"数据
6. 8. 7　隐单元数
6. 8. 8　权值初始化
6．8. 9　学习率
6. 8. 10　冲量项
6. 8. 11　权值衰减
6. 8. 12　线索
6．8. 13　在线训练、随机训练或成批训练
6. 8. 14　停止训练
6. 8. 15　隐含层数
6．8．16　误差准则函数
6. 9　二阶技术
6．9. 1　赫森矩阵
6．9. 2　牛顿法
6. 9. 3　Quickprop算法
6．9．4　共轭梯度法
6. 10　其他网络和训练算法
6．10．1　径向基函数网络
6．10．2　特殊的基函数
6. 10．3　匹配滤波器
6．10. 4　卷积网络
6．10．5　递归网络
6．10．6　级联相关
6．11　正则化、复杂度调节和剪枝
本章小结
文献和历史评述
习题
上机练习
参考文献
第7章　随机方法
7．1　引言
7. 2　随机搜索
7．2．1　模拟退火
7．2．2　Boltzmann因子
7．2．3　确定性模拟退火
7．3　Boltzmann学习
7．3．1　可见状态的随机Boltzmann学习
7．3．2　丢失特征和类别约束
7．3．3　确定性Boltzmann学习
7．3. 4　初始化和参数设置
7．4　Boltzmann网络和图示模型
7. 5　进化方法
7．5．1　遗传算法
7．5．2　其他启发式方法
7．5．3　遗传算法如何起作用
7．6　遗传规划
本章小结
文献和历史评述
习题
上机练习
参考文献
第8章　非度量方法
8．1　引言
8．2　判定树
8．3　CART
8．3．1　分支数目
8．3．2　查询的选取与节点不纯度
8．3．3　分支停止准则
8．3．4　剪枝
8．3．5　叶节点的标记
8. 3．6　计算复杂度
8．3．7　特征选择
8．3．8　多元判定树
8．3．9　先验概率和代价函数
8．3. 10　属性丢失问题
8. 4　其他树方法
8．4．1　ID3
8. 4. 2　C4.5
8. 4. 3　哪种树分类器是最优的
8. 5　串的识别
8. 5. 1　串匹配
8. 5. 2　编辑距离
8. 5. 3　计算复杂度
8. 5．4　容错的串匹配
8. 5．5　带通配符的串匹配
8. 6　文法方法
8．6. 1　文法
8. 6. 2　串文法的类型
8. 6．3　利用文法的识别
8. 7　文法推断
8. 8　基于规则的方法
本章小结
文献和历史评述
习题
上机练习
参考文献
第9章　独立于算法的机器学习
9．1　引言
9. 2　没有天生优越的分类器
9. 2．1　没有免费的午餐定理，
9．2. 2　丑小鸭定理
9．2. 3　最小描述长度
9．2. 4　最小描述长度原理
9. 2. 5　避免过拟合及Occam剃刀原理
9．3　偏差和方差
9．3．1　回归中的偏差和方差关系
9．3．2　分类中的偏差和方差关系
9. 4　统计量估计中的重采样技术
9. 4. 1　刀切法(jackknife)
9．4．2　自助法(bootstrap)
9. 5　分类器设计中的重采样技术
9．5．1　bagging算法
9. 5. 2　boosting法
9. 5. 3　基于查询的学习
9. 5. 4　arcing、基于查询的学习、偏差和方差
9．6　分类器的评价和比较
9. 6. 1　参数模型
9．6．2　交叉验证
9. 6．3　分类准确率的"刀切法"和"自助法"估计
9. 6. 4　最大似然模型比较
9. 6. 5　贝叶斯模型比较
9. 6．6　问题平均误差率
9. 6. 7　从学习曲线预测最终性能
9．6. 8　单个分割平面的能力
9．7　组合分类器
9．7. 1　有判别函数的分量分类器
9. 7. 2　无判别函数的分量分类器
本章小结
文献和历史评述
习题
上机练习
参考文献
第10章　无监督学习和聚类
10．1　引言
10. 2　混合密度和可辨识性
10．3　最大似然估计
10．4　对混合正态密度的应用
10．4．1　情况1：均值向量未知
10．4．2　情况2：所有参数未知
10. 4．3　k-均值聚类
10．4. 4　模糊k-均值聚类
10. 5　无监督贝叶斯学习
10．5. 1　贝叶斯分类器
10．5．2　参数向量的学习
10．5．3　判定导向的近似解
10．6　数据描述和聚类
10．7　聚类的准则函数
10. 7. 1　误差平方和准则
10．7．2　相关的最小方差准则
10．7．3　散布准则
10. 8　迭代最优化
10. 9　层次聚类
10．9. 1　定义
10．9. 2　基于合并的层次聚类方法
10. 9. 3　逐步优化的层次聚类
10．9. 4　层次聚类和导出度量
10. 10　验证问题
10．11　在线聚类
10. 11. 1　聚类数目未知
10. 11. 2　自适应共振网
10．11．3　基于评判的学习
10．12　图论方法
10．13　成分分析
10．13．1　主成分分析
10. 13. 2　非线性成分分析
10．13．3　独立成分分析
10．14　低维数据表示和多维尺度变换
10．14. 1　自组织特征映射
10．14. 2　聚类与降维
本章小结
文献和历史评述
习题
上机练习
参考文献
附录A　数学基础
A．1　符号和记号
A．2　线性代数
A．2．1　符号和基础知识
A．2．2　向量内积
A．2．3　向量外积
A．2．4　矩阵的导数
A．2．5　行列式和迹
A．2．6　矩阵的逆
A．2．7　本征向量和本征值
A．3　拉格朗日乘数法
A．4　概率论
A. 4．1　离散随机变量
A．4．2　数学期望
A．4．3　成对离散随机变量
A．4．4　统计独立性
A．4. 5　两个自变量的函数的数学期望
A．4．6　条件概率
A．4．7　全概率公式和贝叶斯公式
A．4．8　随机向量
A．4．9　期望值、均值向量和协方差矩阵
A．4．10　连续随机变量
A．4．11　独立随机变量和的分布
A．4．12　正态分布
A．5　高斯函数的导数和积分
A．5．1　多元正态概率密度
A．5. 2　二元正态分布
A．6　假设检验
A．7　信息论基础
A．7．1　熵和信息量
A．7．2　相对熵
A．7．3　互传信息量
A．8　计算复杂度
文献评述
参考文献
索引