教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 591

开本 : 16

原书名 : 神经网络与机器学习（原书第3版）

原出版社: Pearson Education Asia

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

《神经网络与机器学习》是Simon Haykin的神经网络经典著作《神经网络原理》的第三版。这一版对神经网络和学习机器这两个密切相关的分支进行了全面分析，在前一版的基础上作了广泛修订，提供了神经网络和机器学习这两个重要性不断持续增长的学科的最新分析。

图书特色

神经网络与机器学习（原书第3版）
Neural Networks and Learning Machines　Third Edition
（加）Simon Haykin 著　申富饶徐烨郑俊晁静译

神经网络是计算智能和机器学习的重要分支，在诸多领域都取得了很大的成功。在众多神经网络著作中，影响最为广泛的是Simon Haykin的《神经网络原理》（第3版更名为《神经网络与机器学习》）。在本书中，作者结合近年来神经网络和机器学习的最新进展，从理论和实际应用出发，全面、系统地介绍了神经网络的基本模型、方法和技术，并将神经网络和机器学习有机地结合在一起。
本书不但注重对数学分析方法和理论的探讨，而且也非常关注神经网络在模式识别、信号处理以及控制系统等实际工程问题中的应用。本书的可读性非常强，作者举重若轻地对神经网络的基本模型和主要学习理论进行了深入探讨和分析，通过大量的实验报告、例题和习题来帮助读者更好地学习神经网络。
本版在前一版的基础上进行了广泛修订，提供了神经网络和机器学习这两个越来越重要的学科的最新分析。

本书特色
基于随机梯度下降的在线学习算法；小规模和大规模学习问题。
核方法，包括支持向量机和表示定理。
信息论学习模型，包括独立分量分析（ICA）、相关独立分量分析和信息瓶颈等。
随机动态规划，包括逼近和神经动态规划。
逐次状态估计算法，包括卡尔曼和粒子滤波器。
利用逐次状态估计算法训练递归神经网络。
富有洞察力的面向计算机的实验。

作者简介
Simon Haykin　于1953年获得英国伯明翰大学博士学位，目前为加拿大McMaster大学电子与计算机工程系教授、通信研究实验室主任。他是国际电子电气工程界的著名学者，曾获得IEEE McNaughton金奖。他是加拿大皇家学会院士、IEEE会士，在神经网络、通信、自适应滤波器等领域成果颇丰，著有多部教材。

图书前言

在写这本经典书籍第3版的时候，我遵循了本书第1版的基本原则：写一本关于神经网络的全面的、彻底的、可读性很强的、最新的论述。
　　新版本更名为《神经网络与机器学习》，主要是为了反映以下两个事实：
　　1.感知器、多层感知器、自组织映射及神经动力学，以及其他一些通常被看成是神经网络一部分的主题，这些内容源自人类大脑所激发的灵感。
　　2.核方法，例如支持向量机和核主分量分析，这些内容源自统计学习理论。
　　虽然这两者之间的确有一些共同的基本概念和应用，但是在神经网络和机器学习的具体操作上存在一些微妙的差别。因而，如果将这两者放在同一个体系下共同研究，一些潜在的主题会变得更丰富，特别体现在以下方面：
　　将神经网络和机器学习的思想综合起来以完成更难的学习任务。这些学习任务往往是神经网络或者机器学习自身所无法解决的。
　　源自人类大脑的灵感往往会引起新的特别重要的新发现。
　　除此之外,本书的范围也有所扩大,提供了详细的动态规划和逐次状态估计,这两者各自都能够在一些重要方面影响强化学习和监督学习。
　　本书的组织
　　本书从导言部分开始，导言主要讲述了编写本书的动机，可作为后续章节的阅读基础。本书包括以下6个部分:
　　1.第1～4章构成了本书的第一部分，主要介绍监督学习的一些经典方法。具体介绍如下：
　　第1章描述Rosenblatt感知器，重点介绍感知器收敛定理，以及在高斯环境下感知器和贝叶斯分类器的关系。
　　第2章讲述作为模型建立基础的最小二乘法，建立了在特定的高斯环境下这一方法和贝叶斯推理之间的关系。这一章还讨论了用于模式选择的最小描述长度（MDL）算法。
　　第3章讲述最小均方（LMS）算法及其收敛分析。其理论框架的分析揭示出两个原理：Kushner直接法和朗之万（Langevin）方程（在非平衡态热力学中很著名）。
　　这三章通过对不同概念的介绍揭示了其共同特点：它们都是基于一个计算单元。更为重要的是，它们从各自的角度深入、细致地讨论了学习过程的深层知识——这一特征将在后续章节中进一步探讨。
　　第4章是关于多层感知器的，是Rosenblatt感知器的广义版本。这一相对比较长的章节包含如下主题：
　　反向传播算法、其优点和局限性，以及将其作为一个最优化方法来计算偏导数。
　　学习率的最优退火和自适应控制。
　　交叉验证。
　　卷积网络，来自于Hubel和Wiesel在视觉系统方面的开拓性研究。
　　将监督学习视为最优化问题，集中讨论共轭梯度法、拟牛顿法以及Marquardt-Levenberg算法。
　　非线性滤波。
　　　ⅥⅦ　最后，对于小规模和大规模学习问题作了对比。
　　2.第二部分包括第5章和第6章，讨论了基于径向基函数（RBF）网络的核方法。
　　从某种意义上来说，第5章可以看做是对核方法的深入介绍。具体来说，这一章包括如下几个方面。
　　介绍Cover定理来作为对RBF网络的构造结构的理论证明。
　　描述相对简单的用于监督学习的两阶段混合过程，第一阶段基于聚类思想（即K-均值算法）来计算隐藏层，第二阶段利用LMS或者最小二乘法来计算网络的线性输出层。
　　介绍核回归及其与RBF网络的关系。
　　第6章介绍支持向量机（SVM），通常这一方法被认为是一种监督学习方法。本质上SVM是一个两类分类器，本章中将包括如下几个主题：
　　定义在一对线性可分的两类之间最大分离边缘的条件。
　　当两个类是线性可分或者不可分时用来寻找最优超平面的二次最优化。
　　将SVM视为核机器，包含关于核欺骗和Mercer定理的讨论。
　　SVM的设计原理。
　　ε-不敏感损失函数及其在回归问题最优化中的作用。
　　表示定理及希尔伯特空间构想和再生核希尔伯特空间构想（RKHS）的作用。
　　根据以上描述，很明显支持向量机的基本理论是建立在很强的数学背景之上的，因而SVM可以作为监督学习的一个具有强大计算能力的、一流的工具。
　　3.本书第三部分只有一章——第7章。这一章介绍作为机器学习核心的正则化理论。本章将详细探讨如下几个主题：
　　建立在第6章讨论过的RKHS基础之上的Tikhonov经典正则化理论。这一理论隐含了一些深奥的数学概念：Tikhonov泛函的Fréchet微分、Riesz表示定理、Euler-Lagrange方程、Green函数，以及多变量高斯函数。
　　广义RBF网络及其计算精确性的修正。
　　正则最小二乘估计，根据表示定理的再讨论。
　　正则化参数估计，利用Wahba的广义交叉验证概念。
　　半监督学习，利用有标签和无标签样本。
　　可微流形及其在流形正则化中的作用——设计半监督学习机的基础。
　　寻找用于半监督学习的RBF网络中高斯核函数的光谱图理论。
　　处理半监督核机器的广义表示定理。
　　用于计算RBF网络线性输出层的拉普拉斯正则最小二乘(LapRLS)算法。这里需要说明的是，当内在正则化参数（对应于无标签数据）衰减为0的时候，算法相应地衰减为通常的最小二乘法。
　　这一高度理论化的章节具有非常实际的重要意义。首先，它提供了关于监督学习机的正则化基础。其次，它打下了设计正则化半监督学习机的基础。
　　4.第8～11章构成本书的第四部分，讨论非监督学习。从第8章开始介绍由神经生物学研究直接激发的自组织的四个原则。
　　1）自增强学习的Ｈｅｂｂ假定。
　　2）单个神经元或者一组神经元的突触连接为了有限的资源而进行的竞争。
　　3）在胜利神经元及其邻居间的合作。
　　4）包含于输入数据中的结构信息（如冗余）。
　　这一章的主要主题包括三个方面：
　　原则1）、2）和4）应用于单个神经元，最大特征滤波的Ｏｊａ规则来源于这些原则；通过自组织获得的结果是值得注意的，它包含了自底向上和自顶向下学习。其次，最大特征滤波思想被推广到主分量分析（ＰＣＡ）中，用来对输入数据进行维数削减，其所得算法称为广义Hebb算法（ＧＨＡ）。
　　本质上ＰＣＡ是线性方法，因而其计算能力局限于二阶统计量。为了处理高阶统计量，核方法以类似于第６章支持向量机的相似方式应用于ＰＣＡ，但是和ＳＶＭ的根本上的不同在于，核ＰＣＡ是非监督方式。
　　遗憾的是，在处理自然图像的时候，核ＰＣＡ从计算的角度变得很难操控。为了克服这一计算局限性，把ＧＨＡ和核ＰＣＡ结合起来组成一个新的在线非监督学习算法,称为核Hebb算法（ＫＨＡ），这一方法可以用于图像去噪。
　　ＫＨＡ的产生是一个将机器学习的想法和来源于神经网络的补充想法结合起来的杰出例子，结合所产生的新算法克服了它们各自的实际局限性。
　　第９章介绍自组织映射（ＳＯＭ），对自组织映射的开发遵从第８章介绍的自组织原则。从计算角度来说，自组织映射是一个简单的算法，而且具有内在的构造拓扑映射的强大能力，它包括如下一些有用的特性：
　　从空间上离散逼近输入空间，负责数据生成。
　　拓扑次序，在某种意义上神经元的空间位置在拓扑图上对应于输入空间中的特定特征。
　　输入输出密度匹配。
　　输入数据特征选择。
　　SOM在实际中被广泛应用，构造上下文映射和分层次矢量量化被作为SOM运算能力的两个有说服力的例子。事实上，令人惊异的是，尽管SOM展示了多个有趣的特性并且能够解决很难的计算任务，但它依然缺少一个能用来最优化的目标函数。为了填补这一缺口，以提供改进拓扑映射的可能性，自组织映射采用了核方法。这一改进是通过引入一个熵函数作为目标函数并且最大化这个函数来实现的。我们再次看到了将来自于神经网络的思想和补充的核理论思想结合所带来的实际好处。
　　第10章探讨如何将来自于香农（Shannon）信息论的原则作为工具来实现非监督学习。这一个相对较长的章节从回顾香农信息论开始，重点讨论了熵、互信息、相对熵（KLD）等概念。这一回顾也包括系词（copula）的概念，遗憾的是这一概念几十年来没有被注意到。更重要的是，系词提供了对一对相关随机变量之间统计相关性的测量。在任何事件中，集中于将互信息作为目标函数，这一章建立了如下原则：
　　最大互信息原则，最大化神经系统的输入和输出之间的互信息；最大互信息和冗余减少之间有着很紧密的关系。
　　Imax原则，最大化由相关输入驱动的神经系统对的单一输出之间的互信息。
　　Imin原则，以一种和Imax原则相似的方式操作，但这里是最小化输出随机变量对之间的互信息。
　　独立分量分析（ICA）原则，提供一种很强的工具用于盲分离来自统计独立源信号的隐藏集合。当满足一定的操作条件时，ICA原则将提供对源信号进行恢复的起源程序基础，用于恢复的信号来自于对源信号的线性混合变形的相应的观察集合。这里将介绍两个特别的ＩＣＡ算法。
　　1）自然梯度学习算法，除了拉伸和排列之外，通过最小化参数概率密度函数和相应的阶乘分布之间的ＫＬＤ来解决ＩＣＡ问题。
　　2）最大熵学习算法，最大化反混合输出的非线性变换版本的熵；这一算法通常被认为是ICA的最大化信息算法，也表现出拉伸和排列性质。
　　　第１０章还描述了另一个称为快速ICA（FastICA）的重要的ICA算法，这一算法正如其名字那样，计算速度快。这一算法基于负熵的概念最大化对比函数，对比函数提供了对于随机变量的非高斯分布程度的测量。作为ICA的延续，本章继续描述了一种称为相关ICA的新算法，其开发是根据最大化信息和Ｉｍａｘ原则的融合并经由连接函数的运用来完成的；相关ICA在采集调幅信号的混合物的包迹时非常有用。最后，第10章介绍了另一个来自于香农信息论的称为速率失真理论的概念，这一理论被用来开发这一章的最后一个概念：信息瓶颈。给定关于输入向量和（有关的）输出向量的连接分布，这一方法通过如下方式被构造为约束最优化问题：在两个信息量之间做一个权衡，一个信息量是关于输入的瓶颈向量中包含的信息，另一个信息量是关于输出的瓶颈向量中所包含的信息。这一章将利用信息瓶颈法来寻找数据表达的最优流形。
　　第１１章讲述非监督学习的最后途径，利用源自统计力学的随机方法来实现。统计力学的研究和信息论密切相关。这一章从回顾Ｈｅｌｍｈｏｌｔｚ自由能和熵概念（从统计力学意义上）开始，紧接着介绍马尔可夫链。然后介绍用于产生马尔可夫链的Ｍｅｔｒｏｐｏｌｉｓ算法，其转移概率将收敛到唯一的、稳定的分布。接下来以两个方面作为随机方法讨论的结束：一是用于全局最优化的模拟退火，二是Gibbs抽样，它可以作为Ｍｅｔｒｏｐｏｌｉｓ算法的特殊形式。有了手头这些统计力学的背景知识，就可以讲述Ｂｏｌｔｚｍａｎn机了，Ｂｏｌｔｚｍａｎn机从历史上来说是文献中讨论的第一个多层学习机器。遗憾的是，Ｂｏｌｔｚｍａｎn机的学习过程非常慢，特别是当隐藏神经元的数目很大的时候，因而其实用性是最主要的缺陷。人们提出了很多变种方法来克服Ｂｏｌｔｚｍａｎn机的缺点。其中到目前为止最成功的创新方法是深度信度网络，它明智地把下面的两个功能组合起来形成了一个高效的机器：
　　生成模型，无监督地一层一层自底向上学习所得结果。
　　推论，自顶向下学习所得结果。
　　最后，第11章讲述确定性退火来克服模拟退火极端的计算需求问题；确定性退火的问题在于其可能陷入局部极小点。
　　5.到目前为止，本书集中精力讲述了构造用于监督学习、半监督学习和非监督学习的算法。第１２章，作为本书下一个部分，是关于强化学习的。强化学习以一种在线方式发生，作为智能体（如机器人）与其周围的环境相互作用的结果。实际上，动态规划是强化学习的核心。相应地，第１５章的前面部分用来介绍Ｂｅｌｌｍａｎ动态规划方法，然后用来证明两个广泛使用的强化学习方法：时序差分学习（ＴＤ）和Ｑ学习，这两种方法能通过作为动态规划的特例推导得出。ＴＤ学习和Ｑ学习都是相对比较简单的在线强化学习算法，无需转移概率知识。然而，其实际应用局限于状态空间的维数处于中等程度的情况。在大规模动态系统中，维数灾难变得非常严重，使得不仅仅是动态规划，也包括其近似形式的ＴＤ学习和Ｑ学习变得难以计算。为了克服这一严重的局限性，这一章描述了两个逼近动态规划的非直接方法：
　　线性方法，称为最小二乘策略评估（ＬＳＰＶ）算法。
　　非线性方法，利用神经网络（如多层感知器）作为通用逼近器。
　　6.本书最后一部分包括第１３、１４和１５章，讨论非线性反馈系统，特别强调递归神经网络：
　　1）第１３章研究神经动力学，对稳定性问题给予了特别的关注。这一章介绍了Ｌｙａｐｕｎｏｖ直接法，这个方法包含两个定理，一个用来处理系统稳定性，另一个用来处理渐近稳定性。这一方法的核心是Ｌｙａｐｕｎｏｖ函数，通常来说能量函数就能满足这一函数的要求。有了这样的背景知识，就可以引出两种联想记忆模型：
　　Ｈｏｐｆｉｅｌｄ模型，这一模型的操作说明一个复杂的系统是能够产生简单的突现行为的。
　　盒中脑状态模型，它是聚类的基础。
　　第13章还讨论了混沌过程的特性及其动态重构的正则化过程。
　　2）第１４章是关于贝叶斯滤波器的，贝叶斯滤波器至少从概念意义上提供了逐次状态估计算法的统一基础。这一章的发现总结为以下几点：
　　经典的线性高斯环境下的卡尔曼滤波器可以通过利用最小均方差准则来推导；在这一章最后的一个习题中，证明这样推导的卡尔曼滤波器是贝叶斯滤波器的特例。
　　平方根滤波用来克服卡尔曼滤波在实际应用中遇到的发散现象。
　　扩展卡尔曼滤波（ＥＫＦ）用来解决动力系统中非线性属于软排序的情况；保持高斯假设。
　　以一个新的称为数值积分卡尔曼滤波器（ＣＫＦ）的滤波器为例来证明贝叶斯滤波器的直接逼近形式。这里再次强调了保持高斯假设。
　　以粒子滤波器为例来证明贝叶斯滤波器的非直接逼近形式，粒子滤波器的实现能够调节非线性程度和非高斯程度。
　　卡尔曼滤波本质上是预测改正机制，第１４章接着描述“类卡尔曼滤波”在人类大脑的一定区域的可能作用。
　　本书第１５章研究动态驱动的递归神经网络。这一章的开始部分讨论不同的递归网络结构（模型）及其计算能力，紧接着介绍训练递归网络的两个算法：通过时间的反向传播和实时递归学习。
　　遗憾的是，这两个方法都是基于梯度的，容易遭遇所谓的消失梯度（vanishing-gradient）问题。为减轻这一问题，本书较详细地讨论了利用非线性逐次状态估计，采用全新的方式来对递归网络进行监督训练。这里，对于扩展卡尔曼滤波器（简单，但是导数依赖）以及数值积分卡尔曼滤波器（导数自由，但是数学上更加复杂）作为监督学习的逐次状态估计器的优缺点进行了讨论。此外，还讨论了对递归网络来说唯一的自适应行为的出现以及利用自适应技巧来增强递归网络性能的潜在好处。
　　在本书不同部分出现的一个重要的主题是，将监督学习和半监督学习应用于大规模问题。这包括本书评论中所指出的这一主题还处于发展的初期阶段；更重要的是，本书还为这一问题的未来发展描述了四阶段过程。
　　本书特色
　　本书完整、详尽地讨论了各个主题，除此之外，本书还有以下几个截然不同的特色：
　　1.第１～７章以及第１０章包含计算机实验，涉及双月形态，为两类分类问题产生数据。实验涵盖了从简单的线性可分模式例子到困难的不可分模式例子。作为运行例子的双月形态，被用于第１～７章以及第１０章，因而提供了一个用于研究和比较这8章中描述的算法的实验途径。
　　2.针对第8章的主分量分析、第9章的SOM和核ＳＯＭ，以及第15章的利用ＥＫＦ和ＣＫＦ算法对Ｍａｃｋａｙ-Ｇｌａｓｓ吸引子进行动态重构等，也进行了计算机实验。
　　3.给出了几个利用现实数据进行研究的例子：
　　第7章讨论了利用拉普拉斯ＲＬＳ算法对美国邮政服务（ＵＳＰＳ）数据进行半监督学习。
　　第8章讨论了如何将ＰＣＡ应用于手写数字数据，并描述了如何对图像进行编码和去噪。
　　　Ⅹ第10章利用稀疏传感编码和ＩＣＡ对自然图像进行分析。
　　第13章利用正则ＲＢＦ网络将动态重构应用于Ｌｏｒｅｎｚ吸引子。
　　第15章也包含了一节关于模型参照自适应控制系统的案例研究。
　　4.每一章的最后都有注释和参考文献用于进一步学习，每章末尾还提供了习题，用来练习并丰富读者的专业知识。
　　本书的“术语”表也进行了扩充，包含了用于处理矩阵分析和概率论问题的方法学解释。
　　5.本书所有图和表格的ＰｏｗｅｒＰｏｉｎｔ文件都可以提供给教师,可到华章网站（www.hzbook.com）下载。
　　我们尽了最大努力来使本书不犯错误，更重要的是，我们也尽力提高它的可读性。
　　Simon Haykin
　　于Ancaster,Ontario

上架指导

计算机科学及应用

封底文字

神经网络是计算智能和机器学习的重要分支，在诸多领域都取得了很大的成功。在众多神经网络著作中，影响最为广泛的是Simon Haykin的《神经网络原理》（第3版更名为《神经网络与机器学习》）。在本书中，作者结合近年来神经网络和机器学习的最新进展，从理论和实际应用出发，全面、系统地介绍了神经网络的基本模型、方法和技术，并将神经网络和机器学习有机地结合在一起。
本书不但注重对数学分析方法和理论的探讨，而且也非常关注神经网络在模式识别、信号处理以及控制系统等实际工程问题的应用。本书的可读性非常强，作者举重若轻地对神经网络的基本模型和主要学习理论进行了深入探讨和分析，通过大量的试验报告、例题和习题来帮助读者更好地学习神经网络。
本版在前一版的基础上进行了广泛修订，提供了神经网络和机器学习这两个越来越重要的学科的最新分析。

本书特色
基于随机梯度下降的在线学习算法；小规模和大规模学习问题。
核方法，包括支持向量机和表达定理。
信息论学习模型，包括连接、独立分量分析（ICA）、一致独立分量分析和信息瓶颈。
随机动态规划，包括逼近和神经动态规划。
逐次状态估计算法，包括卡尔曼和粒子滤波器。
利用逐次状态估计算法训练递归神经网络。
富有洞察力的面向计算机的试验。

作者简介

（加）Simon Haykin 著：Simon Haykin 于1953年获得英国伯明翰大学博士学位，目前为加拿大McMaster大学电子与计算机工程系教授、通信研究实验室主任。他是国际电子电气工程界的著名学者，曾获得IEEE McNaughton金奖。他是加拿大皇家学会院士、IEEE会士，在神经网络、通信、自适应滤波器等领域成果颇丰，著有多部标准教材。

译者简介

申富饶徐烨郑俊晁静译：暂无简介

译者序

从20世纪40年代M-P神经元模型的提出开始，神经网络的发展过程可谓是一波三折。1965年M.Minsky和S.Papert的《感知机》使得神经网络的研究停滞了超过10年，直到20世纪80年代初Hopfield网络和误差反向传播算法等的提出，神经网络的研究才步入恢复期。时至今日，神经网络系统研究的重要意义已经得到广泛承认，在模式识别、人工智能、通信、控制、金融、机器人、生物信息学等许多领域都有广泛应用。可以说神经网络作为目前非线性科学和计算智能研究的主要内容之一，已经成为解决很多实际问题的一种必要的技术手段。
　　本书作者Simon Haykin长期从事神经网络的研究，其关于神经网络的系列教材是国际上最有影响力的教材之一。本书是其经典教材《Neural Networks:A Comprehensive Foundation》的第3版。正如本书的题目所示，这一版对神经网络和机器学习这两个密切相关的分支进行了全面分析，在前一版的基础上作了广泛修订，提供了神经网络和机器学习这两个重要性持续增长的学科的最新分析。本书全面、系统地介绍了神经网络的基本模型、基本方法，对神经网络的基本模型和主要学习理论作了深入研究，对神经网络的最新发展趋势和主要研究方向进行了全面而综合的介绍。
　　在翻译过程中，译者常常为本书作者严谨的治学态度及本书博大精深的内容而赞叹不已。本书综合了诸多神经网络和机器学习的最新研究，在翻译过程中虽然力求准确地反映原著内容，但由于译者水平有限，翻译中如有错漏之处，恳请读者批评指正。
　　本书的翻译得到了国家自然科学基金的资助（项目编号60975047），特此表示感谢。同时，感谢参与本书翻译的全体人员，没有他们的辛勤工作，本书的中文译本是无法顺利完成的；感谢本书第2版（《神经网络原理》）的译者，在翻译过程中我们大量参考了第2版中文译本的内容；还要感谢南京大学计算机软件新技术国家重点实验室的支持。
　　南京大学计算机科学与技术系
　　计算机软件新技术国家重点实验室
　　申富饶
　　2010年10月于南京

图书目录

出版者的话
　　译者序
　　前言
　　缩写和符号
　　术语
　　第0章　导言1
　　　0.1　什么是神经网络1
　　　0.2　人类大脑4
　　　0.3　神经元模型7
　　　0.4　被看作有向图的神经网络10
　　　0.5　反馈11
　　　0.6　网络结构13
　　　0.7　知识表示14
　　　0.8　学习过程20
　　　0.9　学习任务22
　　　0.10　结束语27
　　　注释和参考文献27
　　第1章　Rosenblatt感知器28
　　　1.1　引言28
　　　1.2　感知器28
　　　1.3　感知器收敛定理29
　　　1.4　高斯环境下感知器与贝叶斯分类器的关系33
　　　1.5　计算机实验：模式分类36
　　　1.6　批量感知器算法38
　　　1.7　小结和讨论39
　　　注释和参考文献39
　　　习题40
　　第2章　通过回归建立模型28
　　　2.1　引言41
　　　2.2　线性回归模型：初步考虑41
　　　2.3　参数向量的最大后验估计42
　　　2.4　正则最小二乘估计和MAP估计之间的关系46
　　　2.5　计算机实验：模式分类47
　　　2.6　最小描述长度原则48
　　　2.7　固定样本大小考虑50
　　　2.8　工具变量方法53
　　　2.9　小结和讨论54
　　　注释和参考文献54
　　　习题55
　　第3章　最小均方算法56
　　　3.1　引言56
　　　3.2　LMS算法的滤波结构56
　　　3.3　无约束最优化：回顾58
　　　3.4　维纳滤波器61
　　　3.5　最小均方算法63
　　　3.6　用马尔可夫模型来描画LMS算法和维纳滤波器的偏差64
　　　3.7　朗之万方程：布朗运动的特点65
　　　3.8　Kushner直接平均法66
　　　3.9　小学习率参数下统计LMS学习理论67
　　　3.10　计算机实验Ⅰ：线性预测68
　　　3.11　计算机实验Ⅱ：模式分类69
　　　3.12　LMS算法的优点和局限71
　　　3.13　学习率退火方案72
　　　3.14　小结和讨论73
　　　注释和参考文献74
　　　习题74
　　第4章　多层感知器77
　　　4.1　引言77
　　　4.2　一些预备知识78
　　　4.3　批量学习和在线学习79
　　　4.4　反向传播算法81
　　　4.5　异或问题89
　　　4.6　改善反向传播算法性能的试探法90
　　　4.7　计算机实验：模式分类94
　　　4.8　反向传播和微分95
　　　4.9　Hessian矩阵及其在在线学习中的规则96
　　　4.10　学习率的最优退火和自适应控制98
　　　4.11　泛化102
　　　4.12　函数逼近104
　　　4.13　交叉验证107
　　　4.14　复杂度正则化和网络修剪109
　　　4.15　反向传播学习的优点和局限113
　　　4.16　作为最优化问题看待的监督学习117
　　　4.17　卷积网络126
　　　4.18　非线性滤波127
　　　4.19　小规模和大规模学习问题131
　　　4.20　小结和讨论136
　　　注释和参考文献137
　　　习题138
　　第5章　核方法和径向基函数网络144
　　　5.1　引言144
　　　5.2　模式可分性的Cover定理144
　　　5.3　插值问题148
　　　5.4　径向基函数网络150
　　　5.5　K-均值聚类152
　　　5.6　权向量的递归最小二乘估计153
　　　5.7　RBF网络的混合学习过程156
　　　5.8　计算机实验：模式分类157
　　　5.9　高斯隐藏单元的解释158
　　　5.10　核回归及其与RBF网络的关系160
　　　5.11　小结和讨论162
　　　注释和参考文献164
　　　习题165
　　第6章　支持向量机168
　　　6.1　引言168
　　　6.2　线性可分模式的最优超平面168
　　　6.3　不可分模式的最优超平面173
　　　6.4　使用核方法的支持向量机176
　　　6.5　支持向量机的设计178
　　　6.6　XOR问题179
　　　6.7　计算机实验:模式分类181
　　　6.8　回归：鲁棒性考虑184
　　　6.9　线性回归问题的最优化解184
　　　6.10　表示定理和相关问题187
　　　6.11　小结和讨论191
　　　注释和参考文献192
　　　习题193
　　第7章　正则化理论197
　　　7.1　引言197
　　　7.2　良态问题的Hadamard条件198
　　　7.3　Tikhonov正则化理论198
　　　7.4　正则化网络205
　　　7.5　广义径向基函数网络206
　　　7.6　再论正则化最小二乘估计209
　　　7.7　对正则化的附加要点211
　　　7.8　正则化参数估计212
　　　7.9　半监督学习215
　　　7.10　流形正则化：初步的考虑216
　　　7.11　可微流形217
　　　7.12　广义正则化理论220
　　　7.13　光谱图理论221
　　　7.14　广义表示定理222
　　　7.15　拉普拉斯正则化最小二乘算法223
　　　7.16　用半监督学习对模式分类的实验225
　　　7.17　小结和讨论227
　　　注释和参考文献228
　　　习题229
　　第8章　主分量分析232
　　　8.1　引言232
　　　8.2　自组织原则232
　　　8.3　自组织的特征分析235
　　　8.4　主分量分析：扰动理论235
　　　8.5　基于Hebb的最大特征滤波器241
　　　8.6　基于Hebb的主分量分析247
　　　8.7　计算机实验：图像编码251
　　　8.8　核主分量分析252
　　　8.9　自然图像编码中的基本问题256
　　　8.10　核Hebb算法257
　　　8.11　小结和讨论260
　　　注释和参考文献262
　　　习题264
　　第9章　自组织映射268
　　　9.1　引言268
　　　9.2　两个基本的特征映射模型269
　　　9.3　自组织映射270
　　　9.4　特征映射的性质275
　　　9.5　计算机实验Ⅰ：利用SOM解网格动力学问题280
　　　9.6　上下文映射281
　　　9.7　分层向量量化283
　　　9.8　核自组织映射285
　　　9.9　计算机实验Ⅱ：利用核SOM解点阵动力学问题290
　　　9.10　核SOM和相对熵之间的关系291
　　　9.11　小结和讨论293
　　　注释和参考文献294
　　　习题295
　　第10章　信息论学习模型299
　　　10.1　引言299
　　　10.2　熵300
　　　10.3　最大熵原则302
　　　10.4　互信息304
　　　10.5　相对熵306
　　　10.6　系词308
　　　10.7　互信息作为最优化的目标函数310
　　　10.8　最大互信息原则311
　　　10.9　最大互信息和冗余减少314
　　　10.10　空间相干特征316
　　　10.11　空间非相干特征318
　　　10.12　独立分量分析320
　　　10.13　自然图像的稀疏编码以及与ICA编码的比较324
　　　10.14　独立分量分析的自然梯度学习326
　　　10.15　独立分量分析的最大似然估计332
　　　10.16　盲源分离的最大熵学习334
　　　10.17　独立分量分析的负熵最大化337
　　　10.18　相关独立分量分析342
　　　10.19　速率失真理论和信息瓶颈347
　　　10.20　数据的最优流形表达350
　　　10.21　计算机实验：模式分类354
　　　10.22　小结和讨论354
　　　注释和参考文献356
　　　习题361
　　第11章　植根于统计力学的随机方法366
　　　11.1　引言366
　　　11.2　统计力学367
　　　11.3　马尔可夫链368
　　　11.4　Metropolis算法374
　　　11.5　模拟退火375
　　　11.6　Gibbs抽样377
　　　11.7　Boltzmann机378
　　　11.8　logistic信度网络382
　　　11.9　深度信度网络383
　　　11.10　确定性退火385
　　　11.11　和EM算法的类比389
　　　11.12　小结和讨论390
　　　注释和参考文献390
　　　习题392
　　第12章　动态规划396
　　　12.1　引言396
　　　12.2　马尔可夫决策过程397
　　　12.3　Bellman最优准则399
　　　12.4　策略迭代401
　　　12.5　值迭代402
　　　12.6　逼近动态规划：直接法406
　　　12.7　时序差分学习406
　　　12.8　Q学习410
　　　12.9　逼近动态规划：非直接法412
　　　12.10　最小二乘策略评估414
　　　12.11　逼近策略迭代417
　　　12.12　小结和讨论419
　　　注释和参考文献421
　　　习题422
　　　第13章　神经动力学425
　　　13.1　引言425
　　　13.2　动态系统426
　　　13.3　平衡状态的稳定性428
　　　13.4　吸引子432
　　　13.5　神经动态模型433
　　　13.6　作为递归网络范例的吸引子操作435
　　　13.7　Hopfield模型435
　　　13.8　Cohen-Grossberg定理443
　　　13.9　盒中脑状态模型445
　　　13.10　奇异吸引子和混沌448
　　　13.11　混沌过程的动态重构452
　　　13.12　小结和讨论455
　　　注释和参考文献457
　　　习题458
　　第14章　动态系统状态估计的贝叶斯滤波461
　　　14.1　引言461
　　　14.2　状态空间模型462
　　　14.3　卡尔曼滤波器464
　　　14.4　发散现象及平方根滤波469
　　　14.5　扩展的卡尔曼滤波器474
　　　14.6　贝叶斯滤波器477
　　　14.7　数值积分卡尔曼滤波器:基于卡尔曼滤波器480
　　　14.8　粒子滤波器484
　　　14.9　计算机实验：扩展的卡尔曼滤波器和粒子滤波器对比评价490
　　　14.10　大脑功能建模中的
　　卡尔曼滤波493
　　　14.11　小结和讨论494
　　　注释和参考文献496
　　　习题497
　　第15章　动态驱动递归网络501
　　　15.1　引言501
　　　15.2　递归网络体系结构502
　　　15.3　通用逼近定理505
　　　15.4　可控性和可观测性507
　　　15.5　递归网络的计算能力510
　　　15.6　学习算法511
　　　15.7　通过时间的反向传播512
　　　15.8　实时递归学习515
　　　15.9　递归网络的消失梯度519
　　　15.10　利用非线性逐次状态估计的递归网络监督学习框架521
　　　15.11　计算机实验：Mackay-Glass吸引子的动态重构526
　　　15.12　自适应考虑527
　　　15.13　实例学习：应用于神经控制的模型参考529
　　　15.14　小结和讨论530
　　　注释和参考文献533
　　　习题534
　　参考文献538