教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 368

开本 : 16

原书名 : 无

原出版社: 无

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

介绍模式识别中的基础知识、主要模型及热门应用，使学生掌握模式识别的基本原理、实际应用以及最新研究进展，培养学生在本学科中的视野与独立解决任务的能力，为学生在模式识别的项目开发及相关科研活动打好基础。

图书特色

无

图书前言

模式识别是从输入数据中自动提取有用的模式并将其用于决策的过程,一直以来都是计算机科学及相关领域的重要研究内容之一.当前受到高度重视的深度学习技术,其应用主要也是各种模式识别任务.模式识别在社会生活的各个方面均有广泛的直接应用,而相关的人才缺口却相当大,也就是说,我们为加强模式识别及相关领域的人才培养添砖加瓦是很有必要的.
本书作为模式识别领域的入门教材,目的就是介绍模式识别中的基础知识、主要模型及热门应用,通过理论学习和动手实践相结合的形式使初学者能有效入门,并培养独立解决任务的能力,为模式识别的项目开发及相关科研活动打好基础.
在模式识别领域中已经出版了若干经典的中、英文教材,那么,是否还需要一本新的教材(比如你眼前的这一本)呢？
受诸多因素(例如深度学习的广泛普及)影响,目前模式识别体现出一些与10年前较为不同的特性,而本领域的一些经典教材大多出版于10年之前.因此,本书除了在最后一章介绍了卷积神经网络这一主要的深度学习模型之外,还在各处给出近年来本领域一些新的成果和观点.
然而,作为一本入门教材,笔者的主要目的亦本书最大的特点是:即便某些读者在数学知识和其他相关背景知识方面的基础一般,甚至薄弱,本书通过使用示例、图解、强调方法的来龙去脉(意图、用途、适用条件)、不省略任何推导步骤、适时补充背景知识及鼓励动手实践等方式,力图使这些基础有所欠缺的读者也能顺利理解书中的内容！
本书第14章可作为一个例子来说明上述特点.期望最大化(EM)方法在模式识别与机器学习领域均非常重要.然而,在经典教材[20]中,EM方法只占了7页,而其核心的数学推导部分甚至仅用了2页的篇幅加以说明！笔者就曾经试图用[20]的内容来向一位朋友(美国相关专业排名前10某学校的一位博士)解释EM方法,结果很令人沮丧.这样简练的教材或许适合一些有经验的读者抑或是天才的读者,却未必普遍适用于大多数教程所面向的读者群体.
在本书第14章中,我们首先通过一个实例(高斯混合模型,GMM)来引入EM方法,介绍其必要性和主要的思路,从而为EM方法的形式化建模铺平道路;然后,对这个形式上很短小精干的算法,以该实例为例,详尽地揭示每一步的推导步骤及其含义;最后,水到渠成地得到GMM的EM更新公式.在这章的一道习题中,我们要求读者在不借助于教材内容的前提下,独立完成所有的推导;在另外一道习题中,我们分步骤给出足够的提示,希望读者能独立推导Baum-Welch||另一个经典算法的EM更新公式.对于同样的EM主题,笔者使用了15页的篇幅,相信这样的安排不仅有助于读者较容易地学会EM方法,还可以深入理解其思想与优缺点,甚至能够有所推广.
具体来说,本书在写作时希望具有以下特点:
?强调可读.通过增加样例(包括图例)、解释意图、详细推导(不省略任何中间步骤)等方法,力图使得中等水平的读者可以完全理解课程内容,包括一些相对复杂的数学推导.本书在专用名词首次出现的时候提供其对应的英文词组,并在书末提供了中文和英文两个索引,有助于读者建立中英文专业术语之间的对应关系.同时,本书的第2章简要总结了本科数学教学中对本书有用的一部分知识,并额外补充了一些必要的数学知识.
?注重实践.模式识别是一门实践性很强的学科,笔者在教材章节,尤其是习题中注意培养动手能力,并强调一些理论推导涉及不到但在实践中却极其重要的实现细节.本书的习题中有若干需要读者自行安装软件、阅读文档并编程解决的问题.本书的大部分习题由笔者设计完成,设计习题大概花了一年的时间.如果想完全理解课程内容,完成每章的习题是非常重要的.
?拓广视野.笔者注意从学科整体而不是从单个技术或方法的角度来介绍各章内容.尽管本书详细介绍的只是经过仔细选择的一些核心内容,但通常会对其他相关技术的意义、要点及如何获取更多相关知识也进行简要的描述.例如,在习题中介绍了指数族(exponentialfamily)、局部线性嵌入(LLE)等内容,并在每一章的最后一节提供阅读材料的指南.
?培养能力.通过样例、推导等潜移默化的手段,培养学生以下两个方面的能力.首先,在面对一个新的问题时,能够按照问题剖析、产生想法、形式化定义、问题简化、问题研究与解决的经典步骤,独立解决问题;其次,通过拓广视野,在遇到新的问题(或子问题)时,能够主动发现和利用可用的现有资源(如软件、文档、产品等)快速加以解决,避免自己重复“造轮子”.
一本教材的完成绝非易事.本书的写作开始于2013年秋季,那时我刚回到母校南京大学任教,并计划开设一门新课程||模式识别.本书用英文写作,迄今已逾5年.这本教材能完成,笔者必须感谢相当多人士的帮助,试按大致的时间先后顺序致谢如下:
?南京大学计算机系、人工智能学院、LAMDA研究所的领导、同事与同学们.校系两级领导在科研环境甚至生活环境等各方面提供了一个宽松的氛围,他们还允许我结合自己的研究兴趣开设一门新课程.此前在新加坡任教时必须教一门自己完全不感兴趣的课程,这一经历让我深恶痛绝,所以我在\模式识别

上架指导

计算机/人工智能/模式识别

封底文字

吴建鑫教授是模式识别与计算机视觉领域的国际知名专家，不仅学术造诣深厚，还拥有丰富的教学经验。这本书是他的用心之作，内容充实、娓娓道来，既是优秀的教材，也是出色的自学读物。该书英文版将由剑桥大学出版社近期出版。特此推荐。　　　　
——周志华（南京大学人工智能学院院长，欧洲科学院外籍院士）

模式识别是从输入数据中自动提取有用的模式并将其用于决策的过程，一直以来都是计算机科学、人工智能及相关领域的重要研究内容之一。本书是南京大学吴建鑫教授多年深耕学术研究和教学实践的潜心力作，系统阐述了模式识别中的基础知识、主要模型及热门应用，并给出了近年来该领域一些新的成果和观点，是高等院校人工智能、计算机、自动化、电子和通信等相关专业模式识别课程的优秀教材。

主要特点：
强调可读。通过增加样例 (包括图例) 、解释意图、详细推导 (不省略任何中间步骤) 等方法，力图使得中等水平的读者可以完全理解课程内容。在专用名词首次出现的时候提供其对应的英文词组，并在书末提供了中文和英文两个索引，有助于读者建立中英文专业术语之间的对应关系。同时，第2章简要总结了学习本书必要的数学背景知识。
注重实践。模式识别是一门实践性很强的学科，作者在教材章节，尤其是习题中注意培养动手能力，并强调一些理论推导未涉及但在实践中却极其重要的实现细节。习题中有若干需要读者自行安装软件、阅读文档并编程解决的问题。本书大部分习题由作者设计完成，如果想完全理解课程内容，完成每章的习题是非常重要的。
拓广视野。注意从学科整体而不是从单个技术或方法的角度来介绍各章内容。尽管本书详细介绍的只有经过仔细选择的一些核心内容，但通常也会对其他相关技术的意义、要点及如何获取更多相关的知识进行简要的描述。
培养能力。通过样例、推导等潜移默化的手段，培养学生两个方面的能力。首先，在面对一个新问题时，有能够按照问题剖析、产生想法、形式化定义、问题简化、问题研究与解决的经典步骤, 独立解决问题的能力; 其次，通过拓广视野，在遇到新的问题 (或子问题) 时，有能够主动发现和利用可用的现有资源快速加以解决的能力，避免自己重复“造轮子”。

作者简介

吴建鑫著罗建豪张皓译；吴建鑫审校：吴建鑫南京大学计算机科学与技术系教授、博士生导师，入选中组部青年海外高层次人才引进计划（青年千人计划），2014年获得国家自然科学基金委优秀青年科学基金项目支持. 同时，担任Minieye首席科学家（minieye.cc）. 主要从事计算机视觉和机器学习等领域的研究. 在重要国际期刊如TPAMI、IJCV、AIJ、JMLR等以及重要国际会议如ICCV、CVPR、ICML等发表论文六十余篇. 曾担任国际会议ICCV、AAAI、CVPR等领域主席。发表论文被60余个国家和地区的学者引用7000余次.

图书目录

前言
符号表
第一部分概述.........................................................................1
第1章绪论.............................................................................2
1.1样例:自动驾驶..................................................................3
1.2模式识别与机器学习.............................................................5
1.2.1一个典型的模式识别流程.....................................................5
1.2.2模式识别vs.机器学习.......................................................8
1.2.3评估、部署和细化...........................................................9
1.3本书的结构......................................................................9
习题.................................................................................12
第2章数学背景知识..................................................................14
2.1线性代数.......................................................................14
2.1.1内积、范数、距离和正交性..................................................14
2.1.2角度与不等式..............................................................15
2.1.3向量投影..................................................................16
2.1.4矩阵基础..................................................................17
2.1.5矩阵乘法..................................................................18
2.1.6方阵的行列式与逆..........................................................19
2.1.7方阵的特征值、特征向量、秩和迹............................................20
2.1.8奇异值分解................................................................22
2.1.9(半)正定实对称矩阵.......................................................22
2.2概率............................................................................23
2.2.1基础......................................................................23
2.2.2联合分布、条件分布与贝叶斯定理............................................25
2.2.3期望与方差/协方差矩阵.....................................................26
2.2.4不等式....................................................................27
2.2.5独立性与相关性............................................................28
2.2.6正态分布..................................................................29
2.3优化与矩阵微积分..............................................................30
2.3.1局部极小、必要条件和矩阵微积分............................................30
2.3.2凸优化与凹优化............................................................31
2.3.3约束优化和拉格朗日乘子法.................................................33
2.4算法复杂度.....................................................................34
2.5阅读材料.......................................................................35
习题.................................................................................35
第3章模式识别系统概述.............................................................39
3.1人脸识别.......................................................................39
3.2一个简单的最近邻分类器.......................................................40
3.2.1训练或学习................................................................40
3.2.2测试或预测................................................................40
3.2.3最近邻分类器..............................................................41
3.2.4k-近邻....................................................................42
3.3丑陋的细节.....................................................................43
3.4制定假设并化简................................................................46
3.4.1设计工作环境vs.设计复杂算法.............................................46
3.4.2假设与简化................................................................47
3.5一种框架.......................................................................51
3.6阅读材料.......................................................................51
习题.................................................................................53
第4章评估............................................................................55
4.1简单情形中的准确率和错误率..................................................55
4.1.1训练与测试误差............................................................56
4.1.2过拟合与欠拟合............................................................56
4.1.3使用验证集来选择超参数...................................................58
4.1.4交叉验证..................................................................59
4.2最小化代价/损失...............................................................61
4.2.1正则化....................................................................62
4.2.2代价矩阵..................................................................62
4.2.3贝叶斯决策理论............................................................63
4.3不平衡问题中的评估............................................................64
4.3.1单个类别内的比率..........................................................64
4.3.2ROC曲线下的面积.........................................................65
4.3.3查准率、查全率和F值.....................................................66
4.4我们能达到100％的准确率吗?..................................................68
4.4.1贝叶斯错误率..............................................................68
4.4.2真实标记..................................................................69
4.4.3偏置-方差分解.............................................................70
4.5对评估结果的信心..............................................................73
4.5.1为什么要取平均?...........................................................73
4.5.2为什么要报告样本标准差?..................................................74
4.5.3比较两个分类器............................................................75
4.6阅读材料.......................................................................79
习题.................................................................................79
第二部分与领域知识无关的特征提取.............................................83
第5章主成分分析.....................................................................84
5.1动机............................................................................84
5.1.1维度与内在维度............................................................84
5.1.2降维......................................................................86
5.1.3PCA与子空间方法.........................................................86
5.2PCA降维到零维子空间........................................................86
5.2.1想法-形式化-优化实践......................................................87
5.2.2一个简单的优化............................................................87
5.2.3一些注释..................................................................88
5.3PCA降维到一维子空间........................................................88
5.3.1新的形式化................................................................88
5.3.2最优性条件与化简..........................................................89
5.3.3与特征分解的联系..........................................................90
5.3.4解........................................................................91
5.4PCA投影到更多维度...........................................................91
5.5完整的PCA算法...............................................................92
5.6方差的分析.....................................................................93
5.6.1从最大化方差出发的PCA..................................................94
5.6.2一种更简单的推导..........................................................95
5.6.3我们需要多少维度呢?.......................................................95
5.7什么时候使用或不用PCA呢?..................................................96
5.7.1高斯数据的PCA..........................................................96
5.7.2非高斯数据的PCA........................................................96
5.7.3含异常点数据的PCA......................................................98
5.8白化变换.......................................................................98
5.9特征分解vs.SVD..............................................................98
5.10阅读材料......................................................................99
习题.................................................................................99
第6章Fisher线性判别..............................................................103
6.1用于二分类的FLD...........................................................104
6.1.1想法:什么是隔得很远呢?..................................................104
6.1.2翻译成数学语言...........................................................105
6.1.3散度矩阵vs.协方差矩阵..................................................107
6.1.4两种散度矩阵以及FLD的目标函数........................................108
6.1.5优化.....................................................................108
6.1.6等等,我们有一条捷径.....................................................109
6.1.7二分类问题的FLD.......................................................109
6.1.8陷阱:要是SW不可逆呢?..................................................110
6.2用于多类的FLD..............................................................111
6.2.1稍加修改的符号和SW....................................................111
6.2.2SB的候选................................................................111
6.2.3三个散度矩阵的故事.......................................................112
6.2.4解.......................................................................113
6.2.5找到更多投影方向.........................................................113
6.3阅读材料......................................................................113
习题................................................................................114
第三部分分类器与其他工具.......................................................119
第7章支持向量机...................................................................120
7.1SVM的关键思想..............................................................120
7.1.1简化它!简化它!简化它!..................................................120
7.1.2查找最大（或较大）间隔的分类器...........................................121
7.2可视化并计算间隔.............................................................122
7.2.1几何的可视化.............................................................123
7.2.2将间隔作为优化来计算....................................................124
7.3最大化间隔....................................................................124
7.3.1形式化...................................................................125
7.3.2各种简化.................................................................125
7.4优化与求解....................................................................127
7.4.1拉格朗日函数与KKT条件................................................127
7.4.2SVM的对偶形式..........................................................128
7.4.3最优的b值与支持向量....................................................129
7.4.4同时考虑原始形式与对偶形式..............................................131
7.5向线性不可分问题和多类问题的扩展..........................................131
7.5.1不可分问题的线性分类器..................................................132
7.5.2多类SVM...............................................................134
7.6核SVM.......................................................................134
7.6.1核技巧...................................................................135
7.6.2Mercer条件与特征映射....................................................136
7.6.3流行的核函数与超参数....................................................137
7.6.4SVM的复杂度、权衡及其他...............................................138
7.7阅读材料......................................................................139
习题................................................................................139
第8章概率方法......................................................................144
8.1思考问题的概率路线..........................................................144
8.1.1术语.....................................................................144
8.1.2分布与推断...............................................................145
8.1.3贝叶斯定理...............................................................145
8.2各种选择......................................................................146
8.2.1生成式模型vs.判别式模型................................................146
8.2.2参数化vs.非参数化.......................................................147
8.2.3该如何看待一个参数呢?...................................................148
8.3参数化估计....................................................................148
8.3.1最大似然.................................................................148
8.3.2最大后验.................................................................150
8.3.3贝叶斯...................................................................151
8.4非参数化估计..................................................................153
8.4.1一个一维的例子...........................................................153
8.4.2直方图近似中存在的问题..................................................155
8.4.3让你的样本无远弗届.......................................................156
8.4.4核密度估计...............................................................157
8.4.5带宽选择.................................................................158
8.4.6多变量KDE.............................................................158
8.5做出决策......................................................................159
8.6阅读材料......................................................................159
习题................................................................................160
第9章距离度量与数据变换..........................................................163
9.1距离度量和相似度度量........................................................163
9.1.1距离度量.................................................................164
9.1.2向量范数和度量...........................................................164
9.1.3`p范数和`p度量.........................................................165
9.1.4距离度量学习.............................................................167
9.1.5均值作为一种相似度度量..................................................168
9.1.6幂平均核.................................................................170
9.2数据变换和规范化.............................................................171
9.2.1线性回归.................................................................172
9.2.2特征规范化...............................................................173
9.2.3数据变换.................................................................175
9.3阅读材料......................................................................177
习题................................................................................177
第10章信息论和决策树.............................................................182
10.1前缀码和霍夫曼树............................................................182
10.2信息论基础...................................................................183
10.2.1熵和不确定性...........................................................184
10.2.2联合和条件熵...........................................................184
10.2.3互信息和相对熵.........................................................185
10.2.4一些不等式.............................................................186
10.2.5离散分布的熵...........................................................187
10.3连续分布的信息论............................................................187
10.3.1微分熵.................................................................188
10.3.2多元高斯分布的熵......................................................189
10.3.3高斯分布是最大熵分布..................................................191
10.4机器学习和模式识别中的信息论.............................................192
10.4.1最大熵.................................................................192
10.4.2最小交叉熵.............................................................193
10.4.3特征选择...............................................................194
10.5决策树........................................................................195
10.5.1异或问题及其决策树模型................................................195
10.5.2基于信息增益的结点划分................................................197
10.6阅读材料.....................................................................198
习题................................................................................199
第四部分处理变化多端的数据....................................................203
第11章稀疏数据和未对齐数据......................................................204
11.1稀疏机器学习................................................................204
11.1.1稀疏PCA?............................................................204
11.1.2使用`1范数诱导稀疏性.................................................205
11.1.3使用过完备的字典......................................................208
11.1.4其他一些相关的话题....................................................210
11.2动态时间规整................................................................212
11.2.1未对齐的时序数据......................................................212
11.2.2思路（或准则）.........................................................213
11.2.3可视化和形式化.........................................................214
11.2.4动态规划...............................................................215
11.3阅读材料.....................................................................218
习题................................................................................218
第12章隐马尔可夫模型.............................................................222
12.1时序数据与马尔可夫性质.....................................................222
12.1.1各种各样的时序数据和模型..............................................222
12.1.2马尔可夫性质...........................................................224
12.1.3离散时间马尔可夫链....................................................225
12.1.4隐马尔可夫模型.........................................................227
12.2HMM学习中的三个基本问题................................................228
12.3?、ˉ和评估问题.............................................................229
12.3.1前向变量和算法.........................................................230
12.3.2后向变量和算法.........................................................231
12.4°、±、?和解码问题..........................................................234
12.4.1°和独立解码的最优状态................................................234
12.4.2±、?和联合解码的最优状态.............................................235
12.5?和HMM参数的学习.......................................................237
12.5.1Baum-Welch:以期望比例来更新?.......................................238
12.5.2如何计算?.............................................................238
12.6阅读材料.....................................................................240
习题................................................................................241
第五部分高阶课题.................................................................245
第13章正态分布.....................................................................246
13.1定义..........................................................................246
13.1.1单变量正态分布.........................................................246
13.1.2多元正态分布...........................................................247
13.2符号和参数化形式............................................................248
13.3线性运算与求和..............................................................249
13.3.1单变量的情形...........................................................249
13.3.2多变量的情形...........................................................250
13.4几何和马氏距离..............................................................251
13.5条件作用.....................................................................252
13.6高斯分布的乘积..............................................................253
13.7应用Ⅰ:参数估计............................................................254
13.7.1最大似然估计...........................................................254
13.7.2贝叶斯参数估计.........................................................255
13.8应用Ⅱ:卡尔曼滤波..........................................................256
13.8.1模型...................................................................256
13.8.2估计...................................................................257
13.9在本章中有用的数学.........................................................258
13.9.1高斯积分...............................................................258
13.9.2特征函数...............................................................259
13.9.3舒尔补&矩阵求逆引理.................................................260
13.9.4向量和矩阵导数.........................................................262
习题................................................................................263
第14章EM算法的基本思想........................................................266
14.1GMM:一个工作实例.........................................................266
14.1.1高斯混合模型...........................................................266
14.1.2基于隐变量的诠释......................................................267
14.1.3假若我们能观测到隐变量,那会怎样?......................................268
14.1.4我们可以模仿先知吗?...................................................269
14.2EM算法的非正式描述.......................................................270
14.3期望最大化算法..............................................................270
14.3.1联合非凹的不完整数据对数似然..........................................271
14.3.2(可能是)凹的完整数据对数似然..........................................271
14.3.3通用EM的推导........................................................272
14.3.4E步和M步...........................................................274
14.3.5EM算法...............................................................275
14.3.6EM能收敛吗?..........................................................275
14.4EM用于GMM..............................................................276
14.5阅读材料.....................................................................279
习题................................................................................279
第15章卷积神经网络................................................................281
15.1预备知识.....................................................................281
15.1.1张量和向量化...........................................................282
15.1.2向量微积分和链式法则..................................................283
15.2CNN概览....................................................................283
15.2.1结构...................................................................283
15.2.2前向运行...............................................................285
15.2.3随机梯度下降...........................................................285
15.2.4误差反向传播...........................................................286
15.3层的输入、输出和符号.......................................................287
15.4ReLU层......................................................................288
15.5卷积层........................................................................290
15.5.1什么是卷积?............................................................290
15.5.2为什么要进行卷积?.....................................................291
15.5.3卷积作为矩阵乘法......................................................293
15.5.4克罗内克积.............................................................295
15.5.5反向传播:更新参数.....................................................296
15.5.6更高维的指示矩阵......................................................297
15.5.7反向传播:为前一层准备监督信号.........................................298
15.5.8用卷积层实现全连接层..................................................300
15.6汇合层........................................................................301
15.7案例分析:VGG-16网络......................................................303
15.7.1VGG-Verydeep-16......................................................303
15.7.2感受野.................................................................304
15.8CNN的亲身体验.............................................................305
15.9阅读材料.....................................................................305
习题................................................................................305
参考文献................................................................................309
英文索引................................................................................325
中文索引................................................................................332