教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 235

开本 : 16

原书名 : Bayesian Analysis in Natural Language Processing, Second Edition

原出版社: Morgan & Claypool Publishers, Inc.

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

本书涵盖了流利阅读NLP中贝叶斯学习方向的论文以及从事该领域的研究所需的方法和算法。这些方法和算法部分来自于机器学习和统计学，部分是针对NLP开发的。我们涵盖推理技术，如马尔科夫链、蒙特卡罗抽样和变分推理、贝叶斯估计和非参数建模。为了应对该领域的快速变化，本书新版增加了一个新的章节，关于贝叶斯背景下的表现学习和神经网络。我们还将介绍贝叶斯统计的基本概念，如先验分布、共轭性和生成式建模。最后，我们回顾了一些基本的NLP建模技术，如语法建模、神经网络和表示学习，以及它们在贝叶斯分析中的应用。

图书特色

无

图书前言

第2版前言
Bayesian Analysis in Natural Language Processing, Second Edition
没想到本书会如此迅速地发行第2版。最近几年，自然语言处理领域的快速而令人兴奋的发展要求进行各种更新，本书第2版应运而生。
第2版主要增加的内容是第9章，该章重点介绍自然语言处理（特别是在贝叶斯情景下）中的表征学习与神经网络。本章的撰写是基于这样的观察：在过去5年左右的时间里，自然语言处理中的大部分文献都使用神经网络。因此，本书需要解决一些基本问题。使更新内容适应本书的贝叶斯“使命”（结合自然语言处理背景）并不容易，我是否完成了这一使命将由读者来判断。
第2版除了引入新的章节外，还修正了一些印刷错误，并将一些附加内容整合到各章中。
一些人为本书第2版提供了帮助。非常感谢Trevor Cohn、Marco Damonte、Jacob Eisen-stein、Lea Frermann、Annie Louis、Chunchuan Lyu、Nikos Papasarantopoulos、Shashi Nara-yan、Mark Steedman、Rico Sennrich和Ivan Titov的帮助和评点。还要感谢我的学生和博士后，他们在本书新内容的某些方面教给我的知识比我教给他们的更多。

谢伊·科恩
爱丁堡
2019年2月

第1版前言
Bayesian Analysis in Natural Language Processing, Second Edition
当撰写涉及两个领域（贝叶斯统计和自然语言处理）交叉的主题时，需要考虑焦点和视角。本书旨在为在研究生求学期间和我具有相同处境的人编写，采取一种相当实用的视角。在研究生求学期间，我已经对自然语言处理中的问题和机器学习的基本原理有所了解，我想以纯抽象的方式来学习更多关于贝叶斯统计的知识，尤其是与自然语言处理最相关的部分。因此，本书就是从这种角度出发，提供有关计算语言学家将贝叶斯方法应用于工作时所需掌握的关键技术、术语和模型的抽象信息。
因此，本书的大部分章节比较简洁，且与贝叶斯统计的其他应用相关。只有最后一章为语法模型提供一些具体的自然语言处理应用，这些模型主要（但不完全）用于自然语言处理。
在理想情况下，本书面向的读者应该已经对自然语言处理中的统计建模有一定了解，并且希望对贝叶斯技术在自然语言处理中的具体应用有更深入的了解。做出更多关注贝叶斯自然语言处理数学层面的决策的动机很简单，因为大部分计算语言学家在他们的研究生生涯或其他阶段很早就接触到了自然语言处理的基本核心术语、自然语言处理所预测的语言结构及其背后的一些语言动机。特别是计算语言学家在研究中经常需要学习贝叶斯统计思想或掌握其他统计工具，因此他们有时会对贝叶斯统计产生误解，且缺失全局观。本书试图向读者提供一些缺失的细节。
当前做统计研究工作的方法有多种，频率学派方法和贝叶斯学派方法是其中的两种。频率学派方法有时也称为“经典统计”。而促使我更多地了解贝叶斯统计的一个原因是它拥有辉煌的历史。时至今日，著名的“频率学派和贝叶斯学派分歧”依然存在。这种关于统计分析应遵循的哲学的分歧，甚至比语法理论中生成语义学家和生成语法学家之间著名的“语言战争”的争论更持久且更激烈。即使在贝叶斯阵营里，争论也没有结束。比如一部分人支持对概率的主观解释，而另一部分人支持客观解释。
虽然我在第一次接触贝叶斯统计的核心思想（从理论上来讲，贝叶斯统计依赖于应用贝叶斯法则对数据和参数之间的关系进行转换）时，就被其优雅的数学理论所吸引，但我还是采用了很务实的做法，并没有试图将贝叶斯统计作为进行统计自然语言处理的终极理论。在本书中，我也没有提供支持贝叶斯统计的哲学观点。相反，我提供了贝叶斯统计背后的技术机制，建议读者确定该技术是否适合自己所处理的问题。此外，本书还描述了贝叶斯统计与频率学派方法之间的一些联系，以及其他的共通点。如果读者有兴趣更多地了解贝叶斯统计背后的哲学，建议阅读文献Jaynes（2003）并查看文献Barnett（1999）。为了更好地了解贝叶斯统计背后的历史和人物，建议阅读书籍McGrayne（2011）。本书共分八章，内容如下：
第1章是关于概率和统计的复习，因为它们与贝叶斯自然语言处理相关。我们涵盖随机变量及其之间的独立性、条件独立性、随机变量期望等基本概念。本章还会简要讨论贝叶斯统计以及它与频率统计的区别。如果你具备计算机科学或统计学的一些基础知识，本章的大部分内容可以跳过。
第2章通过两个示例（隐狄利克雷分配模型和贝叶斯文本回归）介绍自然语言处理中的贝叶斯分析，并提供该主题的高级概述。
第3章介绍贝叶斯统计建模的一个重要组成部分—先验，并讨论贝叶斯自然语言处理中最常用的先验，如狄利克雷分布、非信息先验和正态分布等。
第4章通过对后验分布的总结，阐述将频率统计和贝叶斯统计相结合的思路，并详细介绍在保持贝叶斯思维的同时为参数集合计算点估计的方法。
第5章介绍贝叶斯统计中一种主要的推断方法—马尔可夫链蒙特卡罗。还将详细介绍贝叶斯自然语言处理中最常用的两种采样算法：吉布斯采样和Metropolis-Hastings采样。
第6章介绍贝叶斯自然语言处理中另一种重要的推断方法—变分推断，并描述平均场变分推断和变分期望最大化算法。
第7章涵盖贝叶斯自然语言处理中的一种重要建模技术—非参数建模。我们讨论非参数模型—狄利克雷过程和Pitman-Yor过程。
第8章介绍自然语言处理中的基本语法模型（如概率上下文无关语法和同步语法），以及在贝叶斯上下文中构建它们的方法（使用诸如适配器语法、层次狄利克雷过程概率上下文无关语法等模型）。
此外，书后还有两个附录，它们提供阅读本书所需的额外背景信息。每章都附有至少5个习题。本书（包括每章后面的练习题）可以用作教材。具体来讲，本书可作为讲授有关自然语言处理中的贝叶斯分析的多门课程的教材。如果有充足的时间在课堂上讲授贝叶斯自然语言处理（比如四次课），建议将一次课用于第3章，一次课用于第4章，一次课用于第5章和第6章，一次课用于第7章。至于第8章的主题（如适配器语法或贝叶斯概率上下文无关语法），可以用示例的形式注入每次课中。

上架指导

计算机\人工智能

封底文字

自然语言处理在20世纪80年代中期经历了深刻变革，开始大量使用语料库和数据驱动技术对语言进行分析。自那时起，统计技术在自然语言处理中的应用在多个方面得到发展。其中的一个例子发生在2000年左右，那时自然语言处理引入了成熟的贝叶斯机制。这种针对自然语言处理的贝叶斯方法已经可以解决频率学派方法的各种缺点，特别是在没有目标预测示例的无监督情况下进行统计学习更能弥补频率学派方法的不足。

本书对基于贝叶斯分析进行自然语言处理需掌握的概念、理论知识和算法进行了深入浅出的介绍，讲解了常见的推断技术（马尔可夫链蒙特卡罗采样和变分推断）、贝叶斯估计和非参数建模等。特别是为应对领域的快速发展，第2版新增了第9章“表征学习与神经网络”。此外，还介绍贝叶斯统计中的基本概念，如先验分布、共轭和生成建模。最后，本书回顾自然语言处理中的一些基本建模技术（包括语法建模、神经网络和表征学习）以及它们在贝叶斯分析中的应用。

译者序

自然语言处理是计算语言学和统计学习的交叉领域，主要任务是运用各种分析技术和算法对海量的自然语言数据进行自动的计算处理。常见的自然语言处理问题包括语音识别、自然语言生成、机器翻译、信息检索、文本分类和自然语言理解等。对于自然语言处理，贝叶斯分析是一种有效的建模技术。该技术可以综合未知参数的先验信息与样本数据中的证据信息来获取参数的后验分布，以便对统计推断进行指导。通过优雅且统一的方式，贝叶斯分析技术不仅可以合并现有知识并管理参数的不确定性，而且可以为复杂模型提供容量控制。
本书对基于贝叶斯分析进行自然语言处理需掌握的概念、理论知识和算法进行了深入浅出的介绍。首先讲解概率统计的基本概念，如随机变量和条件独立性等，然后基于隐狄利克雷分配模型和贝叶斯文本回归，重点阐述自然语言处理中的贝叶斯分析。随后探讨在贝叶斯自然语言处理中常用的先验分布，如狄利克雷分布、非信息先验和正态分布等，并在此基础上着重介绍两种重要的推断方法：马尔可夫链蒙特卡罗和变分推断。对于贝叶斯自然语言处理中的非参数建模技术，本书重点讨论两种模型：狄利克雷过程和Pitman-Yor过程。此外，本书还介绍自然语言处理中的基本语法模型，以及在贝叶斯上下文中进行语法模型构建的方法。本书的最后重点介绍自然语言处理中成熟的神经网络建模技术，如词嵌入、递归神经网络、卷积神经网络、变分自编码器和生成对抗网络等。
本书作者Shay Cohen博士毕业于卡内基-梅隆大学语言技术专业，现就职于爱丁堡大学信息学院语言、认知和计算研究所。他主要研究结构化预测中的句法和语义解析，对计算语言学和统计学习的交叉领域特别感兴趣。自2015年以来，Cohen讲授的专业课程都与自然语言处理紧密相关。所有这些都为本书的撰写奠定了坚实的基础。
自然语言处理中的贝叶斯分析涉及概率论、非线性优化、语法模型和语言分析等多方面的知识。目前，市面上系统介绍这方面知识的书籍还很少，研究生通常只能通过阅读论文和学习相关课程来掌握零碎的内容。本书紧密围绕自然语言处理，系统地对贝叶斯分析的相关知识进行综合全面的介绍，恰好弥补了这一不足，无论是对从事自然语言处理研究的科研人员，还是对相关专业的本科生，本书都有重要的参考价值。
本书主要由河南大学的杨伟和袁科翻译，在翻译过程中，河南大学计算机与信息工程学院的两位研究生刘琦和王月也参与了部分章节的翻译，并对译文进行校对。机械工业出版社华章分社的刘锋编辑在整个翻译过程中提供了许多帮助，在此表示衷心的感谢。
本书译文虽经反复修改和校对，但由于译者水平有限，难免出现欠妥和纰漏之处，若广大读者不吝告知，将不胜感激。

译者
2020年9月

图书目录

译者序
第2版前言
第1版前言
第1版致谢
第1章　基础知识 1
1.1　概率测度 1
1.2　随机变量 2
1.2.1　连续随机变量和离散随机变量 2
1.2.2　多元随机变量的联合分布 3
1.3　条件分布 4
1.3.1　贝叶斯法则 5
1.3.2　独立随机变量与条件独立随机变量 6
1.3.3　可交换的随机变量 6
1.4　随机变量的期望 7
1.5　模型 9
1.5.1　参数模型与非参数模型 9
1.5.2　模型推断 10
1.5.3　生成模型 11
1.5.4　模型中的独立性假定 13
1.5.5　有向图模型 13
1.6　从数据场景中学习 15
1.7　贝叶斯学派和频率学派的哲学（冰山一角） 17
1.8　本章小结 17
1.9　习题 18
第2章　绪论 19
2.1　贝叶斯统计与自然语言处理的结合点概述 19
2.2　第一个例子：隐狄利克雷分配模型 22
2.2.1　狄利克雷分布 26
2.2.2　推断 28
2.2.3　总结 29
2.3　第二个例子：贝叶斯文本回归 30
2.4　本章小结 31
2.5　习题 31
第3章　先验 33
3.1　共轭先验 33
3.1.1　共轭先验和归一化常数 36
3.1.2　共轭先验在隐变量模型中的应用 37
3.1.3　混合共轭先验 38
3.1.4　重新归一化共轭分布 39
3.1.5　是否共轭的讨论 39
3.1.6　总结 40
3.2　多项式分布和类别分布的先验 40
3.2.1　再谈狄利克雷分布 41
3.2.2　Logistic正态分布 44
3.2.3　讨论 48
3.2.4　总结 49
3.3　非信息先验 49
3.3.1　均匀不正常先验 50
3.3.2　Jeffreys先验 51
3.3.3　讨论 51
3.4　共轭指数模型 52
3.5　模型中的多参数抽取 53
3.6　结构先验 54
3.7　本章小结 55
3.8　习题 56
第4章　贝叶斯估计 57
4.1　隐变量学习：两种观点 58
4.2　贝叶斯点估计 58
4.2.1　最大后验估计 59
4.2.2　基于最大后验解的后验近似 64
4.2.3　决策-理论点估计 65
4.2.4　总结 66
4.3　经验贝叶斯 66
4.4　后验的渐近行为 68
4.5　本章小结 69
4.6　习题 69
第5章　采样算法 70
5.1　MCMC算法：概述 71
5.2　MCMC推断的自然语言处理模型结构 71
5.3　吉布斯采样 73
5.3.1　坍塌吉布斯采样 76
5.3.2　运算符视图 79
5.3.3　并行化的吉布斯采样器 80
5.3.4　总结 81
5.4　Metropolis-Hastings算法 82
5.5　切片采样 84
5.5.1　辅助变量采样 85
5.5.2　切片采样和辅助变量采样在自然语言处理中的应用 85
5.6　模拟退火 86
5.7　MCMC算法的收敛性 86
5.8　马尔可夫链：基本理论 88
5.9　MCMC领域外的采样算法 89
5.10　蒙特卡罗积分 91
5.11　讨论 93
5.11.1　分布的可计算性与采样 93
5.11.2　嵌套的MCMC采样 93
5.11.3　MCMC方法的运行时间 93
5.11.4　粒子滤波 93
5.12　本章小结 95
5.13　习题 95
第6章　变分推断 97
6.1　边缘对数似然的变分界 97
6.2　平均场近似 99
6.3　平均场变分推断算法 100
6.3.1　狄利克雷-多项式变分推断 101
6.3.2　与期望最大化算法的联系 104
6.4　基于变分推断的经验贝叶斯 106
6.5　讨论 106
6.5.1　推断算法的初始化 107
6.5.2　收敛性诊断 107
6.5.3　变分推断在解码中的应用 107
6.5.4　变分推断最小化KL散度 108
6.5.5　在线的变分推断 109
6.6　本章小结 109
6.7　习题 109
第7章　非参数先验 111
7.1　狄利克雷过程：三种视角 112
7.1.1　折棍子过程 112
7.1.2　中餐馆过程 114
7.2　狄利克雷过程混合模型 115
7.2.1　基于狄利克雷过程混合模型的推断 116
7.2.2　狄利克雷过程混合是混合模型的极限 118
7.3　层次狄利克雷过程 119
7.4　Pitman?Yor过程 120
7.4.1　Pitman-Yor过程用于语言建模 121
7.4.2　Pitman-Yor过程的幂律行为 122
7.5　讨论 123
7.5.1　高斯过程 124
7.5.2　印度自助餐过程 124
7.5.3　嵌套的中餐馆过程 125
7.5.4　距离依赖的中餐馆过程 125
7.5.5　序列记忆器 126
7.6　本章小结 126
7.7　习题 127
第8章　贝叶斯语法模型 128
8.1　贝叶斯隐马尔可夫模型 129
8.2　概率上下文无关语法 131
8.2.1　作为多项式分布集的PCFG 133
8.2.2　PCFG的基本推断算法 133
8.2.3　作为隐马尔可夫模型的PCFG 136
8.3　贝叶斯概率上下文无关语法 137
8.3.1　PCFG的先验 137
8.3.2　贝叶斯PCFG的蒙特卡罗推断 138
8.3.3　贝叶斯PCFG的变分推断 139
8.4　适配器语法 140
8.4.1　Pitman-Yor适配器语法 141
8.4.2　PYAG的折棍子视角 142
8.4.3　基于PYAG的推断 143
8.5　层次狄利克雷过程PCFG 144
8.6　依存语法 147
8.7　同步语法 148
8.8　多语言学习 149
8.8.1　词性标注 149
8.8.2　语法归纳 151
8.9　延伸阅读 152
8.10　本章小结 153
8.11　习题 153
第9章　表征学习与神经网络 155
9.1　神经网络与表征学习：为什么是现在 155
9.2　词嵌入 158
9.2.1　词嵌入的skip-gram模型 158
9.2.2　贝叶斯skip-gram词嵌入 160
9.2.3　讨论 161
9.3　神经网络 162
9.3.1　频率论估计和反向传播算法 164
9.3.2　神经网络权值的先验 166
9.4　神经网络在自然语言处理中的现代应用 168
9.4.1　循环神经网络和递归神经网络 168
9.4.2　梯度消失与梯度爆炸问题 169
9.4.3　神经编码器-解码器模型 172
9.4.4　卷积神经网络 175
9.5　调整神经网络 177
9.5.1　正则化 177
9.5.2　超参数调整 178
9.6　神经网络生成建模 180
9.6.1　变分自编码器 180
9.6.2　生成对抗网络 185
9.7　本章小结 186
9.8　习题 187
结束语 189
附录A　基本概念 191
附录B　概率分布清单 197
参考文献 203