基于深度学习的自然语言处理
作者 : [以色列] 约阿夫·戈尔德贝格(Yoav Goldberg) 著
译者 : 车万翔 郭江 张伟男 刘铭 译刘挺 主审
出版日期 : 2018-05-03
ISBN : 978-7-111-59373-7
定价 : 69.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 269
开本 : 16
原书名 : Neural Network Methods for Natural Language Processing
原出版社: Morgan & Claypool Publishers, Inc.
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书深入浅出地介绍了深度学习的基本知识及各种常用的网络结构,并重点介绍了如何使用这些技术处理自然语言。

图书特色

图书前言

自然语言处理(Natural Language Processing,NLP)这一术语指的是对人类语言进行自动的计算处理。它包括两类算法:将人类产生的文本作为输入;产生看上去很自然的文本作为输出。由于人类产生的文本每年都在不停增加,同时人们期望使用人类的语言与计算机进行交流,因此人们对该类算法的需求在不断增加。然而,由于人类语言固有的歧义、不断变化以及病态性(not well defined),导致自然语言处理极具挑战性。
自然语言本质上是符号化的,因此人们最开始也尝试使用符号化的方式处理语言,即基于逻辑、规则以及本体的方法。然而,自然语言具有很强的歧义性和可变性,这就需要使用统计的方法。事实上,如今自然语言处理的主流方法都是基于统计机器学习(Statistical Machine Learning)的。过去十几年,核心的NLP技术都是以有监督学习的线性模型为主导,核心算法如感知机、线性支持向量机、逻辑回归等都是在非常高维和稀疏的特征向量上进行训练的。
2014年左右,该领域开始看到一些从基于稀疏向量的线性模型向基于稠密向量的非线性神经网络模型(Nonlinear Neural Network Model)切换的成功案例。一些神经网络技术是线性模型的简单推广,可用于替代线性分类器。另一些神经网络技术更进一步提出了新的建模方法,这需要改变现有的思维方式。特别是一系列基于循环神经网络(Recurrent Neural Network,RNN)的方法,减轻了对马尔可夫假设的依赖性,这曾普遍用于序列模型中。循环神经网络可以处理任意长度的序列数据,并生成有效的特征抽取器。这些进展导致了语言模型、自动机器翻译以及其他一些应用的突破。
虽然神经网络方法很强大,但是由于各种原因,入门并不容易。本书中,我将试图为自然语言处理的从业者以及刚入门的读者介绍神经网络的基本背景、术语、工具和方法论,帮助他们理解将神经网络用于自然语言处理的原理,并且能够应用于他们自己的工作中。我也希望为机器学习和神经网络的从业者介绍自然语言处理的基本背景、术语、工具以及思维模式,以便他们能有效地处理语言数据。
最后,我希望本书能够作为自然语言处理以及机器学习这两个领域新手的一个较好的入门指导。
目标读者
本书的目标读者应具有计算机或相关领域的技术背景,他们想使用神经网络技术来加速自然语言处理的研究。虽然本书的主要读者是自然语言处理和机器学习领域的研究生,但是我试图(通过介绍一些高级材料)使自然语言处理或者机器学习领域的研究者,甚至对这两个领域都不了解的人也能阅读本书,后者显然需要更加努力。
虽然本书是自包含的,我仍然假设读者具有数学知识,特别是本科水平的概率、代数和微积分以及基本的算法和数据结构知识。有机器学习的先验知识会很有帮助,但这并不是必需的。
本书是对一篇综述文章[Goldberg, 2016]的扩展,内容上进行了重新组织,提供了更宽泛的介绍,涵盖了一些更深入的主题,由于各种原因,这些主题没有在那篇综述文章中提及。本书也包括一些综述文章中没有的,将神经网络用于语言数据的更具体的应用实例。本书试图对那些没有自然语言处理和机器学习背景的读者也能有用,然而综述文章假设他们对这些领域已经具备了一些知识。事实上,熟悉2006年到2014年期间自然语言处理实践的读者,可能发现期刊版本读起来更快并且对于他们的需求组织得更好,这是因为那段时期人们大量使用基于线性模型的机器学习技术。然而,这些读者可能也会愿意阅读关于词嵌入的章节(第10和11章)、使用循环神经网络有条件生成的章节(第17章),以及结构化预测和多任务学习(Multitask Learning,MTL)的章节(第19和20章)。
本书的焦点
本书试图是自包含的,因此将不同的方法在统一的表示和框架下加以表述。然而,本书的主要目的是介绍神经网络(深度学习)的机制及其在语言数据上的应用,而不是深入介绍机器学习理论和自然语言处理技术。如果需要这些内容,建议读者参考外部资源。
类似地,对于那些想开发新的神经网络机制的人,本书不是一个全面的资源(虽然本书可能是一个很好的入门)。确切地讲,本书的目标读者是那些对现有技术感兴趣,并且想将其以创造性的方式应用于他们喜欢的语言处理任务的人。
扩展阅读对神经网络更深入、一般性的讨论以及它们背后的理论、最新的优化方法和其他主题,读者可以参考其他资源。强烈推荐Bengio等人[2016]的书。
对于更友好而且更严密的实用机器学习介绍,强烈推荐Daumé III [2015]的免费书。对于机器学习更理论化的介绍,参见ShalevShwartz和BenDavid [2014]的免费书以及Mohri等人[2012]的教科书。
对于自然语言处理的更深入介绍参见Jurafsky和Martin [2008]的书。Manning等人[2008]的信息检索书也包括语言数据处理的一些相关信息。
最后,如要快速了解语言学的背景,Bender [2013]的书提供了简单但全面的介绍,对于有计算思维的读者有指导意义。Sag等人[2003]的介绍性语法书的前几章也值得一读。
本书写作之际,神经网络和深度学习的研究也在快速进展之中。最好的方法在不断变化,所以我不能保证介绍的都是最新、最好的方法。因此,我会专注于涵盖更确定、更鲁棒的技术(它们在很多场景下都被证明有效),同时选取那些还没完全发挥作用但有前途的技术。

Yoav Goldberg
2017年3月

上架指导

人工智能\自然语言处理

封底文字

译者介绍:张伟男
博士,哈尔滨工业大学计算机学院社会计算与信息检索研究中心讲师,硕士生导师。在ACL、AAAI、IJCAI及IEEE TKDE等CCF A类国际会议及国际顶级期刊发表论文多篇。中国中文信息学会(CIPS)信息检索专委会委员、青年工作委员会委员,中国人工智能学会(CAAI)青年工作委员会委员。曾获黑龙江省科技进步一等奖、中国人工智能学会最佳青年成果奖、中国人工智能学会“合创杯”第二届全国青年创新创业大赛三等奖。

译者介绍:刘铭
博士,哈尔滨工业大学副教授,博士生导师,美国南加州大学访问学者。研究领域包括文本挖掘、命名实体识别、实体链接等。先后主持国家自然科学基金、中国博士后科学基金特别资助、腾讯-CCF犀牛鸟创意基金等多项基金项目。 在人工智能、数据挖掘、自然语言处理等领域国际期刊和会议(如TKDE、TOIS、IJCAI、ACL、ICDE等)上发表论文20余篇。曾获黑龙江省科学技术一等奖一项, 哈尔滨市科技成果一项。

主审介绍:刘挺
哈尔滨工业大学教授,社会计算与信息检索研究中心主任,国家“万人计划”科技创新领军人才。多次担任国家863重点项目总体组专家、基金委会评专家。中国计算机学会理事,中国中文信息学会常务理事、社会媒体处理专委会(SMP)主任,曾任国际顶级会议ACL、EMNLP领域主席。主要研究方向为人工智能、自然语言处理和社会计算,是国家973课题、国家自然科学基金重点项目负责人。主持研制的“语言技术平台LTP”“大词林”等科研成果被业界广泛使用。曾获国家科技进步二等奖、省科技进步一等奖、钱伟长中文信息处理科学技术一等奖等。

作者简介

[以色列] 约阿夫·戈尔德贝格(Yoav Goldberg) 著:约阿夫•戈尔德贝格(Yoav Goldberg)

 
以色列巴伊兰大学计算机科学系高级讲师,曾任Google Research研究员。他于2011年获得本·古里安大学博士学位。他曾经担任EMNLP,EACL等重要国际会议领域主席,在自然语言处理领域发表论文50余篇,并多次获得最佳论文以及杰出论文奖。同时他也是自然语言处理领域顶级期刊《Computational Linguistics》的编辑部成员。他的研究方向包括面向自然语言处理的机器学习方法,结构预测,句法与词法分析等。近几年,他专注于神经网络模型,在基于深度学习的自然语言处理方法上作出了重要贡献,同时他也是主流深度学习工具包DyNet的主要研发者之一。

译者序

自然语言处理(Natural Language Processing,NLP)主要研究用计算机来处理、理解以及运用人类语言(又称自然语言)的各种理论和方法,属于人工智能领域的一个重要研究方向,是计算机科学与语言学的交叉学科,又常被称为计算语言学。随着互联网的快速发展,网络文本尤其是用户生成的文本呈爆炸性增长,为自然语言处理带来了巨大的应用需求。同时,自然语言处理研究的进步,也为人们更深刻地理解语言的机理和社会的机制提供了一种新的途径,因此具有重要的科学意义。
然而,自然语言具有歧义性、动态性和非规范性,同时语言理解通常需要丰富的知识和一定的推理能力,这些都给自然语言处理带来了极大的挑战。目前,统计机器学习技术为以上问题提供了一种可行的解决方案,成为研究的主流,该研究领域又被称为统计自然语言处理。一个统计自然语言处理系统通常由两部分组成,即训练数据(也称样本)和统计模型(也称算法)。
但是,传统的机器学习方法在数据获取和模型构建等诸多方面都存在严重的问题。首先,为获得大规模的标注数据,传统方法需要花费大量的人力、物力、财力,雇用语言学专家进行繁琐的标注工作。由于这种方法存在标注代价高、规范性差等问题,很难获得大规模、高质量的人工标注数据,由此带来了严重的数据稀疏问题。其次,在传统的自然语言处理模型中,通常需要人工设计模型所需要的特征以及特征组合。这种人工设计特征的方式,需要开发人员对所面对的问题有深刻的理解和丰富的经验,这会消耗大量的人力和时间,即便如此也往往很难获得有效的特征。
近年来,如火如荼的深度学习技术为这两方面的问题提供了一种可能的解决思路,有效推动了自然语言处理技术的发展。深度学习一般是指建立在含有多层非线性变换的神经网络结构之上,对数据的表示进行抽象和学习的一系列机器学习算法。该方法已对语音识别、图像处理等领域的进步起到了极大的推动作用,同时也引起了自然语言处理领域学者的广泛关注。
深度学习主要为自然语言处理的研究带来了两方面的变化:一方面是使用统一的分布式(低维、稠密、连续)向量表示不同粒度的语言单元,如词、短语、句子和篇章等;另一方面是使用循环、卷积、递归等神经网络模型对不同的语言单元向量进行组合,获得更大语言单元的表示。除了不同粒度的单语语言单元外,不同种类的语言甚至不同模态(语言、图像等)的数据都可以通过类似的组合方式表示在相同的语义向量空间中,然后通过在向量空间中的运算来实现分类、推理、生成等各种任务并应用于各种相关的任务之中。
虽然将深度学习技术应用于自然语言处理的研究目前非常热门,但是市面上还没有一本书系统地阐述这方面的研究进展,初学者往往通过学习一些在线课程(如斯坦福的CS224N课程)来掌握相关的内容。本书恰好弥补了这一不足,深入浅出地介绍了深度学习的基本知识及各种常用的网络结构,并重点介绍了如何使用这些技术处理自然语言。
本书的作者Yoav Goldberg现就职于以色列巴伊兰大学,是自然语言处理领域一位非常活跃的青年学者。Goldberg博士期间的主要研究方向为依存句法分析,随着深度学习的兴起,他也将研究兴趣转移至此,并成功地将该技术应用于依存句法分析等任务。与此同时,他在理论上对词嵌入和传统矩阵分解方法的对比分析也具有广泛的影响力。另外,他还是DyNet深度学习库的主要开发者之一。可见,无论在理论上还是实践上,他对深度学习以及自然语言处理都具有非常深的造诣。这些都为本书的写作奠定了良好的基础。
由于基于深度学习的自然语言处理是一个非常活跃的研究领域,新的理论和技术层出不穷,因此本书很难涵盖所有的最新技术。不过,本书基本涵盖了目前已经被证明非常有效的技术。关于这方面的进展,读者可以参阅自然语言处理领域最新的论文。
我们要感谢对本书的翻译有所襄助的老师和学生。本书由哈尔滨工业大学的车万翔、郭江、张伟男、刘铭四位老师主译,刘挺教授主审。侯宇泰、姜天文、李家琦、覃立波、宋皓宇、滕德川、王宇轩、向政鹏、张杨子、郑桂东、朱海潮、朱庆福等对本书部分内容的初译做了很多工作,机械工业出版社华章分社策划编辑朱劼和姚蕾在本书的整个翻译过程中提供了许多帮助,在此一并予以衷心感谢。
译文虽经多次修改和校对,但由于译者的水平有限,加之时间仓促,疏漏及错误在所难免,我们真诚地希望读者不吝赐教,不胜感激。

车万翔
2017年10月于哈尔滨工业大学

图书目录

译者序
前言
致谢
第1章引言
11自然语言处理的挑战
12神经网络和深度学习
13自然语言处理中的深度学习
14本书的覆盖面和组织结构
15本书未覆盖的内容
16术语
17数学符号
注释
第一部分有监督分类与前馈神经网络
第2章学习基础与线性模型
21有监督学习和参数化函数
22训练集、测试集和验证集
23线性模型
231二分类
232对数线性二分类
233多分类
24表示
25独热和稠密向量表示
26对数线性多分类
27训练和最优化
271损失函数
272正则化
28基于梯度的最优化
281随机梯度下降
282实例
283其他训练方法
第3章从线性模型到多层感知器
31线性模型的局限性:异或问题
32非线性输入转换
33核方法
34可训练的映射函数
第4章前馈神经网络
41一个关于大脑的比喻
42数学表示
43表达能力
44常见的非线性函数
45损失函数
46正则化与丢弃法
47相似和距离层
48嵌入层
第5章神经网络训练
51计算图的抽象概念
511前向计算
512反向计算(导数、反向传播)
513软件
514实现流程
515网络构成
52实践经验
521优化算法的选择
522初始化
523重启与集成
524梯度消失与梯度爆炸
525饱和神经元与死神经元
526随机打乱
527学习率
528minibatch
第二部分处理自然语言数据
第6章文本特征构造
61NLP分类问题中的拓扑结构
62NLP问题中的特征
621直接可观测特征
622可推断的语言学特征
623核心特征与组合特征
624n元组特征
625分布特征
第7章NLP特征的案例分析
71文本分类:语言识别
72文本分类:主题分类
73文本分类:作者归属
74上下文中的单词:词性标注
75上下文中的单词:命名实体识别
76上下文中单词的语言特征:介词词义消歧
77上下文中单词的关系:弧分解分析
第8章从文本特征到输入
81编码分类特征
811独热编码
812稠密编码(特征嵌入)
813稠密向量与独热表示
82组合稠密向量
821基于窗口的特征
822可变特征数目:连续词袋
83独热和稠密向量间的关系
84杂项
841距离与位置特征
842补齐、未登录词和词丢弃
843特征组合
844向量共享
845维度
846嵌入的词表
847网络的输出
85例子:词性标注
86例子:弧分解分析
第9章语言模型
91语言模型任务
92语言模型评估:困惑度
93语言模型的传统方法
931延伸阅读
932传统语言模型的限制
94神经语言模型
95使用语言模型进行生成
96副产品:词的表示
第10章预训练的词表示
101随机初始化
102有监督的特定任务的预训练
103无监督的预训练
104词嵌入算法
1041分布式假设和词表示
1042从神经语言模型到分布式表示
1043词语联系
1044其他算法
105上下文的选择
1051窗口方法
1052句子、段落或文档
1053句法窗口
1054多语种
1055基于字符级别和子词的表示
106处理多字单元和字变形
107分布式方法的限制
第11章使用词嵌入
111词向量的获取
112词的相似度
113词聚类
114寻找相似词
115同中选异
116短文档相似度
117词的类比
118改装和映射
119实用性和陷阱
第12章案例分析:一种用于句子意义推理的前馈结构
121自然语言推理与 SNLI数据集
122文本相似网络
第三部分特殊的结构
第13章n元语法探测器:卷积神经网络
131基础卷积池化
1311文本上的一维卷积
1312向量池化
1313变体
132其他选择:特征哈希
133层次化卷积
第14章循环神经网络:序列和栈建模
141RNN抽象描述
142RNN的训练
143RNN常见使用模式
1431接收器
1432编码器
1433传感器
144双向RNN
145堆叠RNN
146用于表示栈的RNN
147文献阅读的注意事项
第15章实际的循环神经网络结构
151作为RNN的CBOW
152简单RNN
153门结构
1531长短期记忆网络
1532门限循环单元
154其他变体
155应用到RNN的丢弃机制
第16章通过循环网络建模
161接收器
1611情感分类器
1612主谓一致语法检查
162作为特征提取器的RNN
1621词性标注
1622RNNCNN文本分类
1623弧分解依存句法分析
第17章条件生成
171RNN生成器
172条件生成(编码器解码器)
1721序列到序列模型
1722应用
1723其他条件上下文
173无监督的句子相似性
174结合注意力机制的条件生成
1741计算复杂性
1742可解释性
175自然语言处理中基于注意力机制的模型
1751机器翻译
1752形态屈折
1753句法分析
第四部分其他主题
第18章用递归神经网络对树建模
181形式化定义
182扩展和变体
183递归神经网络的训练
184一种简单的替代——线性化树
185前景
第19章结构化输出预测
191基于搜索的结构化预测
1911基于线性模型的结构化预测
1912非线性结构化预测
1913概率目标函数(CRF)
1914近似搜索
1915重排序
1916参考阅读
192贪心结构化预测
193条件生成与结构化输出预测
194实例
1941基于搜索的结构化预测:一阶依存句法分析
1942基于NeuralCRF的命名实体识别
1943基于柱搜索的NERCRF近似
第20章级联、多任务与半监督学习
201模型级联
202多任务学习
2021多任务设置下的训练
2022选择性共享
2023作为多任务学习的词嵌入预训练
2024条件生成中的多任务学习
2025作为正则的多任务学习
2026注意事项
203半监督学习
204实例
2041眼动预测与句子压缩
2042弧标注与句法分析
2043介词词义消歧与介词翻译预测
2044条件生成:多语言机器翻译、句法分析以及图像描述生成
205前景
第21章结论
211我们学到了什么
212未来的挑战
参考文献

教学资源推荐
作者: 曹其新 庄春刚 等编著
作者: [美]马丁 T. 哈根(Martin T. Hagan) 霍华德 B. 德姆斯(Howard B. Demuth) 马克 H. 比勒(Mark H. Beale) 奥兰多·德·赫苏斯(Orlando De Jesús) 著
作者: (加)David L. Poole, Alan K. Mackworth 著
作者: [德]伯恩哈德·G. 胡姆(Bernhard G. Humm) 著
参考读物推荐
作者: [美] 弗朗西斯科·里奇(Francesco Ricci) 利奥·罗卡奇(Lior Rokach) 布拉哈·夏皮拉(Bracha Shapira) 保罗 B. 坎特(Paul B. Kantor) 编
作者: [沙]阿卜杜勒哈密特·苏巴西(Abdulhamit Subasi) 著
作者: 张胜 钱柱中 梁瑜 陆桑璐 著