教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 223

开本 : 16

原书名 : Cognitive Approach to Natural Language Processing

原出版社: Elsevier (Singapore) Pte Ltd

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

【网店勿用！此为申报选题所填信息，网店请调用最终版】
自然语言处理跨越了许多不同的学科，有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系，每章都由相关领域的专家撰写，内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。

图书特色

无

图书前言

本书是一本论文专辑，致力于探索自然语言处理和认知科学之间的关系，以及计算机科学对于这两个领域的贡献。根据Poibeau和Vasishth[POI 16]所述，对认知问题的研究兴趣可能较少受到关注。因为在认知科学领域，研究者往往无力应对自然语言处理技术的复杂性；同样，自然语言处理的研究者也没有认识到认知科学对于他们工作的贡献。我们相信，2004年启动的自然语言处理和认知科学国际研讨会（NLPCS）提供了一个强大的平台，支持新的研究课题的多样性，并且能帮助研究者建立共识。与此同时，这个平台还认可跨学科方法的重要性，并将计算机科学家、认知学和语言学的研究者聚集到一起来推动自然语言处理研究。
本书包含10章，都是由自然语言处理和认知科学国际研讨会的研究者完成的。
在第1章，Philippe Blache阐述了理解语言的过程在理论上是非常复杂的，该过程必须实时进行，且需要许多不同来源的信息。他认为对于一个语言输入的整体解释应该建立在基于块的基本单元的分组之上，而这些单元构成了“尽可能解释”原则的支柱，该原则负责推迟理解过程，直到有足够的信息可用。
接下来的两章讨论人类关联问题。在第2章，Korzycki、Gatkowska和Lubaszewski讨论了一个有900个学生参与的自由词关联测试。他们利用三个算法从文本中提取出关联列表，然后将提取的关联列表与人类关联列表做对比。这三个算法分别是Church-Hanks算法、潜在语义分析（LSA）和潜在狄利克雷分配（LDA）。
在第3章，Lubaszewski、Gatkowska和Godny描述了一个过程，用于在实验中建立的人类关联网络中的单词关联。他们认为每个关联都是基于两个释义之间的语义关系，而这种释义之间的关联有自己的方向，并且独立于其他关联的方向。此过程使用图结构来生成语义一致的子图。
在第4章，Rapp探索了人类语言生成是否是由关联控制的，以及话语的下一个实词是否可被视为该实词表示的一种关联，而这种关联已经在说话人的记忆中被激活。他还介绍了反向关联任务的概念，讨论了激励词是否可以通过响应词来预测。他根据反向关联任务搜集了人类数据，并将其与机器生成的结果进行了比较。
在第5章中，Vincent-Lamarre和他的同事研究了在字典中定义所有其余单词所需的单词及其数量。为此，他们在词典组件Wordsmyth上使用了图论分析。其研究结果对于理解符号基础，以及词义的学习和心理表征具有重要意义。他们得出的结论是，语言使用者只有掌握用于理解词的定义的词汇表中的单词，才能够从语言（口头）定义中学习和理解单词的含义。
第6章侧重于词义消歧。Tripodi和Pelillo根据进化博弈论方法来研究词义消歧。要消除歧义的每个单词都表示为玩家，每个意义都表示为策略。该算法已经在具有不同数量标记词的四个数据集上进行了测试。它利用关系和上下文信息来推断目标词的含义。实验结果表明，该方法的性能优于传统方法，并且只需要少量标记点就能胜过有监督系统。
在第7章中，Zock和Tesfaye专注于以四个任务表达的文本生成的挑战性任务：构思、文本结构、表达和修订。他们专注于文本结构，涉及消息的分组（分块）、排序和链接。其目的是研究文本生成的哪些部分可以自动化，以及计算机是否可以基于用户提供的一组输入构建一个或多个主题树。
著述属性是第8章研究的重点。Boukhaled和Ganascia分析了使用虚词的序贯规则和词性（POS）标签作为文本标记的有效性。该有效性不依赖于词袋假设或原始频率。他们的研究表明，虚词和词性n元组（n-gram）的频率优于序贯规则。
第9章讨论了基频检测（F0），它在人类语音感知中起着重要作用。Glavitsch探索了使用人类认知原理进行的F0估计是否能够表现得与最新的F0检测算法一样好或更好。他所提出的运行在时域的算法错误率较小，并且在使用有限的存储和计算资源的情况下，其表现超过了传统的最高水平的基于关联的RAPT方法。在神经认知心理学中，手动收集的完形填充概率（CCP）用于量化眼球运动控制模型中句内上下文单词的可预测性。由于CCP数据都是基于上百个参与者的采样，在所有新的激励上泛化该模型是很难的。
在第10章中，Hofmann、Biemann和Remus提出应用语言模型，这些模型可以通过在线数据库中公开可用数据集的item级别的性能进行基准测试。先前在脑电图（EEG）和眼球运动（EM）数据中从句内上下文中预测单词的神经认知方法依赖于CCP数据。他们的研究表明，当直接计算CCP、EEG和EM数据时，n元语言模型和递归神经网络（RNN）的句法和短程语义过程差不多同样好。这可以帮助将神经认知模型推广到所有可能的新颖单词组合。
参考文献

上架指导

人工智能\自然语言处理

封底文字

本书致力于探索自然语言处理和认知科学之间的关系，以及计算机科学对这两个领域的贡献。书中内容来源于自然语言处理和认知科学国际研讨会（NLPCS）的新论文，该研讨会发起于2004年，支持研究课题的多样性和跨学科性，为自然语言研究者、计算机科学家、认知科学家和语言学家构建了交流与合作的平台。
本书共10章，内容涵盖自然语言理解、自然语言生成、单词关联、词义消歧、单词预测、文本生成和著述属性等领域，从多个视角阐述了自然语言的产生、识别、加工和理解过程，不仅包含大量算法和研究成果，而且分享了前沿学者的宝贵经验。

作者简介
伯纳黛特·夏普（Bernadette Sharp）　英国斯塔福德郡大学应用人工智能系教授。她的研究兴趣包括人工智能、自然语言处理和文本挖掘。自从2004年以来，她一直担任NLPCS的主席和审稿人。
弗洛伦斯·赛德斯（Florence Sèdes）　法国图卢兹第三大学计算机科学系教授。她的研究领域包括信息系统、数据管理以及多媒体、元数据等方面的应用。
维斯拉夫·卢巴泽斯基（Wies?aw Lubaszewski）　波兰雅盖沃大学计算语言学系教授，克拉科夫AGH科技大学计算机科学系教授。他的研究兴趣包括自然语言词典、文本理解、知识表示和信息抽取等。
译者简介
徐金安　北京交通大学计算机学院教授、博士生导师，研究方向为机器翻译、自然语言处理、人机交互和文本情感分析等。博士毕业于北海道大学，曾任日本电气株式会社中央研究院研究员。

作者简介

[英]伯纳黛特·夏普（Bernadette Sharp） [法]弗洛伦斯·赛德斯（Florence Sèdes）[波兰]维斯拉夫·卢巴泽斯基（Wiesław Lubaszewski）编著：---作者简介---
伯纳黛特•夏普（Bernadette Sharp）英国斯塔福德郡大学应用人工智能系教授。她的研究兴趣包括人工智能、自然语言处理和文本挖掘。自从2004年以来，她一直担任NLPCS的主席和审稿人。
弗洛伦斯•赛德斯（Florence Sèdes）法国图卢兹第三大学计算机科学系教授。她的研究领域包括信息系统、数据管理以及多媒体、元数据等方面的应用。
维斯拉夫•卢巴泽斯基（Wiesław Lubaszewski）波兰雅盖沃大学计算语言学系教授，克拉科夫AGH科技大学计算机科学系教授。他的研究兴趣包括自然语言词典、文本理解、知识表示和信息抽取等。

---译者简介---
徐金安北京交通大学计算机学院教授、博士生导师，研究方向为机器翻译、自然语言处理、人机交互和文本情感分析等。博士毕业于北海道大学，曾任日本电气株式会社中央研究院研究员。

译者序

近年来，自然语言处理蓬勃发展，即将迎来黄金十年，进一步推动人工智能的整体进步。自然语言处理是一个多边沿的交叉学科，涉及语言学、计算机科学、数学、心理学、认知科学等。自然语言处理通常包括形式化描述、数学建模、编程实践和实验验证改良等过程。在使用计算机对自然语言处理模型进行建模的过程中，需要各种层面的知识。冯志伟教授把这些知识归纳总结为9个层面，涉及声学和韵律学、音位学、形态学、词汇学、句法学、语义学、话语分析、语用学及外部世界常识性知识等。自然语言处理的具体任务不同，所涉及层面的知识也不相同。
近年来自然语言处理在深度学习的推动下，在诸如神经机器翻译、智能人机交互、机器阅读理解和机器创作等领域都取得了很大进步。当前，自然语言处理关注的研究热点包括预训练神经网络、多任务学习、迁移学习、知识和常识的融合、低资源的自然语言处理任务、多模态学习等。
目前，人工智能正在经历从感知智能向认知智能的发展，其中，自然语言处理日益重要。如何把人类认知和自然语言处理相互融合，推动人工智能的进步和发展，是目前的研究热点、难点和焦点。
本书旨在探讨自然语言处理与认知科学之间的关系，分别从延迟解释及浅层处理和构式、自由词关联测试、单词关联、人类语言生成的关联控制、反向关联任务、隐藏结构及词典功能、词义消歧、连贯文本写作、虚词的序贯规则和词性标签、基频检测和语言模型等方面，阐述了新的研究成果，旨在进一步丰富自然语言处理相关理论，推动人工智能的技术进步。
本书的特色在于体现了自然语言处理研究的交叉性跨学科的特点，从认知科学和自然语言处理的单词、语言模型、语义消歧、文本生成等层面和视角阐述了自然语言的产生、识别、加工和理解过程，提供了一些宝贵的经验、算法和研究成果，证明了认知科学和自然语言处理相结合的重要性。
我们坚信，按照自然语言处理所涉及的9个层面的知识，开展认知科学和自然语言处理研究，能够不断推进人工智能的发展和进步。
本书由北京交通大学计算机与信息技术学院计算机科学与技术系徐金安教授组织翻译。译者长期从事自然语言处理和机器翻译研究领域的教学和科研工作，对自然语言处理领域的问题有一定深度的理解。参与的译者也都是徐金安带领的自然语言处理研究组的成员，在该领域有一定的研究基础和经历。在此，感谢吴都、张颖、朱庆、雷孝钧、杨晗、郭星星、黄辉、张琳琇、郭梦霏、于鹏所做的工作。
由于译者水平有限，加之翻译时间仓促，译文中难免存在错误，欢迎读者批评指正，以便于将来修正。译者的邮箱地址是：jaxu@bjtu.edu.cn。

图书目录

译者序
前言
作者名单
第1章延迟解释、浅层处理和构式：“尽可能解释”原则的基础 1
1.1 引言 1
1.2 延迟处理 2
1.3 工作记忆 5
1.4 如何识别语块：分词操作 7
1.5 延迟架构 10
1.5.1 分段和存储 11
1.5.2 内聚聚集 12
1.6 结论 15
1.7 参考文献 16
第2章人类关联规范能否评估机器制造的关联列表 19
2.1 引言 19
2.2 人类语义关联 20
2.2.1 单词关联测试 20
2.2.2 作者的实验 21
2.2.3 人类关联拓扑 22
2.2.4 人类关联具有可比性 24
2.3 算法效率比较 26
2.3.1 语料库 26
2.3.2 LSA源关联列表 27
2.3.3 LDA源列表 28
2.3.4 基于关联比率的列表 28
2.3.5 列表比较 29
2.4 结论 33
2.5 参考文献 34
第3章文本词如何在人类关联网络中选择相关词 37
3.1 引言 37
3.2 网络 40
3.3 基于文本的激励驱动的网络提取 42
3.3.1 子图提取算法 42
3.3.2 控制流程 43
3.3.3 最短路径提取 44
3.3.4 基于语料库的子图 46
3.4 网络提取流程的测试 46
3.4.1 进行测试的语料库 46
3.4.2 提取子图的评估 46
3.4.3 有向和无向子图提取：对比 48
3.4.4 每个激励产生的结果 49
3.5 对结果和相关工作的简要讨论 54
3.6 参考文献 57
第4章反向关联任务 59
4.1 引言 59
4.2 计算前向关联 63
4.2.1 步骤 63
4.2.2 结果和评估 65
4.3 计算反向关联 67
4.3.1 问题 67
4.3.2 步骤 67
4.3.3 结果和评估 71
4.4 人类的表现 73
4.4.1 数据集 73
4.4.2 测试流程 75
4.4.3 评估 76
4.5 机器性能 77
4.6 讨论、结果和展望 78
4.6.1 人类的反向关联 78
4.6.2 机器的反向关联 80
4.7 致谢 82
4.8 参考文献 82
第5章词汇的隐藏结构与功能 85
5.1 引言 86
5.2 方法 86
5.2.1 词典图 86
5.2.2 心理语言学变量 90
5.2.3 数据分析 91
5.3 内核、卫星、核心、MinSet以及词典余下部分的心理语言学属性 93
5.4 讨论 96
5.5 未来工作 99
5.6 参考文献 101
第6章用于词义消歧的直推式学习博弈 103
6.1 引言 103
6.2 基于图的词义消歧 104
6.3 半监督学习方法 107
6.3.1 基于图的半监督学习 107
6.3.2 博弈论和博弈动态 108
6.4 词义消歧博弈 110
6.4.1 图构造 110
6.4.2 策略空间 111
6.4.3 收益矩阵 111
6.4.4 系统动力学 112
6.5 评估 113
6.5.1 实验设置 113
6.5.2 评估结果 114
6.5.3 对比先进水平算法 116
6.6 结论 117
6.7 参考文献 117
第7章用心学写：生成连贯文本的问题 121
7.1 问题 121
7.2 次优文本及其相关原因 123
7.2.1 缺乏连贯性或凝聚力 124
7.2.2 错误引用 125
7.2.3 无动机的主题转移 126
7.3 如何解决任务的复杂性 127
7.4 相关研究 128
7.5 关于构建辅助写作过程的工具的假设 130
7.6 方法论 133
7.6.1 句法结构的识别 135
7.6.2 语义种子词的识别 135
7.6.3 单词对齐 137
7.6.4 确定对齐单词的相似性值 137
7.6.5 确定句子之间的相似性 141
7.6.6 基于句子相似性值的聚类 142
7.7 实验结果和评估 142
7.8 展望和总结 145
7.9 参考文献 146
第8章面向著述属性的基于序贯规则挖掘的文体特征 149
8.1 引言和研究动机 149
8.2 著述属性过程 151
8.3 著述属性的文体特征 152
8.4 针对文体分析的时序数据挖掘 154
8.5 实验设置 155
8.5.1 数据集 156
8.5.2 分类方案 157
8.6 结果和讨论 158
8.7 结论 162
8.8 参考文献 162
第9章一种并行的、面向认知的基频估计算法 165
9.1 引言 165
9.2 语音信号分割 167
9.2.1 语音和停顿段 168
9.2.2 浊音和清音区 169
9.2.3 稳定和不稳定区间 170
9.3 稳定区间的F0估计 171
9.4 F0传播 173
9.4.1 控制流 174
9.4.2 峰值传播 175
9.5 不稳定的浊音区域 178
9.6 并行化 178
9.7 实验和结果 179
9.8 结论 180
9.9 致谢 181
9.10 参考文献 182
第10章基于完形填充、脑电图和眼球运动数据对n元语言模型、主题模型和循环神经网络的基准测试 185
10.1 引言 186
10.2 相关工作 187
10.3 方法 188
10.3.1 人类绩效评估 188
10.3.2 语言模型的三种风格 189
10.4 实验设置 192
10.5 结果 193
10.5.1 可预测性结果 193
10.5.2 N400振幅结果 196
10.5.3 单一注视时延结果 198
10.6 讨论和结论 200
10.7 致谢 202
10.8 参考文献 202
术语表 207