教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 339

开本 : 16

原书名 : Sentiment Analysis: Mining Opinions, Sentiments, and Emotions，Second Edition

原出版社: Cambridge University Press

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

这本书可以作为情感分析领域的入门读物和研究概览。主要从自然语言处理的角度全面地介绍情感分析这个主题的研究技术和实用算法，以帮助读者了解通常用于表达观点和情感的问题和语言结构的基本结构。它涵盖了情感分析的所有核心领域，包括许多新兴的主题，如辩论分析、意图挖掘、假民意检测，并提出了可用来分析和总结观点的计算方法。

图书特色

无

图书前言

自2015年本书第1版出版以来，深度学习技术得到飞速发展，并且在情感分析任务方面得到广泛应用。出版第2版的目的就是在第1版的基础上，补充介绍过去几年针对情感分析任务所提出的深度学习方法。除此之外，第2版也对第1版中许多章节的内容进行了更新。
观点、情感以及与之相关的许多概念，如评价、评估、态度、感情、情绪和心情，与我们主观的感觉和感受密切相关。这些是人类心理活动的核心要素，也是影响人们日常行为的关键因素。我们对于现实世界的感知和感受，包括我们做出的任何选择，在相当大的程度上都受到他人对当前世界的看法和观点的影响。也就是说，我们的观点易受他人观点的影响。每当需要做决定时，我们常常会征求别人的意见。这一现象不仅存在于人与人之间，也存在于组织机构之间。因此，从应用的角度来看，我们自然需要挖掘和分析人们对任何感兴趣主题的观点与情绪，这便是情感分析任务。更确切地说，情感分析，也称为观点挖掘，是一个旨在利用可计算的方法从自然语言文本中提取观点和情感信息的研究领域。
情感分析的兴起和快速发展是伴随着网络社交媒体（如：评论、论坛、博客与微博）的出现和广泛应用而发生的，这是因为在人类历史上我们第一次获得规模巨大的以数字形式记录的观点数据。这些社交媒体数据也被称为用户生成内容，能够帮助研究人员通过挖掘这些数据来发现有用的知识。因为人们在社交媒体平台上发布信息的主要目的是表达他们的意见和观点，所以，社交媒体中的用户生成内容蕴含了大量用户观点信息。要从中挖掘有用的知识，自然需要对情感分析与观点挖掘问题进行研究，这已经成为社交媒体分析的核心问题。自2000年以来，情感分析已成为自然语言处理领域最活跃的研究问题之一。在数据挖掘、网络挖掘和信息检索领域中，针对情感分析的研究也得到了广泛关注。事实上，由于这一研究对商业和整个社会而言十分重要，它已从计算机科学延伸到管理科学和社会科学领域。近年来，在工业界，情感分析的相关产业也蓬勃发展。许多初创企业不断涌现。除此之外，许多大公司（例如，微软、谷歌、脸书、惠普、IBM、Adobe、阿里巴巴、百度以及腾讯）也已经研发了各自的情感分析系统。如今，情感分析系统在几乎每一个企业、卫生机构、政府乃至整个社会都有着广泛应用。
虽然目前还没有一个终极算法能够完美地解决情感分析问题，但多个已经研发的情感分析系统能够在实际应用中为人们提供有用的信息。因此，我认为现在有必要把我们已取得的研究成果，以及在实践中获得的实际经验进行梳理并整理成书。这并不是说我对工业界在情感分析领域所使用的方法了如指掌，因为多数企业并不发表或公开他们的核心算法。然而，我也曾开办一家研发情感分析系统的创业公司，在多个领域为客户涉及大规模社交媒体数据的项目提供了服务。同时，在过去的几年中，许多工业界的研发者也向我大致介绍了他们在其情感分析系统中所用的核心算法。因此，从这几点上来说，我对应用系统开发以及各个算法的实际性能有一定的了解，同时也具有大量解决实际问题的第一手经验。因此，在本书中，我将尽我所能详细介绍这些非机密信息、知识和经验。
在写作这本书时，除了介绍分析和总结观点的计算方法之外，我也试图从语言学角度看待和探讨情感分析问题，以帮助读者了解这一问题的基本结构、常用于表达观点和情感的语言表达方式。如同许多自然语言处理任务一样，在情感分析任务中，大多数已发表的可计算方法都采用文本特征结合机器学习或数据挖掘算法的基本处理范式。然而，现有的大多数机器学习算法都是黑箱的，模型对于结果缺乏可解释性。当出现错误时，我们很难知道原因，更不清楚如何进行修正。因此，如果我们只关注这一类可计算方法，将无法深刻理解情感分析问题，从而阻碍其研究进展。
在介绍语言学方面的知识时，我没有遵循语言学的传统写作方式。这是因为传统的语言学中的知识以及知识的表现方式主要是让人来理解，而不是以机器可处理的方式解决实际问题。虽然人类知识和计算机指令有大部分交叉，但是它们还是有很大区别的。例如，当面对条件句的观点挖掘任务时，我阅读了许多关于条件句的语言学书籍。然而，令人意外的是，我发现几乎没有语言学知识能被用来计算并解决这一问题。我认为部分原因是目前的计算技术不够成熟，还不足以拥有和人一样的理解能力，另一部分原因是大多数语言学知识不适用于计算机处理。
因此，本书的另一个特点是，它不仅仅是像传统语言学书籍一样研究语言本身，帮助人们理解语言；它也关注面向具体应用的实际需求，探讨从自然语言中挖掘情感和观点的实际方法，不仅要识别观点语句、情感以及情感极性（倾向性），而且要抽取与观点或情感相关的重要信息。例如，抽取与观点或情感相关的实体或主题。这些实体或主题通常也被称为观点（或情感）评价对象。在实际应用中，观点评价对象的抽取非常重要。例如，“我讨厌对穷人增税。”如果我们仅识别出作者在本句中表达了一种负面的情感或是厌恶的情绪，那么对于实际应用来说意义不大。但是如果我们能够发现该负面情感或情绪的表达对象是“对穷人增税”，那么这样的信息就变得十分有价值了。从这个角度来说，我希望这本书能够促使和帮助语言学家研究并建立有关观点、情感及相关概念的系统理论。
这本书可以作为情感分析领域的入门教材和研究参考书。在书中的诸多章节，我对入门知识或者已有研究方法进行了单独介绍。但是，在有些章节，我采用了混合介绍的方式。采用这种不同寻常的写作方式的主要原因是，虽然已有许多研究者试图解决情感分析任务的每一个子问题，但是目前仍然没有针对情感分析的成熟技术与算法。在许多情况下，我们可以从已发表论文结果的准确性看出，已有技术离实用化还为时尚早。
本书采用混合写作风格的另一个原因是：大多数已有的方法均利用机器学习与数据挖掘算法在抽取好的文本特征上直接进行应用。由于已经有许多著作对这些机器学习和数据挖掘算法进行了详细介绍，因此这些算法的细节不是本书介绍的重点。此外，对于一些语言学的基础知识和自然语言处理的基本技术，如词性标注、句法分析、浅层句法分析和语法，本书也不做详细介绍。虽然这些技术对情感分析十分重要，但是已有很多自然语言处理相关书籍对其进行了详细介绍。所以，本书假设读者了解机器学习和自然语言处理的基础知识。
在本书中，我试图系统性地介绍情感分析领域的主要研究进展。本书引用了来自主流会议与期刊的总共七百余篇论文和资料，从这一点上来说，本书涵盖的范围是十分全面的。本书的组织结构具体如下：
第1章对整本书进行概览，并介绍情感分析的研究动机。从本章中，我们可以看到情感分析在许多实际系统中都有应用需求。因此，这是一个令人着迷但充满挑战性的研究问题。
第2章给出情感分析任务的定义，并介绍与之相关的诸多概念。从这一章中，我们可以看到，情感分析虽然是一个自然语言处理问题，但它是基于结构化表示的。我们的目标是将非结构化文本转换为结构化数据。基于这一结构化数据，我们可以定义情感分析任务，对文本中的情感进行定性和定量的分析，这对实际应用尤为重要。另外，我们也可以看到，情感分析是一个由许多具有挑战性且相互关联的子问题组合而成的综合问题。
第3章介绍文档级文本的情感分类问题，这一子任务的目标是识别一篇文档（例如，一个产品评论）中所蕴含观点的倾向性：褒义或贬义。第4章介绍同样的观点倾向性分类问题，只不过处理对象是句子级文本。与其相关的观点评分预测、迁移学习和跨语言情感分类问题也在这两章中讨论。
第5章与第6章更进一步地从细粒度级别来介绍基于属性的情感分析问题，其中最重要的研究不仅包括如何对情感进行分类，还包括如何识别情感或观点评价的对象。绝大多数在工业界实际应用的情感或观点挖掘系统都需要在这一粒度上对文本进行分析。第5章着重介绍基于属性的情感分类任务和方法，第6章着重介绍所评价属性或对象的抽取方法。
第7章介绍情感词典构建的相关研究。情感词典是人们在表达褒义或贬义观点时常使用的词与短语（如，好的、惊人的、坏的、可怕的）列表。第8章介绍比较句中的观点表达问题。第9章介绍观点摘要与观点检索问题。第10章探讨另一种情感表达的类型，即在线辩论与讨论中的情感表达问题（赞同和反对），这类情感文本中包含了大量参与者之间的互动交流。第11章讨论基于文本的用户意图挖掘问题。
第12章介绍另一个不一样的问题：如何检测虚假或者具有欺骗性的在线观点信息。第13章介绍如何基于有用性对在线评论进行排序，基于这样的分析，用户可以首先看到那些最有用的评论。第14章对本书进行总结，并讨论一些未来可能的研究热点与方向。
本书适合对社交媒体分析和自然语言处理，特别是对情感分析和观点挖掘感兴趣的学生、研究人员和从业者阅读。消费者的情感倾向和公众的观点表达是许多管理科学和社会科学领域（例如，市场营销、经济学、传播学和政治学等）关心的核心问题。因此，本书不仅适合计算机科学领域的读者阅读，也适合管理科学和社会科学的研究人员或从业者阅读。此外，学校老师可以使用本书作为自然语言处理、社交媒体分析、社会计算、文本和数据挖掘等课程的教材。

上架指导

人工智能\自然语言处理

封底文字

观点挖掘与情感分析是自然语言处理领域的一个基础任务，其基本目标是从文本中识别出观点，分析其情感倾向性，并抽取相关的观点要素。对该问题的研究涉及语言学、计算语言学，甚至脑科学、社会学等多个领域，是自然语言处理领域的难点问题之一。同时，随着社会媒体、电子商务的飞速发展，互联网上不断涌现出内容丰富、形式不一的观点信息，对这些观点信息进行有效的分析、挖掘并辅助决策已经成为产业界的迫切需求。因此，近年来，无论是学术界还是工业界，都对这一问题表现出极大的热情和极高的关注度。众多学者、研究人员提出并构建了大量的观点挖掘和情感分析算法和系统，使得这一研究领域得到了长足的发展。
观点挖掘与情感分析包含多个子任务，如情感分类、观点信息抽取、观点摘要、观点检索等，但是目前对其中的关键问题还没有清晰的定义，也缺乏对处理方法进行系统全面的分析和总结。由美国伊利诺伊大学芝加哥分校刘兵（Bing Liu）教授编著的本书填补了这一空白，是迄今为止观点挖掘与情感分析领域最权威、最全面的著作之一。书中几乎涵盖了观点挖掘领域的所有内容，既可以作为刚刚进入这一领域的学生、学者、开发者的教材使用，同时也是了解这一领域前沿动态的可靠途径，是一本理论和实践相结合、通俗易懂的著作。
自本书第1版出版以来，深度学习技术得到飞速发展，并且在情感分析任务上得到广泛应用。因此，本书第2版在第1版的基础上介绍过去几年针对情感分析任务提出的深度学习方法，并对许多章节的内容进行了更新。

主要特点：
给出观点以及观点挖掘和情感分析的全面定义，并对其中的关键概念进行了详细解释。使初学者能够对该任务的目标和脉络进行全面了解。
不仅介绍了经典观点挖掘和情感分析问题，同时还详细介绍了辩论分析、意图识别、虚假评论检测等相关新任务和新技术的最新研究方法。
既包含了观点挖掘与情感分析的相关基础理论知识，还涉及大量实战经验的介绍。读者在阅读之后能够快速地搭建一套观点挖掘与情感分析的实际系统。
从计算机应用角度撰写的同时，介绍了大量的语言学知识，有助于读者更加深刻地理解观点挖掘和情感分析任务。

作者简介

[美] 刘兵（Bing Liu）著：
刘兵（Bing Liu）美国伊利诺伊大学芝加哥分校（UIC）计算机科学系教授，获爱丁堡大学获得人工智能博士学位。他是ACM Fellow、AAAI Fellow、IEEE Fellow，曾担任ACM SIGKDD主席（7/1/2013 - 6/30/2017）。刘兵教授两次获得KDD十年Test-of-time论文奖，出版多部专著，是数据挖掘、机器学习、情感分析领域最有影响力的学者之一。主要研究领域包括情感分析和观点挖掘、数据挖掘、机器学习、自然语言处理等。刘兵教授目前是ACM Transactions on the Web等五个国际期刊的副主编，曾经担任ICDM 2010、KDD 2008等6个重要国际会议的程序委员会主席，17个会议的副主席，担任国际会议程序委员会成员超过100次。做特邀报告50余次。先后在国际著名学术期刊与重要国际学术会议（如KDD、WWW、AAAI、SIGIR、ICML、TKDE等）上发表论文100多篇。

图书目录

前言
致谢
第1章　引言1
1.1　情感分析应用4
1.2　情感分析研究7
1.2.1　针对不同文本颗粒度的情感分析研究7
1.2.2　情感词典以及研究问题9
1.2.3　辩论与评论分析10
1.2.4　意图挖掘10
1.2.5　垃圾观点检测与评论质量10
1.3　情感分析是一个迷你自然语言处理任务11
1.4　本书撰写方式12
第2章　情感分析概述14
2.1　观点定义15
2.1.1　观点的定义15
2.1.2　情感对象16
2.1.3　观点中的情感17
2.1.4　简化的观点定义19
2.1.5　观点的原因和限定条件20
2.1.6　情感分析的目标和任务21
2.2　观点摘要定义25
2.3　感受、情绪、心情26
2.3.1　心理学中的感受、情绪、心情27
2.3.2　情绪28
2.3.3　心情30
2.3.4　感觉32
2.3.5　情感分析中的感受、情绪和心情33
2.4　观点的不同类型35
2.4.1　常规型观点和比较型观点35
2.4.2　主观和隐含在事实中的观点36
2.4.3　第一人称和非第一人称观点39
2.4.4　元观点39
2.5　作者和读者视角40
2.6　小结40
第3章　文档级情感分类42
3.1　基于监督的情感分类43
3.1.1　基于传统机器学习算法的情感分类方法44
3.1.2　使用自定义的打分函数进行情感分类50
3.1.3　基于深度学习的情感分类51
3.1.4　基于终身学习的情感分类53
3.2　无监督情感分类56
3.2.1　基于句法模板和网页检索的情感分类56
3.2.2　基于情感词典的情感分类58
3.3　情感评分预测60
3.4　跨领域情感分类61
3.5　跨语言情感分类63
3.6　文档的情绪分类64
3.7　小结65
第4章　句子级主客观和情感分类67
4.1　主观性68
4.2　句子级主客观分类69
4.3　句子级情感分类72
4.3.1　句子级情感分类的前提假设72
4.3.2　传统分类方法73
4.3.3　基于深度学习的分类方法74
4.4　处理条件句76
4.5　处理讽刺句78
4.6　跨语言主客观和情感分类80
4.7　在情感分类中使用语篇信息81
4.8　句子级情绪分类82
4.9　多模态情感和情绪分类83
4.10　小结84
第5章　属性级情感分类86
5.1　属性级情感分类概述87
5.1.1　基于监督学习的方法87
5.1.2　基于词典的方法90
5.1.3　两种方法的优缺点93
5.2　情感组合规则94
5.2.1　情感组合规则概述95
5.2.2　情感减弱和情感增强表达101
5.2.3　SMALL_OR_LESS和LARGE_OR_MORE表达103
5.2.4　情绪和情感强度105
5.2.5　情感词的含义106
5.2.6　其他方法概述108
5.3　否定和情感109
5.3.1　否定词109
5.3.2　never112
5.3.3　其他常用的情感转换词113
5.3.4　否定词移动现象114
5.3.5　否定范围114
5.4　情态和情感115
5.5　并列连词but118
5.6　非观点内容的情感词120
5.7　规则表示122
5.8　词义消歧和指代消解124
5.9　小结125
第6章　属性和实体抽取127
6.1　基于频率的属性抽取128
6.2　利用句法关系129
6.2.1　利用观点和观点评价对象间的评价关系130
6.2.2　利用部分整体和属性关系135
6.3　基于监督学习的属性抽取138
6.3.1　隐马尔可夫模型138
6.3.2　条件随机场139
6.3.3　基于深度学习的方法141
6.4　隐含属性的映射142
6.4.1　基于语料库的方法142
6.4.2　基于词典的方法143
6.5　属性聚类145
6.6　基于主题模型的属性抽取147
6.6.1　隐狄利克雷分配148
6.6.2　使用无监督主题模型进行观点属性抽取151
6.6.3　在主题模型中加入领域先验知识155
6.6.4　基于终身学习的主题模型：像人类一样学习157
6.6.5　使用短语作为主题词160
6.7　实体抽取与消歧164
6.7.1　实体抽取与消歧的问题定义164
6.7.2　实体抽取167
6.7.3　实体链接168
6.7.4　实体搜索和链接169
6.8　观点持有者和观点时间抽取170
6.9　小结171
第7章　情感词典构建172
7.1　基于词典的方法173
7.2　基于语料库的方法176
7.2.1　从语料库中识别情感词176
7.2.2　处理上下文相关的情感词177
7.2.3　词典自适应179
7.2.4　其他相关工作179
7.3　情感词向量180
7.4　隐含了情感信息（期望或者不期望）的事实型描述181
7.5　小结182
第8章　比较型观点分析184
8.1　问题定义184
8.2　比较句识别187
8.3　优选实体集识别188
8.4　特殊类型的比较句189
8.4.1　非标准型比较189
8.4.2　交叉类型的比较191
8.4.3　单实体比较192
8.4.4　带有compare和comparison的句子193
8.5　实体与属性抽取194
8.6　小结195
第9章　观点摘要和搜索196
9.1　基于属性的观点摘要196
9.2　基于属性的观点摘要进阶199
9.3　可对照的观点摘要201
9.4　传统摘要202
9.5　比较型观点摘要202
9.6　观点搜索202
9.7　现有观点搜索技术203
9.8　小结205
第10章　辩论与评论分析207
10.1　辩论中的立场识别208
10.2　对辩论、讨论进行建模210
10.2.1　JTE模型211
10.2.2　JTE-R模型：对回复关系进行建模215
10.2.3　JTE-P模型：考虑作者之间的交互关系216
10.2.4　在线讨论的容忍力分析218
10.3　评论建模219
10.4　小结220
第11章　意图挖掘222
11.1　意图挖掘定义222
11.2　意图分类225
11.3　细粒度意图挖掘227
11.4　小结228
第12章　虚假观点检测229
12.1　垃圾评论的不同类型231
12.1.1　有害虚假评论232
12.1.2　垃圾评论者以及垃圾评论行为的类型233
12.1.3　数据类型、特征和检测234
12.1.4　虚假评论和传统谎言的比较235
12.2　基于监督学习的虚假评论检测237
12.3　Yelp数据集上基于监督学习的虚假评论识别实验239
12.3.1　基于语言学特征的监督学习虚假评论识别240
12.3.2　基于行为特征的监督学习虚假评论识别241
12.4　异常行为模式的自动发现242
12.4.1　类关联规则242
12.4.2　单条件规则例外度243
12.4.3　双条件规则例外度245
12.5　基于模型的行为分析247
12.5.1　基于非典型行为的虚假评论检测247
12.5.2　基于评论图的虚假评论检测248
12.5.3　基于贝叶斯模型的虚假评论检测249
12.6　群体虚假评论检测250
12.6.1　群体行为特征252
12.6.2　群体内个体行为特征254
12.7　多ID评论用户识别255
12.7.1　基于相似度学习的多ID评论用户识别255
12.7.2　训练数据准备256
12.7.3　d-特征和s-特征257
12.7.4　识别同一用户的多个ID257
12.8　基于评论爆发检测的虚假评论识别260
12.9　未来研究方向261
12.10　小结262
第13章　评论的质量264
13.1　把评论质量预测看作一个回归问题264
13.2　其他方法266
13.3　一些前沿问题267
13.4　小结267
第14章　总结269
附录273
参考文献282
索引322