教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 325

开本 : 16

原书名 : Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining

原出版社: Morgan & Claypool Publishers, Inc.

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

本书从实际角度涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法，并包括许多专门设计并辅以配套软件工具包（例如META，一种数据科学工具包）的动手练习，来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据，以及如何试验数据和为具体应用任务来改进一些算法。

图书特色

文本数据管理与分析
信息检索与文本挖掘的实用导论　
[ 美 ]　翟成祥（Chengxiang Zhai）
　　　　　　　　　　肖恩·马森（Sean Massung）　著
　　　　　宋巍　赵鑫　李璐旸　李洋　等译
　　　　　刘挺　审校
Text Data Management and Analysis
A Practical Introduction to Information Retrieval and Text Mining

图书前言

“大数据”的增长为计算和统计方法带来了前所未有的机遇。利用这些方法可以将未经处理的原始数据（raw data）转变为可应用的知识以支持各类应用任务,尤其是涉及决策（decision making）优化的应用领域，如健康与医疗、防护与安全、学习与教育、科学探索及商业智能等。正如显微镜使我们能够看到微观世界、望远镜使我们能够看到远方一样，“大数据镜”将扩展我们的感知能力去发现埋藏在数据中的隐含信息与知识，这些隐含的信息与知识能够帮助做出预测和优化决策。本书覆盖了用于管理和分析大规模文本数据的通用计算技术，这些技术能够帮助用户在各类应用中对文本数据进行管理和使用。
文本数据包括所有以自然语言文本（如英文文本或中文文本）形式出现的数据：所有的网页、社交媒体数据（如微博）、新闻、科技文献、电子邮件、政府文档以及其他类型的企业数据。文本数据在生活中起到重要作用。由于人们使用自然语言进行交流，每天将产生并消费大量涵盖各类主题的文本数据。文本数据的爆炸式增长使人们不可能至少很难及时地消费所有相关信息。因此，开发智能信息检索系统成为迫切的需求，智能信息检索系统能够帮助人们管理文本数据，并随时快速、准确地获取所需的相关信息。这种需求是近期网络搜索引擎行业迅猛发展的主要原因。文本数据主要是人们为了交流的目的而产生，其中通常包含了丰富的语义内容和有价值的知识、信息、观点以及人们的偏好。因此，作为“大数据”的一种，文本数据提供了巨大的机遇去发掘对多种应用有用的知识，尤其是直接用文本形式表达的用户观点和偏好等。例如，人们普遍通过产品评论、论坛讨论和社交媒体等文本数据获取他人观点帮助决策。由于信息规模巨大，人们需要智能软件工具来帮助发现相关知识以优化决策或更加高效地完成相关任务。尽管支持文本挖掘的技术并没有成熟到如搜索引擎支持文本获取的程度，但相关领域在近年来取得了显著进步，一些专门的文本挖掘工具已经开始在众多应用领域广泛使用。本书的子标题阐释了本书涵盖的两大主题：信息检索与文本挖掘。这两大主题基本对应了前文讨论的两类应用系统（搜索引擎与文本分析系统）所依赖的技术。人为地区分两大主题主要是为了构建本书的高层结构。事实上，复杂的应用系统都会使用两大主题中的多种技术。
文本与结构化数据不同。结构化数据遵循定义良好的结构模式，便于计算机来处理。文本缺少明显的结构，因此以上讨论的智能软件工具的发展需要计算机能够理解文本中包含的内容。当前的自然语言处理技术还没有做到使计算机能够准确地理解自然语言文本（这也是“人”应该被包含到处理流程之中的原因）。但是在过去几十年中，基于统计或启发式的文本数据管理与分析方法得到了广泛的发展。这些方法具有良好的健壮性，可以用于分析与管理任何自然语言以及关于任何主题的文本数据。本书试图对很多此类方法进行系统的介绍，并着重强调构建多种实用文本信息系统所需的最有用的知识与技巧。
本书主要基于作者在伊利诺伊大学香槟分校（University of Illinois at Urbana-Champaign，UIUC）讲授文本数据管理与分析相关课程（即CS 410“文本信息系统”），以及第一作者2015年在Coursera开设的两门在线课程“文本检索与搜索引擎”（Text Retrieval and Search Engines）和“文本挖掘与分析”（Text Mining and Analytics）所使用的材料。书中的大部分内容及结构与上述两门在线课程一致，因此本书可作为两门在线课程的主要参考书。
信息检索（Information Retrieval，IR）是一个相对成熟的研究领域。关于信息检索的优秀教材也有很多，近期的著作包括Baeza-Yates和Ribeiro-Neto [2011]所著的《Modern Information Retrieval: The Concepts and Technology behind Search》、Büttcher等[2010]所著的《Information Retrieval: Implementing and Evaluating Search Engines》、Croft等[2009]所著的《Search Engines: Information Retrieval in Practice》以及Manning等[2008]所著的《Introduction to Information Retrieval》。与关于信息检索的已有教材相比，本书涵盖了更广泛的主题，既包括信息检索也包括文本挖掘。我们希望能够描绘出一个可以指导如何逐步构建一个能同时支持信息检索与文本分析的系统的蓝图。例如，书中详细介绍了词关联挖掘、概率主题模型以及文本和非文本数据的联合分析，以往任何信息检索教材都没有包含这些内容。与信息检索相比，文本挖掘（Text Mining，TM）远远没有成熟，还处于幼年时期，甚至如何准确定义文本挖掘都是一个开放问题。就此而言，目前尚没有关于文本挖掘的教材。作为一本关于文本挖掘的教材，本书对文本挖掘中主要的代表性技术进行了基本介绍。通过将文本挖掘与信息检索置于统一的框架内，强调了在任何实用的文本信息系统中信息检索与文本挖掘相结合的重要性。信息检索在任何文本挖掘应用中都会起到两个重要作用：一是能够快速减小数据规模，通过过滤大量不相关文档而获取小规模的、与特定应用问题最为相关的数据；二是支持数据分析人员验证并解释从文本数据中发现的模式，这里需要数据分析人员借助搜索和浏览功能来获取和检查与目标模式最相关的数据。
本书的另外一个特点是带有配套的信息检索与文本挖掘工具集META（可在https://meta-toolkit.org/获取）。它实现了书中讨论的很多技术。书中的很多练习也是根据该工具集设计的，可帮助读者获得使用书中习得的技术进行实践的技巧，并能够应用这些技巧去解决现实世界中的实际问题。
本书包括四部分。第一部分纵览全书内容并提供理解后续章节所必需的背景知识。第二部分和第三部分包括本书的主要内容，广泛地涵盖了信息检索相关技术（称为文本数据获取技术）和文本挖掘相关技术（称为文本数据分析技术）。第四部分通过一个文本管理与分析的统一框架总结了全书内容。该框架整合了许多信息检索和文本分析技术，通过人机协同为文本数据获取与分析提供更为先进的支持。
本书尽可能地做到自包含，因此本书内容在理解上所需的背景知识是极少的。但是读者需要具有关于计算机科学的基本知识，尤其是数据结构、编程语言,并了解概率和统计中的基本概念，如条件概率和参数估计。不具备以上背景的读者应该也可以理解本书讨论的大多数算法的基本思想，或者可以通过仔细研读本书第2章来获取相关知识。如果必要，可以进一步阅读第2章书目说明部分提到的参考文献来深入理解涉及的主要概念。META工具集可以很方便地被用于实验算法和建立应用，但是若希望扩展该工具集则需要具备基本的C++编程能力。
本书可作为高年级本科生信息检索与文本挖掘相关课程的教材，或者作为研究生的参考书，书中涵盖了信息检索和文本挖掘中的实践环节，也可以帮助工业界的从业者获取关于管理和分析文本数据的实用技术并快速应用到各种有趣的真实世界的应用中。
致谢
本书的完成是众多人帮助的结果。首先，我们要向Edward A.Fox表达最诚挚的谢意。他是ACM系列丛书“信息检索和数字图书馆”领域的主编，感谢他邀请我们写这本书。还要感谢ACM丛书的主编Tamer Ozsu，感谢他对本书提案的支持和有益的评价。没有他们的鼓励和支持，这本书是无法完成的。接下来，我们深深地感激Edward A.Fox、Donna Harman、Bing Liu和Jimmy Lin对本书初稿进行了十分仔细的审阅并提供了有价值的反馈和建设性的意见。尽管我们无法完全实现提出的建议，然而他们所有的评论极有帮助，在很多方面显著提高了本书的品质。本书显然会有不足或错误之处，作者将完全为此负责。
在本书的写作过程中，Morgan & Claypool出版社的执行编辑Diane Cerra给予我们强有力的支持和帮助，她的定期提醒与及时支持是我们能够按时完成本书的关键，我们对此表示衷心的感谢。此外，我们要感谢负责文章编修的Sara Kreisman，以及Paul C.Anagnostopoulos和他在Windfall Software的制作团队（Ted Laux、Laurel Muller、MaryEllen Oliver和Jacqui Scarlott），感谢他们在索引、插图、美术校对和构图方面的帮助，确保本书能够顺利出版。
本书的内容和对相关主题的理解受益于同研究界和工业界众多同仁的讨论和交流。由于篇幅所限，我们在这里只能提及部分人（对未提及的人表示歉意）：James Allan，Charu Aggarwal，Ricardo Baeza-Yates，Nicholas J.Belkin，Andrei Broder，Jamie Callan，Jaime Carbonell，Kevin C.Chang，Yi Chang，Charlie Clarke，Fabio Crestani，W.Bruce Croft，Maarten de Rijke，Arjen de Vries，Daniel Diermeier，AnHai Doan，Susan Dumais，David A. Evans，Edward A. Fox，Ophir Frieder，Norbert Fuhr，Evgeniy Gabrilovich，C.Lee Giles，David Gross man，Jiawei Han，Donna Harman，Marti Hearst，Jimmy Huang，Rong Jin，Thorsten Joachims，Paul Kantor，David Karger，Diane Kelly，Ravi Kumar，Oren Kurland，John Lafferty，Victor Lavrenko，Lillian Lee，David Lewis，Jimmy Lin，Bing Liu，Wei-Ying Ma，Christopher Manning，Gary Marchionini，Andrew McCallum，Alistair Moffat，Jian-Yun Nie，Douglas Oard，Dragomir R.Radev，Prabhakar Raghavan，Stephen Robertson，Roni Rosenfeld，Dan Roth，Mark Sanderson，Bruce Schatz，Fabrizio Sebastiani，Amit Singhal，Keith van Rijsbergen，Luo Si，Noah Smith，Padhraic Smyth，Andrew Tomkins，Ellen Voorhees，Yiming Yang，Yi Zhang，Justin Zobel。我们要感谢他们对本书间接的贡献。本书中的部分材料，特别是第19章，基于第一作者在伊利诺伊大学香槟分校文本信息管理与分析（TIMAN）小组指导的众多博士生的工作。感谢他们所有人，包括：Tao Tao，Hui Fang，Xuehua Shen，Azadeh Shakery，Jing Jiang，Qiaozhu Mei，Xuanhui Wang，Bin Tan，Xu Ling，Younhee Ko，Alexander Kotov，Yue Lu，Maryam Karimzadehgan，Yuanhua Lv，Duo Zhang，V.G.Vinod Vydiswaran，Hyun Duk Kim，Kavita Ganesan，Parikshit Sondhi，Huizhong Duan，Yanen Li，Hongning Wang，Mingjie Qian和Dae Hoon Park。本书作者自身的研究工作得到包括NSF、NIH、NASA、IARPA、Air Force、ONR、DHS、Alfred P.Sloan基金会的支持以及许多公司如Microsoft、Google、IBM、Yahoo!、LinkedIn、Intel、HP和TCL的支持。在此表示感谢。
第一作者2015年在伊利诺伊大学香槟分校开设的两门在线课程(即“文本检索与搜索引擎”和“文本挖掘与分析”)是本书的根本基础，书中很多部分的内容来自两门课程的转录笔记。所以，我们要感谢所有帮助建设这两门课程的人，特别是助教Hussein Hazimeh和Alex Morales, 学校教学支持人员Jason Mock、Shannon Bicknell、Katie Woodruff和Edward Noel Dignan, 以及计算机系主任Rob Rutenbar, 他的鼓励、支持和帮助是两门课程成功建设的关键。第一作者还要感谢伊利诺伊大学香槟分校允许他使用2015年秋天的学术休假来完成此书。特别感谢META的共同创立者Chase Geigle。此外，第二作者感谢Chase Geigle、Jason Cho、Urvashi Khandelwal (以及其他很多人)与其进行深入的讨论和给予的鼓励。
最后，我们要感谢所有的家庭成员，特别是我们的妻子Mei和Kai，感谢她们的爱与支持。第一作者还要感谢他的哥哥Chengxing在研究讨论中持续提供的智慧激励以及父母培养他乐于学习和分享知识的热忱。

Chengxiang Zhai
Sean Massung
2016年6月

上架指导

计算机\数据挖掘

封底文字

本书是文本信息处理领域著名学者美国伊利诺伊大学香槟分校(University of Illinois at Urbana–Champaign，UIUC)翟成祥教授倾力之作，主要基于作者在UIUC讲授数据管理与分析相关课程（如CS410文本信息系统，Text Information Systems）使用的材料。书中的大部分内容及结构与翟成祥教授在Coursera开设的两门在线课程“文本检索与搜索引擎”（Text Retrieval and Search Engines）和“文本挖掘与分析”（Text Mining and Analytics）一致，因此可作为两门在线课程的主要参考书。
全书内容以文本数据处理为核心，从理论到实践介绍了文本数据管理与分析的关键问题，广泛涵盖了信息检索和文本挖掘相关技术。
本书具体内容：
·文本信息获取与挖掘基础：统计与概率论、信息论等相关理论和文本数据理解技术。
·文本信息获取关键技术：信息检索的模型、实现和评价，网络搜索以及推荐系统等。
·文本挖掘关键技术：文档分类，文档聚类，文本摘要，主题分析，观点挖掘与情感分析，文本与结构化数据联合分析等。
·文本管理和分析系统：整合信息检索与文本分析技术，结合配套软件工具META，构建统一的、人机结合的文本管理和分析系统。
本书特点：
·内容深入浅出，理论实践密切结合，可作为高等院校计算机科学或相关专业本科生、研究生信息检索与文本挖掘课程的教材。
·主题丰富，体系完整，逻辑清晰，便于与各种课程体系结合，可作为高等院校相关专业教师的参考书。
·兼顾广度与深度，覆盖经典模型与方法并提供丰富的扩展阅读文献，可作为专业科研人员与工业界人士的参考书或技术手册。

作者简介

[美] 翟成祥（Chengxiang Zhai）肖恩·马森（Sean Massung）著：翟成祥（ChengXiang Zhai）
伊利诺伊大学香槟分校计算机科学系以及图书馆与信息科学研究生院、基因生物学研究所和统计系教授、Willet学者。研究兴趣包括信息检索、文本挖掘、自然语言处理、机器学习、生物医学与健康信息学以及智能教育信息系统。他已经在主流会议与期刊发表超过300篇研究论文，现在是《ACM Transactions on Knowledge Discovery from Data》副主编，曾任《Information Processing and Management》副主编、《ACM Transactions on Information Systems》副主编以及《Information Retrieval Journal》编委，并担任多个国际会议的程序委员会主席和大会主席。他是ACM会士、ACM杰出科学家并荣获多项荣誉，包括ACM SIGIR 2004 最佳论文、ACM SIGIR 2014 时间考验奖、 Alfred P. Sloan研究奖金、IBM 教师奖、HP 创新研究项目奖、微软超越搜索研究奖以及美国青年科学家和工程师总统奖。
肖恩•马森（Sean Massung）
伊利诺伊大学香槟分校计算机科学专业博士生，此前他在此分别获得学士和硕士学位。他是META的联合发明者并在其所有研究中使用META。他是多门课程的指导者，包括CS225“数据结构与编程原则”、CS410“文本信息系统”以及CS591txt“文本挖掘研讨”。研究兴趣包括信息检索中的文本挖掘应用、自然语言处理和教育。

译者序

翟成祥教授是信息检索与数据挖掘领域世界知名学者，具有很高的学术影响力。他关于基于语言模型的信息检索以及概率主题模型相关的一系列研究在信息检索和数据挖掘领域写下了浓重一笔。从读研究生以来，我们一直深受翟老师研究的影响和启发。去年，刘挺教授问我们是否愿意翻译翟成祥老师2016年出版的这部著作，我们感到非常荣幸并欣然接受。
本书内容以文本数据处理为核心。文本是最常见也是最具表达能力的数据形式，以自然又自由的方式蕴含着丰富的人类智慧。近年来，文本数据呈现爆炸式增长的趋势，不仅包括传统的静态文本，还包括微博、评论等用户动态生成数据以及科技文献、教育、商务、政务、医疗等专业领域数据。在当前大数据与人工智能的背景下，迫切需要智能的文本数据处理系统来帮助人们及时有效地获取和分析文本中丰富而有价值的知识、信息以及人们的观点和偏好。
本书涵盖了实现以上文本信息系统所涉及的关键问题与核心技术，具有区别于以往类似书籍的独特之处。
首先，本书将信息获取和数据挖掘统一起来，强调了在任何实用的文本信息系统中信息检索与文本分析都是不可或缺且相互依赖的组成部分。信息检索有助于从大规模文本数据中获取与目标任务最相关的小规模数据，数据挖掘则通过对相关文本进行分析得到知识，信息消费者又通过信息检索来验证知识。全书内容也依此逻辑进行组织，全面介绍了信息检索和文本数据挖掘的主要概念、技术和思想。
其次，本书从新的视角看待文本数据，将其视为人类作为主观传感器对现实世界的表达，强调了人既是文本生产者又是信息消费者的角色。书中介绍了情感计算、主题分析、文本摘要等近年来的热点研究课题和相关技术，有利于分析人类主观观点和有效消化信息，也阐述了文本数据与结构化数据联合分析的可能性和典型方法，将人类主观传感器与其他客观传感器产生的数据结合起来，突出在不同上下文下的文本分析。
最后，本书结构清晰，可读性强并注重实践性。尽管涵盖了广泛的主题，但主题之间具有清晰的逻辑关联。每章都提供了具体实例，有助于读者理解，每章最后都列举了参考文献，使得读者能够根据实际控制知识的深度，适用于广泛的读者人群。本书提供了配套软件工具包，并可以与作者以往的在线课程配合，极大地方便了读者的理论学习与工程实践。教材、在线课程、配套软件，三位一体的课程设置对国内教学实践也有着积极的借鉴意义。
本书的翻译由哈尔滨工业大学刘挺教授组织并作为主审。四位主要译者均曾就读于哈尔滨工业大学社会计算与信息检索研究中心，目前在各个高校从事与本书内容密切相关的教学和科研工作。在翻译过程中，宋巍负责翻译了前言、第1、6、7、9章以及全书的统稿，赵鑫翻译了第2、17章以及附录，李璐旸翻译了第3、5、8、10章，李洋翻译了第11、13、14、15章。哈尔滨工业大学社会计算与信息检索研究中心博士生赵森栋与段俊文同样承担了部分章节的翻译。赵森栋翻译了第4、19、20章，段俊文翻译了第12、16、18章。他们都曾访问伊利诺伊大学香槟分校得到翟成祥教授亲自指导。最后，特别感谢华章出版社姚蕾、朱秀英、唐晓琳等编辑在本书翻译过程当中提供的各种指导和帮助。
译者水平和经验有限，时间紧迫，书中难免存在理解不当和语言运用不妥之处，敬请读者批评指正。

译者
2018年8月
于北京

图书目录

中文版序
译者序
前言
作者简介
第一部分　概述和背景
第1章　绪论2
　1.1　文本信息系统的功能4
　1.2　文本信息系统的概念框架5
　1.3　本书结构安排7
　1.4　如何使用本书8
　书目说明和延伸阅读9
第2章　背景11
　2.1　概率和统计基础11
　　2.1.1　联合概率和条件概率12
　　2.1.2　贝叶斯法则13
　　2.1.3　抛硬币和二项分布14
　　2.1.4　最大似然参数估计14
　　2.1.5　贝叶斯参数估计15
　　2.1.6　概率模型及其应用16
　2.2　信息论17
　2.3　机器学习19
　书目说明和延伸阅读20
　练习20
第3章　文本数据理解22
　3.1　自然语言处理的历史和研究现状23
　3.2　自然语言处理和文本信息系统24
　3.3　文本表示26
　3.4　统计语言模型28
　书目说明和延伸阅读31
　练习31
第4章　META：一个面向文本数据管理和分析的统一工具箱33
　4.1　设计原则33
　4.2　设置META34
　4.3　架构34
　4.4　用META分词35
　4.5　相关工具箱37
　练习38
第二部分　文本数据获取
第5章　文本数据获取概述44
　5.1　获取模式：拉取与推送44
　5.2　多模式互动获取45
　5.3　文本检索47
　5.4　文本检索与数据库检索48
　5.5　文档选择与文档排序49
　书目说明和延伸阅读50
　练习51
第6章　检索模型52
　6.1　概述52
　6.2　检索函数的一般形式53
　6.3　向量空间检索模型54
　　6.3.1　向量空间模型实例化55
　　6.3.2　位向量表示的表现56
　　6.3.3　改进的模型实例57
　　6.3.4　TF变换60
　　6.3.5　文档长度规范化62
　　6.3.6　基本向量空间模型的进一步改进64
　　6.3.7　小结65
　6.4　概率检索模型65
　　6.4.1　查询似然检索模型67
　　6.4.2　文档语言模型的平滑69
　　6.4.3　具体的平滑方法72
　书目说明和延伸阅读76
　练习76
第7章　反馈78
　7.1　向量空间模型中的反馈79
　7.2　语言模型中的反馈81
　书目说明和延伸阅读84
　练习84
第8章　搜索引擎实现86
　8.1　分词器86
　8.2　索引器87
　8.3　打分器90
　　8.3.1　逐个词项排序90
　　8.3.2　逐个文档排序90
　　8.3.3　过滤文档91
　　8.3.4　索引分片91
　8.4　反馈实现92
　8.5　压缩92
　　8.5.1　按位压缩93
　　8.5.2　块压缩94
　8.6　高速缓存95
　　8.6.1　LRU缓存95
　　8.6.2　DBLRU缓存96
　书目说明和延伸阅读96
　练习97
第9章　搜索引擎评价98
　9.1　引言98
　　9.1.1　要度量什么98
　　9.1.2　Cranfield评价方法98
　9.2　集合检索的评价100
　　9.2.1　准确率和召回率100
　　9.2.2　F度量：准确率和召回率的结合101
　9.3　有序列表的评价102
　9.4　基于多级别判断标准的评价106
　9.5　评价中的实际问题107
　书目说明和延伸阅读110
　练习110
第10章　网络搜索112
　10.1　网络爬虫113
　10.2　网页索引113
　10.3　链接分析117
　　10.3.1　PageRank算法118
　　10.3.2　HITS算法121
　10.4　排序学习122
　10.5　网络搜索的未来125
　书目说明和延伸阅读127
　练习127
第11章　推荐系统130
　11.1　基于内容的推荐131
　11.2　协同过滤134
　11.3　推荐系统的评价137
　书目说明和延伸阅读138
　练习138
第三部分　文本数据分析
第12章　文本数据分析概述142
　12.1　动机：文本数据分析的应用142
　12.2　文本与非文本数据：人类作为主观传感器143
　12.3　文本挖掘任务概览145
第13章　词关联挖掘148
　13.1　词关联挖掘的基本思想149
　13.2　聚合关系的发现150
　13.3　组合关系的发现153
　13.4　词关联挖掘的评价159
　书目说明和延伸阅读160
　练习160
第14章　文本聚类162
　14.1　聚类技术概述163
　14.2　文档聚类164
　　14.2.1　凝聚层次聚类法165
　　14.2.2　K-均值165
　14.3　词项聚类167
　　14.3.1　语义关联的词语167
　　14.3.2　点互信息169
　　14.3.3　先进方法169
　14.4　文本聚类的评价172
　书目说明和延伸阅读173
　练习173
第15章　文本分类175
　15.1　引言175
　15.2　文本分类方法概述176
　15.3　文本分类问题177
　15.4　文本分类的特征177
　15.5　分类算法179
　　15.5.1　k-近邻180
　　15.5.2　朴素贝叶斯181
　　15.5.3　线性分类器182
　15.6　文本分类的评价183
　书目说明和延伸阅读184
　练习184
第16章　文本摘要185
　16.1　文本摘要技术概述185
　16.2　抽取式文本摘要186
　16.3　抽象式文本摘要187
　16.4　文本摘要的评价189
　16.5　文本摘要的应用189
　书目说明和延伸阅读190
　练习190
第17章　主题分析192
　17.1　用词项表示的主题193
　17.2　用单词分布表示的主题196
　17.3　挖掘文本中的一个主题198
　　17.3.1　最简单的主题模型：一元语言模型199
　　17.3.2　添加背景语言模型201
　　17.3.3　混合模型的参数估计205
　　17.3.4　混合模型的行为206
　　17.3.5　期望最大化209
　17.4　概率潜在语义分析214
　17.5　PLSA的扩展及潜在狄利克雷分布220
　17.6　主题分析的评价223
　17.7　主题模型的总结224
　书目说明和延伸阅读224
　练习225
第18章　观点挖掘与情感分析226
　18.1　情感分类228
　18.2　有序回归230
　18.3　潜在方面评分分析232
　18.4　观点挖掘与情感分析的评价238
　书目说明和延伸阅读238
　练习238
第19章　文本与结构化数据的联合分析240
　19.1　引言240
　19.2　上下文文本挖掘242
　19.3　上下文概率潜在语义分析244
　19.4　以社交网络作为上下文的主题分析249
　19.5　以时间序列作为上下文的主题分析252
　19.6　小结256
　书目说明和延伸阅读256
　练习257
第四部分　统一的文本数据管理和分析系统
第20章　面向一个统一的文本管理和分析系统260
　20.1　文本分析操作262
　20.2　系统架构264
　20.3　META作为一个统一系统265
附录A　贝叶斯统计266
附录B　期望最大化271
附录C　KL-散度和狄利克雷先验平滑275
参考文献277
索引287