首页>参考读物>计算机科学与技术>软件与程序设计

Python文本分析
作者 : [印度] 迪潘简·撒卡尔(Dipanjan Sarkar) 著
译者 : 闫龙川 高德荃 李君婷 译
出版日期 : 2018-04-18
ISBN : 978-7-111-59324-9
定价 : 79.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 280
开本 : 16
原书名 : Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from Your Data
原出版社: Apress
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

图书特色

1

图书前言

从高中开始接触数学和统计学以来,我就一直对数字着迷。分析学(analytics)、数据科学以及最近的文本分析技术均出现较晚,大概是在几年前,当时关于大数据(big data)和数据分析的炒作越来越猛烈,甚至有些疯狂。就个人而言,我认为其中很多都是过度炒作,但是也有一些令人兴奋的东西,因为这些技术在新工作、新发现以及解决人们先前认为不可能解决的问题方面展现了巨大的可能性。
自然语言处理(Natural Language Processing,NLP)一直深深吸引着我,因为人脑科学和人类认知能力确实令人着迷。如果尝试在机器中重塑这种传递信息、复杂思维和情绪的能力,那一定是令人惊喜的。当然,尽管我们在认知计算(cognitive computing)和人工智能(Artificial Intelligence,AI)方面的发展突飞猛进,但现在尚且无法实现这一点。仅通过图灵测试可能是不够的,机器真正能复制人的方方面面吗?
当今,对于NLP和文本分析应用,迫切需求从非结构化、原始文本数据中提取有用信息和可行见解的能力。到目前为止,我一直在努力解决各种问题,面临诸多挑战,并随着时间的推移吸取了各种各样的经验教训。本书涵盖了我在文本分析领域学到的大部分知识,仅仅从一堆文本文档中建立一个花哨的词云是不够的。
在学习文本分析方面,最大的问题或许不是信息缺乏,而是信息过多,通常这称为信息过载(information overload)。海量的资源、文档、论文、书籍和期刊包含了大量的理论资料、概念、技术和算法,它们常常使该领域的新手不知所措。解决问题的正确技术是什么?文本摘要如何真正有效?哪些才是解决多类文本分类的最佳框架?通过将数学和理论概念与现实用例的Python实现相结合,本书尝试解决这个问题,并帮助读者避免迄今为止我所遇到的一些急迫问题。
本书采用了全面的和结构化的介绍方法。首先,它在前几章中介绍了自然语言理解和Python结构的基础知识。熟悉了基础知识之后,其余章节将解决文本分析中的一些有趣问题,包括文本分类、聚类、相似性分析、文本摘要和主题模型。本书还将分析文本的结构、语义、情感和观点。对于每个主题,将介绍基本概念,并使用一些现实世界中的场景和数据来实现涵盖每个概念的技术。本书的构想是呈现一幅文本分析和NLP的蓝海,并提供必要的工具、技术和知识以处理和解决工作中遇到的问题。我希望你能觉得本书很有帮助,并祝你在文本分析的世界中旅途愉快!

上架指导

计算机/数据分析

封底文字


使用Python从数据中发掘有用的洞见,了解自然语言处理和文本分析相关的技术,理解和获得解决特定问题的最佳技能。
本书全方位讲解文本、语言语法、结构和语义等基本概念和高级概念,并详细阐释文本分类、聚类、主题建模和文本摘要等算法和技术。
本书遵循结构化和综合性的讲解方式,即使缺少相关经验,你也不会感到茫然无措。从自然语言和Python的基础知识开始,进而介绍先进的分析理念和机器学习概念。你将了解每种技术和算法的概况,理解它们如何使用,同时从微观视角理解相关数学概念并应用它们来解决现实问题。

本书特色:
全面介绍自然语言处理(NLP)和文本分析的主要概念与技术。
包含丰富的真实案例实现技术,例如,构建分类新闻文章的文本分类系统,使用主题建模和文本摘要分析app或游戏评论,进行热门电影概要的聚类分析和电影评论的情感分析。
介绍基于Python及一些流行NLP和文本分析开源库(如自然语言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern)的实现。

译者序

自然语言处理和文本分析是当今人工智能研究和应用的重要方向,因其在人机交互方面的广泛应用和前景,吸引了学术界和产业界投入巨大的力量。目前,已经有一些产品陆续面世,在机器翻译、问答系统、语音助理、情感分析等方面取得了非常不错的进展,也给人们的生活带来了便利。
本书作者Sarkar是Intel公司的数据科学家,研究领域涉及数据科学与软件工程,有着丰富的文本分析研究和工程方面的经验,出版过多本R语言和机器学习方面的书籍。作者在GitHub上(https://github.com/dipanjanS/textanalyticswithpython)开源了本书相关的程序代码和数据集,感兴趣的读者可以下载研究。
本书首先介绍了与文本分析相关的自然语言基本概念以及Python语言的特点、特性和常用功能。然后,结合示例代码详细阐述了文本理解与处理、文本分类、文本摘要、文本相似性与聚类、语义与情感分析等内容,具有很强的实用性,内容覆盖了文本分析的重要方面,为相关应用的开发和研究提供了很好的参考借鉴。
本书是关于自然语言处理的实践教程,通过学习本书,读者可以全面地掌握文本分析的基础技术和机器学习的一些经典方法,包括SVM、贝叶斯分类器、kmeans聚类、层次聚类等,为进一步的学习和研究奠定基础。感兴趣的读者可以继续研究和探索深度学习技术在文本分析中的应用,这是人工智能应用中发展非常迅速的领域,相信阅读本书打下的基础会对你大有帮助。
最后,感谢本书的作者和机械工业出版社华章分社的编辑,是他们的鼓励和支持使得本书能与读者见面。感谢我们家人的理解。尽管我们努力准确地表达作者的思想和方法,但仍难免有不当之处。译文中的错误,敬请指出,我们将非常感激,请将相关意见发往yanlongchuan@iieaccn。

闫龙川 高德荃 李君婷
2017年12月

图书目录

译者序
前言
第1章自然语言基础
11自然语言
111什么是自然语言
112语言哲学
113语言习得和用法
12语言学
13语言句法和结构
131词
132短语
133从句
134语法
135语序类型学
14语言语义
141词汇语义关系
142语义网络和模型
143语义表示
15文本语料库
151文本语料库标注及使用
152热门的语料库
153访问文本语料库
16自然语言处理
161机器翻译
162语音识别系统
163问答系统
164语境识别与消解
165文本摘要
166文本分类
17文本分析
18小结
第2章Python语言回顾
21了解Python
211Python之禅
212应用:何时使用Python
213缺点:何时不用Python
214Python实现和版本
22安装和设置
221用哪个Python版本
222用哪个操作系统
223集成开发环境
224环境设置
225虚拟环境
23Python句法和结构
24数据结构和类型
241数值类型
242字符串
243列表
244集合
245字典
246元组
247文件
248杂项
25控制代码流
251条件结构
252循环结构
253处理异常
26函数编程
261函数
262递归函数
263匿名函数
264迭代器
265分析器
266生成器
267itertools和functools模块
27类
28使用文本
281字符串文字
282字符串操作和方法
29文本分析框架
210小结
第3章处理和理解文本
31文本切分
311句子切分
312词语切分
32文本规范化
321文本清洗
322文本切分
323删除特殊字符
324扩展缩写词
325大小写转换
326删除停用词
327词语校正
328词干提取
329词形还原
33理解文本句法和结构
331安装必要的依赖项
332机器学习重要概念
333词性标注
334浅层分析
335基于依存关系的分析
336基于成分结构的分析
34小结
第4章文本分类
41什么是文本分类
42自动文本分类
43文本分类的蓝图
44文本规范化处理
45特征提取
451词袋模型
452TFIDF模型
453高级词向量模型
46分类算法
461多项式朴素贝叶斯
462支持向量机
47评估分类模型
48建立一个多类分类系统
49应用
410小结
第5章文本摘要
51文本摘要和信息提取
52重要概念
521文档
522文本规范化
523特征提取
524特征矩阵
525奇异值分解
53文本规范化
54特征提取
55关键短语提取
551搭配
552基于权重标签的短语提取
56主题建模
561隐含语义索引
562隐含Dirichlet分布
563非负矩阵分解
564从产品评论中提取主题
57自动文档摘要
571隐含语义分析
572TextRank算法
573生成产品说明摘要
58小结
第6章文本相似度和聚类
61重要概念
611信息检索
612特征工程
613相似度测量
614无监督的机器学习算法
62文本规范化
63特征提取
64文本相似度
65词项相似度分析
651汉明距离
652曼哈顿距离
653欧几里得距离
654莱文斯坦编辑距离
655余弦距离和相似度
66文档相似度分析
661余弦相似度
662海灵格-巴塔恰亚距离
663Okapi BM25排名
67文档聚类
68最佳影片聚类分析
681kmeans聚类
682近邻传播聚类
683沃德凝聚层次聚类
69小结
第7章语义与情感分析
71语义分析
72探索WordNet
721理解同义词集
722分析词汇的语义关系
73词义消歧
74命名实体识别
75分析语义表征
751命题逻辑
752一阶逻辑
76情感分析
77IMDb电影评论的情感分析
771安装依赖程序包
772准备数据集
773有监督的机器学习技术
774无监督的词典技术
775模型性能比较
78小结

教学资源推荐
作者: 宋存利 张雪松 编著
作者: [美]贝赫鲁兹·A. 佛罗赞(Behrouz A.Forouzan) 理查德·F. 吉尔伯格(Richard F. Gilberg) 著
作者: (美)Dennis Kafura
作者: 郑阿奇
参考读物推荐
作者: 赵军 等编著
作者: 李伟 张金辉 等编著