首页>参考读物>计算机科学与技术>人工智能

基于NLP的内容理解
作者 : 李明琦,谷雪,孟子尧 著
出版日期 : 2023-02-28
ISBN : 978-7-111-72069-0
定价 : 89.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 :
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

这是一本讲述如何用NLP技术进行文本内容理解的著作,也是一本系统讲解NLP算法的著作,是作者在NLP和内容理解领域多年经验的总结。
本书结合内容理解的实际业务场景,系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题,主要包括如下几个方面的内容:
(1)文本特征表示
文本特征表示是NLP的基石,也是内容理解的基础环节,本书详细讲解了离散型表示方法和分布型表示方法等特征表示方法及其应用场景,还讲解了词向量的评判标准。
(2)内容重复理解
详细讲解了标题重复、段落重复、文章重复的识别方法和去重算法。
(3)内容通顺度识别及纠正
详细讲解了内容通顺度的识别方法以及纠正不通顺内容的各种算法。
(4)内容质量
详细讲解了多种内容质量相关的算法,以及如何搭建高质量的知识问答体系的流程。
(5)标签体系构建
详细讲解了针对内容理解的标签体系的建设流程和方法,以及相关的多种算法。
(6)文本摘要生成
详细讲解了抽取式文本摘要和生成式文本摘要两种流行的文本摘要生成方法,以及文本摘要的常用数据集和文本摘要评价方法。
(7)文本纠错
详细讲解了文本纠错的传统方法、深度学习方法、工业界解决方案,以及常用的文本纠错工具的安装和使用。

图书特色

资深AI技术专家、BAT高级算法工程师撰写
结合实际业务场景,6个维度讲解如何用NLP算法解决内容理解的各种难题,以应用贯穿全书,包含大量案例

上架指导

人工智能\自然语言处理

封底文字

内容理解在业务场景中的应用非常广泛,从解决问题的角度阐述内容理解是一种比较新颖的尝试,书中独特的解决问题的视角让人深受启发,让很多人不由自主地爱上技术。一个优秀的工程师不仅要精通算法和代码,更要清晰地运用匹配的技术产生巨大的价值。
—— 薛朝阳 熙瀚科技公司董事长
基于NLP的内容理解是目前很多业务场景中广泛使用的技术。本书内容全面且系统,覆盖算法的基础原理和具体的应用场景;实战案例丰富、具体,可操作性很强,理论与实践紧密结合;风格幽默风趣,带领读者循序渐进地掌握具体技术,推荐阅读。
—— 邓云芬 职范猎头CEO
通读完内容理解这本书,真是受益匪浅。市面上已经有一些内容理解相关的图书,但是鲜有能够将算法基础理论和内容理解结合得这么好,覆盖得这么全面。这本书使用严谨的文字,深入浅出地阐述了作者的理论感悟与实践心得,是一本值得收藏的好书。
—— 黄一鹏 北京好欣晴移动医疗科技有限公司CEO

作者简介

李明琦,谷雪,孟子尧 著:李明琦
资深AI技术专家,现就职于BAT,担任高级算法工程师。长期致力于机器学习、深度学习、NLP等技术在实际业务场景中的落地,在内容理解方面有丰富的经验,主导的内容质量项目曾获得最佳项目奖。
先后发表人工智能相关的学术论文2篇,申请人工智能领域的发明专利5项。在GitHub上贡献了大量内容质量、问答系统、NLP等方面的代码,在CSDN撰写了一些与算法、机器学习、内容理解相关的文章,深受欢迎。
谷雪
现为葡萄牙米尼奥大学博士生,涉及的研究领域为神经架构搜索、自然语言处理、情感分析,博士期间着力于细粒度情感原因提取。先后发表过学术论文2篇,其中一篇是神经架构搜索的综述,另一篇是基于进化策略的神经架构演化方法。在开源平台GitHub上贡献了大量深度学习、机器学习代码,在CSDN上分享了服务器配置、数据分析、图像去噪、情感分析等方向的多篇文章。
孟子尧
在人工智能技术领域有非常深厚的积累,擅长机器学习和深度学习,尤其是深度学习中的图像分类和自然语言处理等技术。热衷于开源的应用和推广,在Github和CSDN上贡献了许多代码和文章。曾在《计算机研究与发展》上发表过1篇人工智能相关论文。

图书目录

《基于NLP技术的内容理解》
前言
为何写作本书
本书主要内容
本书读者对象
本书内容特色
资源和勘误
致谢
第1章 内容重复理解
1.1标题重复(内部重复)
1.1.1 标题符号规整化处理
1.1.1.1 标题符号规整处理的原因
1.1.1.2 标题符号化处理方式
1.1.1.3 标题符号化处理结果
1.2.1 基于分词方式重复识别
1.2.1 分词方式的选择
1.2.1.1.1 结巴分词
1.2.1.1.2 Lac分词
1.2.2 去重方式的选择
1.2.3 去重结果对比
1.3.1 基于n_gram算法去重
1.3.1.1 n_gram算法的原理
1.3.1.2 n_gram算法的应用
1.3.1.3 平滑处理
1.2 段落重复(内部重复)
1.2.1 段落化成句子
1.2.2 句子重复检测
1.2.3 重复比率划分
1.2.4 段落去重
1.3 文章重复
1.3.1 文本预处理
1.3.2 倒排索引的建立
1.3.3 并行化分治
1.3.4 minHash算法实现
1.3.5 simHash算法实现
1.3.6 文本归并
1.4 本章小结
第2章 内容通顺度识别
2.1 数据增强
2.1.1 数据随机截断
2.1.2 同词性词替换
2.1.3 词向量近义词替换
2.2 基于n_gram句子通顺度识别
2.2.1 词性标注
2.2.2 建立n_gram词表
2.2.3 ppl评价指标
2.2.4 n_gram中n的选择
2.2.5 不同模式下的n_gram算法结果对比
2.3 基于cnn算法的句子通顺度判别
2.3.1 cnn算法的原理
2.3.2 cnn 算法的应用
2.3.3 cnn算法结构的设计
2.4 基于lstm算法和bilstm算法的句子通顺度判别
2.4.1 lstm和bilstm算法的原理
2.4.2 lstm和bilstm算法的应用
2.4.3 lstm和bilstm算法的结构设计
2.5 规则方式识别句子不通顺
2.5.1 规则的意义
2.5.2 规则的建立
2.5.3 规则的效果
2.5.4 规则的使用
2.6 本章小结
第3章 句子不通顺的修正
3.1 基于seq2seq算法的长句预测
3.1.1 seq2seq算法的原理
3.1.2 seq2seq算法的应用
3.1.3 seq2seq算法的结构设计
3.2 基于注意力机制的句子补全
3.2.1 注意力机制的原理
3.2.2 注意力机制的应用
3.2.3 注意力机制的结构设计
3.3 基于多任务学习的句子生成
3.3.1 多任务学习的原理
3.3.2 多任务学习的应用
3.3.3 多任务学习的效果
3.4 本章小结
第4章 文本纠错方法
4.1 基于编辑距离的文本纠错
4.1.1 构建正确的文本词典
4.1.2 编辑距离的基本原理
4.1.3 编辑距离算法的应用
4.1.3.1 基于字粒度的编辑距离算法的应用
4.1.3.2 基于词粒度的编辑距离算法的应用
4.2 基于Dnn语言模型的文本纠错
4.2.1 语言模型的基本原理
4.2.2 Dnn语言模型的原理
4.2.2.1 基于字粒度的Dnn语言模型的应用
4.2.2.2 基于词粒度的Dnn语言模型的应用
4.2.3 Dnn语言模型的应用
4.3 基于Bert算法的语言模型
4.3.1 Bert算法的原理
4.3.2 Bert算法的应用
4.3.1 基于字粒度的Bert算法的应用
4.3.2 基于词粒度的Bert算法的应用
4.4 基于ERNIE的受限词表语言模型
4.4.1 ERNIE的受限词表语言模型的原理
4.4.2 ERNIE的受限词表语言模型的应用
4.4.2.1 基于字粒度的受限词表语言模型的应用
4.4.2.2 基于词粒度的受限词表语言模型的应用
4.5 本章小结
第5章 文本纠错策略
5.1 纠错判断
5.1.1 策略白名单的构建
5.1.1.1 策略白名单的背景
5.1.1.2 策略白名单的构建
5.1.1.3 策略白名单的意义
5.1.2 规则方式
5.1.3 用户行为决策
5.1.3.1 统计特征
5.1.3.2 模型判断
5.1.4 紧密度计算
5.2 召回纠错候选集的策略
5.2.1 基于拼音字型以及n_gram的方式
5.2.2 双删除法召回
5.2.3 用户行为召回
5.3 纠错候选评分
5.3.1 基础静态纠错
5.3.1.1 贪心法结合基础特征
5.3.1.2 词图法结合基础特征
5.3.2 模型纠错
5.3.2.1 贪心法结合模型
5.3.2.2 词图法结合模型
5.4 本章小结
第6章 文本关键词提取
6.1 基于推荐的关键词抽取
6.1.1 协同过滤方式抽取关键词
6.1.1.1 协同过滤算法原理
6.1.1.2 相似度计算
6.1.1.3 协同过滤算法效果
6.2 基于相关词增强的关键词抽取
6.2.1 保守的增强策略
6.2.2 激进的增强策略
6.3 基于文本统计特征
6.4 基于词图模型
6.5 基于主题模型
6.6 关键词提取的应用场景
6.7 本章小结
第7章 文本摘要生成
7.1 抽取式摘要生成
7.2 压缩式摘要生成
7.3 生成式摘要
7.4 新闻摘要生成
7.4.1 关键词计算
7.4.2 事件抽取
7.4.3 句子排序
7.5 篇章主题摘要
7.5.1 篇章主题抽取
7.5.2 篇章主题划分
7.5.3 子主题生成
7.5.4 篇章主题生成
7.6 问答摘要生成
7.6.1 基于词语对齐相关性
7.6.2 基于Dnn语义对齐相关性
7.7 本章小结













教学资源推荐
作者: [美]保罗·戴特尔(Paul Deitel) 哈维·戴特尔(Harvey Deitel) 著
作者: (美)Fredric M.Ham,Ivica Kostanic
作者: [美]穆罕默德·H. 萨德雷(Mohammad H. Sadraey) 著
作者: 赵涓涓 强彦 主编
参考读物推荐
作者: [意]保罗·佩罗塔(Paolo Perrotta) 著
作者: [美]曼纽尔·阿米纳特吉(Manuel Amunategui)迈赫迪·洛佩伊(Mehdi Roopaei) 著
作者: [美]卡罗尔·费尔柴尔德(Carol Fairchild),托马斯 L.哈曼( Thomas L. Harman) 著