首页>参考读物>计算机科学与技术>人工智能

自然语言理解与行业知识图谱:概念、方法与工程落地
作者 : 王楠 赵宏宇 蔡月 著
出版日期 : 2022-01-12
ISBN : 978-7-111-69830-2
定价 : 119.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 360
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

首先阐述自然语言理解的发展脉络和分析逻辑,主要围绕语言符号、处理体系、语义理解等进行探讨,引出自然语言理解的自动分析原理和方法,包括对自然语言特征、统计语言学习、常规机器学习、深度学习、知识图谱方面的介绍。在上述基本自然语言处理方法讲解基础上,继续阐述行业知识图谱搭建和行业应用的方法。通过作者团队几年来在自然语言处理和行业知识图谱的实践经验,探讨垂直行业认知的逻辑和解决方案。本书为互联网企业的文本智能平台构建的提供了很好的案例参考,也为行业信息化从业者提供了从入门到进阶的一整套技术指导,同时也适合作为自然语言处理、知识图谱、计算机、人工智能等领域从业者的学习指导书,若是对自然语言处理、知识图谱、人工智能感兴趣的学生、创业团队,本书也非常适宜阅读。

图书特色

图书前言

21世纪以来人类创造了海量的自然语言文本数据,但苦于没有“语言媒介大师”,即使拥有共同母语的双方也可能出现“语言隔离”,更不要说人机自然交互了。人类日常接触的语言可以分为通用语言和专业语言:通用语言往往口语化严重,语法杂乱,信息量不足;专业语言需要结合行业知识,有特定的文法,个性化突出。语言特征复杂多变,语种语义理解差异化明显,如何自动化、智能化地理解语言成为各行各业的痛点。自然语言理解应运而生!通过对人类语言信息的抽取、归纳、总结,自然语言理解成为最重要的人工智能成果的检验标准之一,被业内人士称为人工智能皇冠上的明珠。当然路要一步步走,语言的理解首先要解决语言处理问题。伴随海量用户数据(互联网数据、行业业务数据、百科和领域知识)、人工智能算法、集成AI芯片的规模算力平台不断涌入,自然语言处理领域已经树立了一座座里程碑。从早期的符号学派专家系统,到统计语言学习的兴起,再到Word2vec预训练语言模型将语义工具应用落地,各种深度学习框架(TensorFlow、Torch、Paddle Paddle)不断更新……我们似乎摸到了认知的大门。2018年,随着谷歌BERT预训练语言模型横空出世,语言理解领域也开启了“ImageNet”时代篇章。紧接着,XLNet、ERNIE、GPT-3等新模型,以及注意力机制、Transformer、图神经网络等新结构层出不穷,不断刷新各大任务榜单的记录(state-of-the-art,SOTA),推动了整个语言理解水平的持续发展。
当然,上述自然语言处理还需要语义知识的配合,基于语义知识搭建的知识图谱就成为行业应用的关键一环。知识图谱是在知识工程和语义网的基础上发展起来的,2012年谷歌正式提出了“知识图谱”一词,随后知识图谱逐渐成为互联网公司的底层基础设施之一。通用知识图谱主要有DBpedia、Freebase、YAGO、Wikidata等百科知识库。在吸收了WordNet、FrameNet、Hownet等语言知识精华后,ConceptNet、Concept Graph等常识知识图谱也不断涌现,为语言理解奠定了背景知识基础。随着知识图谱、多模态数据的引入,知识蒸馏和模型压缩进一步推动了语言处理和语义理解的应用步伐。目前,市面上已经常见面向C端用户的智能音箱、智能导航、智能客服、聊天机器人、机器翻译工具等产品,一些SaaS平台也处于初级体验阶段,这印证了自然语言理解行业的广阔发展空间。
自然语言理解当然不止于日常应用,它已逐渐向各行各业赋能,推动语言理解成果向行业转移、转化。面向B端的各垂直行业(例如金融、医疗、公安、电商等)及细分领域逐渐有相应的图谱产品落地。但是到目前为止,语言理解服务多体现为项目合作、平台调用、服务赋能,其工业落地效果面临更多的需求挑战。一方面供求双方在业务理解方面差距巨大,另一方面沟通合作也由于存在信息交互隔阂,这些都严重制约自然语言理解项目或产品落地。如何围绕行业需求,仍然需要结合行业知识构建知识图谱,将自然语言处理与知识图谱更好地融合,才能直击垂直行业落地应用的痛点。
站在自然语言理解需求爆发和落地困境的十字路口,我们该如何看待自然语言理解的优势与不足,如何更好地推动自然语言理解在垂直行业的应用落地呢?这正是本书想要重点探讨的目标。随着国家对人工智能、知识产权等行业的日益重视,我们将进入产业互联网和创新驱动的全新时代!创新需要保护和激励,创新知识需要挖掘和利用,而这些知识正沉积在以专利为代表的知识产权文本中,目前全球已经有超过1.2亿篇专利文本,等待知识图谱赋能。从这个行业视角进入,我们似乎可以揭开行业落地之谜。
本书通过对自然语言理解的思考和各类算法模型的阐述,结合对知识图谱的认知,讲解作者团队几年来在自然语言处理和行业知识图谱方向的实践经验,旨在抛砖引玉。本书即将付梓之时,一个新的生命也将诞生,谨以此书献给我们即将出生的宝贝。
这本书将始终是草稿的状态,如果有人问何时成稿,我们想说下一版!因为这个主题“Never-End Learning”。现在,我们仅期待本书可以帮助大家打开那扇大门,初步体验自然语言理解的行业落地之道。
本书主要内容
本书主要内容结构如下图所示,分为两部分,共8章。

自然语言理解部分包含第1~4章。
本部分首先阐述自然语言理解的发展脉络和理解逻辑,主要围绕语言符号、处理体系、语义理解等进行探讨,引出自然语言理解的自动分析原理和方法,包括自然语言特征、统计学习、机器学习、深度学习、知识图谱等。
第1章概述自然语言发展脉络,描述了语言理解的研究现状、商业形势、认知突破口和未来预测。
第2章梳理语言理解的演变流程,介绍我们面临的各类自然语言理解任务,最后给出语言理解的研究体系框架,引出自然语言理解的基础—自然语言处理。
第3章重点介绍自然语言处理相关特征工程和文本任务对应的各类算法模型、深度学习的前沿进展。语言处理需要考虑特征构造(字、词、句、章级别)和特征表示,以利于后续自动处理。在特征表示方面,从最早的符号表示到现在的张量表示,形成统计学习的基础。接下来结合统计学习框架,论述语言学习原理和语言模型,结合概率图模型和其他机器学习算法,阐述这些常规算法在自然语言处理任务中的应用和效果。然后进一步讨论深度学习的各类算法,对语言学习中的神经网络算法和最新成果进行分析。最后探讨现有处理方法的发展边界,提出引入外源知识(知识图谱)来提高认知能力的必要性。
第4章系统介绍知识图谱,包括知识图谱工程和知识图谱智能。然后梳理国内外常见的通用知识图谱,并进一步总结热门行业的知识图谱发展现状。最后结合语言知识和知识图谱的搭建流程,引入语义特征,通过行业文本实例操作,帮助读者了解语义理解的本质。
行业知识图谱部分包含第5~8章。
本部分在上述基本自然语言处理方法讲解的基础上,继续阐述行业知识图谱搭建和行业应用的方法。目前从事自然语言理解的公司都将精力放在通用文本理解上,这些文本往往口语化严重、特征杂乱、信息量不足,导致算法处理形成的最终产品的用户体验不佳。考虑到行业文本往往有一定规范,相对容易取得突破口,也有利于推动行业发展,所以我们选择从行业文本出发,以专利文本实操作为样板。
第5章介绍行业知识工程实践,以专利行业为例,详细地描述了一个行业知识工程建设的过程。首先基于自然语言处理和知识图谱搭建方法,建设行业知识库,包括术语库、产品库、技术库、标准库、规则库等,进而开发行业主题分析模型、行业文本分类算法、相似度计算方法、价值评估方法和机器翻译方法。
第6章介绍知识图谱模块的搭建,包括关键词助手、语义搜索、分级管理、高级分析、推荐和问答等。结合实际应用,探讨知识图谱在提高智能性方面的能力和效果。
第7章在前面知识工程和知识图谱智能基础上搭建智能应用平台,介绍了平台的各类功能组件,描述了自下而上的软件服务封装逻辑,进一步向上封装为行业文本分析功能组件,包括检索、分析、挖掘、管理、预警、运营等。读者可以将这套思路在各行业进行实践验证,将上述组件和权限、安全板块集成为应用平台,搭建常态化文本分析运营平台,完成平台级别或各细分模块的商业产品落地。
第8章依托智能应用平台,结合实践案例给出团队的应用经验,即通过四个行业案例来验证平台的认知能力。
本书的目标读者
本书以自然语言理解和行业知识图谱应用落地为目标,阐述了一个从0到1的行业文本理解案例。本书为互联网企业的智能平台构建提供了很好的案例参考,也为行业信息化从业者提供了从入门到进阶的技术指导,适合作为自然语言处理、知识图谱、计算机、人工智能等领域从业者的学习指导书,也非常适合对自然语言处理、知识图谱感兴趣的学生和创业团队阅读。

上架指导

人工智能\自然语言处理

封底文字

智能的发展已经从感知智能向认知智能迈进,感知智能实现了“辨识理解”能力,认知智能则需要实现“分析推理”能力,而自然语言处理和知识图谱是认知智能的基石。本书从自然语言的基本问题出发,深入浅出地对自然语言处理的相关技术进行了介绍,进而解读知识图谱的相关理论和技术,最后结合行业实践,一方面从工程角度剖析知识图谱应用平台的构建方法,另一方面结合实际案例呈现典型应用场景。对初学者,本书可以帮助他们快速而系统地了解自然语言处理以及知识图谱的关键概念、技术和实践;对智能领域的深度从业者,本书为他们提供了系统性的方法和参考方案,使他们可从实践案例中获得经验。
 张真
中信百信银行高级总监&首席架构师
知识是语言理解的重要桥梁,知识图谱作为知识表示和存储的重要标准与载体,近年来受到了学术界和产业界的极大关注。在具体行业中,知识图谱是实现智能化的重要基石,能够有力地赋能搜索、问答、推荐等各方面应用。本书围绕行业的语言理解和智能应用等具体商业实践,结合作者在具体项目中的宝贵经验,从自然语言理解入手,详细讲解了行业知识图谱在构建、应用、维护等阶段的各种“坑”和“技”。此外,作者还分享了本书涉及的代码和数据。相信作者分享的方法和经验,会让行业知识图谱初学者和从业者受益匪浅。推荐大家阅读这本难能可贵的领域知识图谱参考书籍。
何世柱
中国科学院自动化所副研究员,知识图谱领域专家
伴随着人工智能的蓬勃发展,自然语言理解与知识图谱两个领域出现大量优质的书籍。本书作者巧妙地将二者加以结合,为读者提供观察NLP与知识图谱的全新视角。作者深入浅出地讲解相关理论知识,并辅以实战验证,最后分享工业落地相关经验。相信本书将有助于读者系统性地学习相关领域,灵活地解决实际工作中遇到的各种问题。
杜振东
云问科技NLP研究院负责人
本书介绍了行业广泛使用的知识图谱算法、模型和相关知识,既包含核心概念、算法原理、行业应用等方面的详尽介绍,又包含作者多年实践经验总结。本书讲解深入浅出、清晰透彻,相信人工智能领域从业者都能从中受益。
卢菁
前腾讯高级研究员,腾讯新闻知识图谱负责人

推荐序

Foreword
推荐序一
随着深度学习、云计算和大数据技术的蓬勃发展,人工智能再次成为火爆的话题,一时间万物皆可智能,无智能则无话题。人工智能似乎有望成为像电力一样的基础设施,给各行各业带来颠覆性的变革。然而,时至今日,我们发现人工智能仍然不成熟。作为一个研究方向或学科,人工智能的发展实际上历经几度兴衰,从早期的符号主义学派,到后来的连接主义学派、行动主义学派,再到各派的碰撞与融合,我们至今还没有找到通用智能的钥匙。很多专家学者将人工智能划分为计算、感知、认知、创造等不同层级,当下认知智能成为下一步的着眼点,而认知的关键来自大脑分析、神经计算、自然语言理解。作为交互信息来源的自然语言,其处理和解读一直是人工智能最大的难题之一,自然语言理解也成为人工智能皇冠上的明珠。
作为通向认知的必经之路,如何让机器理解自然语言?从早期的符号学习,到后来的统计学习,再到后来人们发现上述自然语言处理还需要语义知识的配合,基于语义知识搭建的知识图谱就成为关键一环。2010年,我毕业后加入微软亚洲研究院,跟随人工智能领域的著名研究员王海勋博士开启了十年的知识图谱、自然语言理解研究生涯。我们的研究小组是最早从事知识图谱研究的小组之一,所构建的概念知识图谱Probase(正式发布名为Microsoft Concept Graph)也是世界上最大的常识知识图谱。2012年谷歌正式发布“Google Knowledge Graph”项目,使得各大互联网公司纷纷构建各自领域的百科知识图谱,并将其作为公司底层基础设施之一。知识图谱进入了一个繁荣发展期,从开放的DBpedia、YAGO、Freebase、Wikidata、ConceptNet、Microsoft Concept Graph,到相对封闭的Google Knowledge Graph、微软Satori、百度知识图谱、阿里藏经阁、美团大脑等,各种知识图谱不断涌现,为语言理解奠定了重要的知识基础。依托通用百科知识、常识知识、语言知识,以及基于符号的逻辑推理、基于统计的机器学习和深度神经网络学习算法,自然语言处理和语义理解的应用步伐在不断加快。目前,市面上智能音箱、智能导航、智能客服、聊天机器人、机器翻译工具等基于自然语言处理的人工智能产品纷纷落地。
然而,我在这个行业深耕十余年后,对人工智能技术的理解越深,就越对这个领域心存敬畏。面向通用语言理解任务的“银弹”级方法难以寻找,特别是在开放的网络连接世界中,语言描述的多样性、歧义性、口语化会给计算机处理和解读带来重重困难。本书则提供了一个新视角:认知智能在垂直行业中更具有现实意义!通过行业需求的限制,能够提供一个有约束的语义空间,这样就可以对很多错误认知进行校正。通过知识图谱相关理论、方法、技术向各行各业赋能,将推动语言理解成果向行业转移、转化,使之更具有落地实操的价值。一些垂直行业(例如金融、医疗、公安、电商等)及细分领域逐渐有相应的图谱产品落地。
但是到目前为止,语言理解服务多体现为项目合作、平台调用、服务赋能,推广性和落地效果面临更多的需求挑战。一方面供求双方在业务理解方面差距巨大,另一方面沟通合作也由于存在信息理解不对等问题而容易造成隔阂,严重制约认知项目或产品落地。只有围绕行业需求,结合行业知识构建知识图谱,将自然语言处理与知识图谱更好地融合,才能直击垂直行业落地应用的痛点。本书正是着眼于行业认知问题,分析当前自然语言理解的现状与不足,从知识产权行业视角切入,通过对自然语言理解的思考和各类算法模型的阐述,结合对知识图谱的认知,讲解作者团队几年来在自然语言处理和行业知识图谱方向的实践经验,探讨垂直行业认知的逻辑和解决方案。非常期待本书能够给更多人带来启发和思考,加速推进认知智能的光芒照进现实!

王仲远
快手技术副总裁、MMU负责人



Foreword
推荐序二
业界一致认为,人工智能的三要素是算法、算力和数据。近十年来,得益于大数据以及大规模运算能力的提升,人工智能技术进步巨大,让深度学习这项“老”技术焕发了新生机,突破了一项又一项感知能力。随着2012年深度神经网络技术在ImageNet评测中取得令人瞩目的进展,人工智能迎来新一轮发展热潮,围绕语音、图像、机器人、自动驾驶等人工智能技术的创新大量涌现,也出现了很多里程碑式的技术。而自然语言处理领域的突破要来得更晚一些,直到2018年,以TransFormer为特征提取器的预训练语言模型开始展示出强大的能力,在阅读理解、对话、机器翻译等自然语言处理任务上才取得了良好的成绩。
从计算到感知,再到认知,是大多数人都认同的人工智能技术发展路径。所谓让机器具备认知智能,是指让机器能够像人一样思考,具体体现为机器能够理解数据、理解语言进而理解现实世界,能够解释数据、解释过程进而解释现象,并具备推理、规划等一系列人类所独有的认知能力。也就是说,认知智能需要去解决推理、规划、联想、创作等复杂任务。
让机器拥有认知智能,其实在一定程度上是希望机器能够模仿生命本身,实现通用人工智能(Artificial General Intelligence)。以大数据为基础的深度学习在理论上并没有突破,但是它基于强大的算力,通过搜索和学习,达到了以往不可能企及的应用效果。从感知到认知智能的鸿沟难以跨越,至少从现有技术水平来看,我们离认知智能还有非常远的距离。
前一段时间非常火的预训练语言模型GPT-3一度让媒体找到了新的话题,“实现认知智能”等字眼也屡见不鲜。1750亿的参数量使得GPT-3在多个任务上表现出了惊艳的效果。但GPT-3的问题在于其“并不知道自己不知道”,对很多常识性的问题给出的答案也只是“相关但不正确”。因此,即使GPT-3的表现足够让人赞叹,也只是再次证明了深度神经网络配合海量的文本数据能够产生强大的记忆能力,但逻辑和推理能力仍然是无法从记忆能力中自然而然出现的。而知识图谱可以在一定程度上解决常识推理的问题,因而被认为是通向认知智能的必经之路。
然而,现实仍然很“骨感”。在开放的互联网中语言描述的多样性、歧义性非常严重,通用语言理解任务的“银弹”级解决方案仍然难以寻找。因此,专家学者想到了两条道路:一条道路可以从顶层设计开始,基于演绎逻辑打造囊括大千世界的知识本体及世界知识库,这类方法极其依赖专家经验、规模化众包协作、复杂建模,这条路目前看起来相当困难;另一条道路可以基于归纳逻辑从海量样本中抽象出认知概念,这条路也因为难于实现概念标准化、规范化,缺少合适的工具或方法,因此仍处于学术研究阶段。
两条道路都是任重而道远。即便是知识图谱被寄予厚望,也无法在短期时间内实现认知智能的真正突破。因此,在工业界的实践中知识图谱能否发挥其作用,在行业或者细分领域达到较好的效果,就成为漫长道路上可以实现的里程碑。
本书为广大从业人员和研究学者提供了一个新的视角,基于真实的细分行业需求,在约束的条件下,通过知识图谱相关理论、方法和技术向各行各业赋能,推动语言理解成果向行业的转移转化,更具有落地实操的价值。如何围绕行业需求,结合行业知识构建知识图谱,将自然语言处理与知识图谱更好地融合,直击垂直行业落地应用的痛点,是本书重点关注的内容。
本书是作者几年来在自然语言处理和行业知识图谱实践中的经验梳理,无论你是人工智能领域的从业者还是科研领域的研究者,这本书都能够带给你非常有价值的知识体系和实操方法。

邵浩
vivo算法专家

图书目录

推荐序一
推荐序二
前言
符号表
第1章 自然语言之“理解”1
1.1 基本脉络5
1.1.1 文字传承6
1.1.2 机器处理8
1.1.3 理解困境9
1.2 商业曙光10
1.3 认知落脚点12
1.3.1 文本分析之锚13
1.3.2 走向智能之路14
1.3.3 第一步在何方14
1.4 思辨未来14
1.4.1 语言理解与语义知识的辨析14
1.4.2 行业知识图谱构建问题15
小结15
参考文献16
第2章 自然语言理解逻辑17
2.1 符号-连接-融合17
2.2 语言理解任务18
2.2.1 语法类任务20
2.2.2 语义类任务26
2.2.3 语用类任务34
2.3 语言理解体系42
小结43
参考文献44
第3章 自然语言处理45
3.1 自然语言文本特征46
3.1.1 通用语言文本特征46
3.1.2 行业语言文本特征47
3.1.3 语言文本特征表示48
3.1.4 语言特征选择49
3.2 自然语言统计学习54
3.2.1 统计学习基础54
3.2.2 语言语料库65
3.2.3 语料采样66
3.2.4 语言模型67
3.3 自然语言机器学习69
3.3.1 文本分类方法69
3.3.2 文本标注方法84
3.3.3 文本聚类方法90
3.3.4 文本生成方法95
3.3.5 文本匹配方法97
3.3.6 图计算方法104
3.4 自然语言深度学习114
3.4.1 神经网络学习115
3.4.2 神经网络结构118
3.4.3 深度表示学习136
3.4.4 预训练语言模型139
3.4.5 前沿与思考148
小结149
参考文献149
第4章 知识图谱150
4.1 语言知识与语言知识库150
4.2 知识图谱演进152
4.3 知识图谱工程153
4.3.1 知识表示154
4.3.2 知识加工158
4.3.3 知识建模与计算166
4.3.4 知识存储与查询168
4.3.5 知识更新170
4.4 知识图谱智能171
4.4.1 语义匹配171
4.4.2 搜索推荐172
4.4.3 问答对话174
4.4.4 推理决策175
4.4.5 区块链协作176
4.5 通用知识图谱177
4.5.1 百科知识图谱177
4.5.2 常识知识图谱179
4.5.3 中文类知识图谱180
4.6 行业知识图谱181
4.6.1 金融知识图谱182
4.6.2 医疗知识图谱186
4.6.3 教育知识图谱189
4.6.4 公安知识图谱191
4.6.5 司法知识图谱193
4.6.6 电商生活知识图谱194
4.6.7 图书文献知识图谱196
4.6.8 房地产知识图谱198
小结199
第5章 行业知识工程实践201
5.1 行业知识库202
5.1.1 行业语料库203
5.1.2 行业术语知识库206
5.1.3 行业文本规则库216
5.1.4 行业特征字段库219
5.1.5 行业本体库220
5.1.6 行业附图库225
5.1.7 行业产品库227
5.1.8 行业标准库230
5.1.9 应用知识库232
5.2 行业模型算法库233
5.2.1 文本匹配233
5.2.2 文本分类237
5.2.3 文本标注248
5.2.4 文本生成255
5.2.5 关联图计算260
5.2.6 价值评估261
5.3 标注、训练和更新264
5.3.1 标注工具264
5.3.2 训练框架267
5.3.3 知识更新269
小结269
第6章 行业知识图谱模块271
6.1 关键词助手273
6.1.1 术语图谱274
6.1.2 产品图谱277
6.2 搜索问答278
6.2.1 语义搜索279
6.2.2 功能搜索281
6.2.3 事实型问答283
6.3 推理计算284
小结288
第7章 行业智能应用平台289
7.1 平台架构初探289
7.1.1 硬件拓扑架构290
7.1.2 平台系统架构290
7.1.3 功能服务架构293
7.2 平台认知功能组件293
7.2.1 文本检索293
7.2.2 文本分析298
7.2.3 文本挖掘306
7.2.4 监控预警311
7.2.5 价值运营312
7.2.6 信息流管理313
7.3 权限与安全管理314
7.3.1 架构与流程315
7.3.2 平台用户管理316
7.3.3 安全管理318
小结318
第8章 行业文本智能应用320
8.1 高价值文本发现320
8.1.1 高价值文本定义320
8.1.2 高价值文本评价321
8.1.3 价值发现与价值运营321
8.2 成果分级分类管理322
8.2.1 成果分级323
8.2.2 成果分类323
8.3 新兴方向预测324
8.4 技术背景调查326
小结328
附录A 概率论基础330
附录B 信息论基础339

教学资源推荐
作者: [印]狄柏丽·班赛尔(Dipali Bansal) 拉什玛·马哈詹(Rashima Mahajan) 著
作者: [美] 查鲁·C. 阿加沃尔(Charu C. Aggarwal)著
作者: [美] 韦斯利·E.斯奈德(Wesley E. Snyder) 戚海蓉(Hairong Qi) 著
作者: 郭斌 梁韵基 於志文 著
参考读物推荐
作者: 阿里云智能-全球技术服务部 著
作者: 刘宇 田初东 卢萌凯 王仁达 著
作者: [美]托威赫·贝索洛(Taweh Beysolow II)著