首页>参考读物>计算机科学与技术>数据库

短文本数据理解
作者 : 王仲远 编著
丛书名 : 大数据管理丛书
出版日期 : 2017-05-17
ISBN : 978-7-111-55881-1
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 157
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书内容所介绍的短文本数据理解技术,涵盖学术界及工业界最前沿的理论及方法,可以广泛应用于搜索引擎、广告系统、智能助手等场景中,是大数据管理不可或缺的部分,具有较高的实际应用价值。

图书前言

当今世界,每天都有数十亿的短文本产生,比如搜索查询、广告关键字、标签、微博、问答、聊天记录等。与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则;其次,短文本由于字数少,本身所包含的信息也较少。前者使得传统的自然语言处理方法不能直接适用于短文本,而后者则意味着短文本理解不得不依赖于外部信息。简而言之,短文本具有较稀疏、噪声大、歧义多的特点,因而机器理解短文本面临极大的挑战。
而另一方面,随着近些年人工智能技术的重大突破,尤其是大规模知识图谱以及深度学习技术的出现,使得机器理解短文本出现新的曙光。研究者们提出了许多将文本转换成机器所能理解的内部表示方法。这些方法可以分为三类:1)隐性知识表示方法,如基于深度学习产生的向量表示法;2)半显性知识表示方法,如主题模型;3)显性知识表示方法,如概念化模型。这些方法各有优缺点。一般而言,前两类方法适用广泛,已有若干成熟应用,但其所产生的模型难以被人类理解,因此优化较为困难。而后一类方法正蓬勃发展,涌现出许多新的模型,并已在许多大型互联网公司如Google、微软内部使用。如果读者对这几类方法的概况有进一步了解的兴趣,可以参见本书作者在国际自然语言处理顶级学术会议ACL 2016上的一个专题教程(Tutorial)报告“Understanding Short Texts”(理解短文本)(主页地址:http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/)。
本书主要介绍基于知识图谱进行显性短文本理解的方法,即由笔者提出的创新性概念化模型,并对不同情况下的概念化过程进行深入分析与探讨。本书许多章节的内容依托于发表在国际相关领域顶级学术会议或期刊上的技术论文,并已实际应用于微软的众多产品中(如必应搜索、广告系统、MSN查询推荐、Office 365等)。
尤为值得一提的是,笔者在微软亚洲研究院领导开发多年的大型知识库系统Probase也于近期由微软研究院正式发布。发布的正式名称为“Microsoft Concept Graph”(微软概念图谱),网址为https://concept.research.microsoft.com/。有兴趣的读者可以访问该发布网址以获得更多详细信息,本书许多章节中的模型都是构建在这个概念图谱之上(书中称其为知识库、语义网络或Probase)。读者也可以从该发布网址中获得微软从海量互联网网页中所挖掘出的知识图谱数据,以便作进一步研究使用。
本书的内容和组织结构
本书内容依照数据层、模型层和应用层逐步展开介绍。其中,第2章为数据层,第3~6章为模型层,第7章为应用层。
本书组织结构如下:
第1章为“短文本理解及其应用”。主要介绍短文本理解的研究背景及意义,分析短文本理解的研究现状。
第2章为“基于概率的属性提取与推导”。主要介绍一种在语义网络层,为百万级的概念推导出属性的方法。
第3章为“单实体概念化模型”。介绍了一种基于典型性和点互信息(PMI)将单实体映射到概念空间的基本层次概念化(Basic-level Conceptualization,BLC)方法。
第4章为“基于概念化的短文本理解”。介绍一种基于概念化的查询理解方法,把短文本(如搜索引擎中的查询关键字)所包含的实体映射到概念空间上,从而支持机器进行进一步的计算。
第5章为“基于概念化的短文本主题词与修饰词检测”。基于概念化模型,将大量实体级别的“主题词修饰词”对映射为精细且精确的带权重的概念模式,进而进行主题词与修饰词的检测。
第6章为“基于概念化的词相似度计算”。利用概念化模型,将词映射为一种语义表示,从而计算任意两个词之间的语义相似度值。
第7章为“基于概念化的海量竞价关键字匹配”。展示了本书所介绍的模型在实际系统中的应用,把短文本概念化成一组相关概念,通过测量它们在概率空间的相似度,对于给定的查询选择相关的竞价关键字。
第8章为“短文本理解研究展望”。指出了短文本理解方向未来的研究工作。
本书读者对象
 从事文本数据处理、自然语言处理等研究方向的高校教师及科研机构研究人员。
 高校计算机、数学、统计学、信息管理等专业学生。
 从事互联网搜索、广告、文本理解、推荐系统、聊天机器人等相关研究开发工作的研究员、程序员、技术经理等。
 对大数据、人工智能、自然语言处理、知识图谱、搜索引擎等技术感兴趣的读者。
致谢
本书内容凝结了笔者在微软亚洲研究院多年研究成果的结晶。在此衷心感谢我的导师孟小峰教授、文继荣教授、王海勋博士将我带入了学术的殿堂。在他们的指导下,我从一名普通的高校学生成长为一名合格的研究员,并且能在一些研究领域得到同行的认可。感谢我在微软亚洲研究院的同事李红松、宋阳秋、邵斌、宋睿华、窦志成、闫峻、纪蕾、马维英等,他们在我的研究中给予了热心帮助,与他们的讨论也对我的研究思路有很大的启发。感谢复旦大学肖仰华副教授、北京大学邹磊副教授、上海交通大学朱其立教授,与他们共同合作论文是一种荣幸。感谢在微软亚洲研究院实习过的李培培、Taesung Lee、王芳、胡志睿、华雯、赵可君、程健鹏、张大卫、郝泽慧、徐昊文、王鹏伟、李英杰等四十余位实习生,与他们一起讨论、工作,才有一个个将创新想法变为现实的可能。感谢胡莎、韩家龙同学,他们的睿智、热情、友善、诚恳时刻影响着我。感谢家人一直以来对我的支持。感谢我的妻子、我的父母、我的姐姐,他们的理解、支持与鼓励是我一步步前行的动力。感谢所有还未提及的老师、同学和朋友们!
谨以此书献给我正在牙牙学语的儿子王子航,感谢他带给我的无尽欢乐与幸福,希望他快乐成长!
本书涉及面广,内容丰富,参考文献众多。值得指出的是,在全书的撰写和课题的研究中,尽管投入了大量精力、付出了艰苦努力,但受知识水平所限,书中不当之处在所难免,诚恳希望读者批评指正并不吝赐教。如果有任何建议或意见,可通过笔者主页(http://wangzhongyuan.com/en/)上的联系方式告知。

王仲远
2016年9月25日凌晨于北京西绦胡同

上架指导

计算机\数据库

作者简介

王仲远 编著:
王仲远,博士,美国Facebook公司Research Scientist。加入Facebook前,他是微软亚洲研究院的主管研究员,领导微软研究院的两个知识图谱项目Probase(即微软的概念知识图谱/Microsoft Concept Graph)和Enterprise Dictionary(企业知识图谱项目),以及一个人工智能助手项目Digtal Me。他多年来专注于知识图谱及其在文本理解方面的研究,已在SIGMOD、VLDB、ICDE、IJCAI、AAAI、CIKM、EMNLP等国际顶级学术会议上发表论文30余篇,其中包括ICDE 2015最佳论文奖。他也是国际自然语言顶级学术会议ACL 2016 Tutorial “Understanding Short Texts”的主讲人之一。目前已出版技术专著2本,拥有美国专利5项。他的研究兴趣包括:文本理解、知识库系统、自然语言处理、深度学习、数据挖掘等。

推荐序

‖推荐序一
短文本理解是伴随着搜索引擎、社交网络及聊天机器人等应用场景而兴起的一个研究课题。它是近些年的一个研究热点,且对未来人工智能的发展有重要的影响。由于短文本字词少、歧义大、不遵守语法规则等特点,传统自然语言处理技术如句法分析器等难以直接应用于短文本。因此,研究人员不得不另辟蹊径来解决机器理解短文本的问题。
从2009年起,我在微软亚洲研究院领导一个小组从事短文本的研究工作。2010年7月,本书作者王仲远加入微软亚洲研究院并参与这方面的研究。我们及组里其他同事共同开发了一个Web规模的知识库系统Probase,尝试解决知识尤其是常识的获取、表示及应用问题。我们认为“概念”对于理解短文本的语义至关重要,正如纽约大学著名心理学教授Gregory L. Murphy在其代表性著作 《The Big Book of Concepts》中提到“Concepts are the glue that holds our mental world together”(概念是我们思想的粘合剂)。通过Probase, 我们尝试着将一些心理学研究的课题可计算化,并取得了很大的成果。2011年,仲远开始在中国人民大学攻读在职博士生,我很荣幸又成为他的博士生导师。之后,仲远在围绕Probase的工程项目、学术研究中不断突飞猛进,取得了一个又一个成果。
2013年,我离开微软,仲远接手了Probase项目。他不断深化基于Probase所构建的短文本理解概念化模型,并获得了国际著名学术会议ICDE 2015最佳论文奖。在2016年的国际自然语言处理学术会议ACL上,仲远和我共同作了一个报告“Understanding Short Texts”。我们将短文本理解的方法简要分为隐性模型和显性模型两大类。隐性模型主要是基于词向量和深度神经网络的模型,其主要缺点是模型为一个“黑盒子”,结果常常难以具体化解释。而另一方面,显性模型主要依赖于知识库系统或语义网络,其可解释性强于隐性模型,但知识的获取及表示是一大挑战。尤其是知识质量与覆盖率,更是会直接影响显性模型的最终效果。
我非常高兴地看到仲远将这些年的研究成果整理成书。这本书对短文本概念化问题进行了详细的介绍,既有单实体概念化模型,也有短文本概念化模型,并介绍了概念化模型的一些典型应用。全书结构合理,系统性强,并且本书许多章节都包含了大量实例与插图,便于读者理解背后的技术模型,也使得本书有很强的实用性和阅读性。
希望本书能为知识图谱、自然语言处理、信息检索、人工智能等相关领域研究人员和开发人员提供重要参考。我愿全力推荐本书给广大读者。

Haixun Wang
Facebook Research Scientist & Engineering Manager
2016年9月26日于美国Palo Alto




‖推荐序二
短文本是互联网上广泛存在的一种文本数据,如搜索引擎查询、广告及推荐系统关键词、社交网络聊天记录、产品的用户评论等。然而,由于短文本“短”的特性,使得机器理解其语义面临极大的挑战。以英文搜索引擎的查询为例,97%的搜索查询所包含的词数少于或等于8个,其中更是有63%的搜索查询只包含一两个词。因此对于短文本,机器必须从极为有限的上下文中,尝试挖掘出丰富而有效的信息,这是关乎机器人工智能的基础性研究,对许多实际应用场景具有至关重要的意义。
本书围绕短文本理解的各项需求及挑战,创造性地提出了概念化模型作为短文本理解的核心技术,为解决机器短文本理解这一问题迈出了重要的一步。本书涵盖了如下创新性研究内容:1)提出了基于概率的属性提取与推导,并挖掘了动词、形容词等非实体词与概念之间的语义关联,为短文本理解奠定了基础,完善了短文本理解所需的语义网络;2)针对短文本理解的概念化模型,通过解决短文本中单实体和多实体的概念化问题,克服了短文本较稀疏、噪声多、歧义大的特点,将短文本转为机器可以计算的一种显性概念向量表示方法,这成为短文本理解的一种新的解决方案;3)针对短文本中的主题词与修饰词检测问题,提出了一种基于概念化、面向开放领域的无监督检测机制。
本书作者王仲远是我的博士生,也曾是微软亚洲研究院最年轻的主管研究员之一。他在微软亚洲研究院工作以及博士研究生就读期间在顶级学术会议和期刊上发表了一系列与短文本相关的论文,并在提炼和系统化这些工作的基础上写就了其博士论文。作为其导师,我很欣慰地看到他不辞辛苦地将其博士论文整理成册,将其中的理论和技术介绍给更多的读者,从而推动国内相关研究领域的发展。
全书结构清晰,深入浅出,以大量实例来解释其背后的技术难点与解决方案,并展示了在实际广告系统中的应用实例。相信本书对广大的科研工作者、研究生及从事相关工作的算法工程师都具有重要的参考价值。我向广大读者大力推荐这本书籍!

国家“千人计划”特聘专家,中国人民大学信息学院院长
2016年9月26日

图书目录

丛书前言
推荐序一
推荐序二
前言
作者简介
第1章 短文本理解及其应用
  1.1 短文本理解
  1.2 短文本理解研究现状
    1.2.1 短文本理解模型概述
    1.2.2 短文本理解模型粒度分析
  1.3 短文本理解框架
第2章 基于概率的属性提取与推导
  2.1 引言
  2.2 属性提取
    2.2.1 属性提取的整体框架
    2.2.2 概率isA网络
    2.2.3 基于概念和基于实体的属性提取
  2.3 属性得分推导
    2.3.1 典型度得分
    2.3.2 根据CB列表计算典型度
    2.3.3 根据IB列表计算典型度
    2.3.4 典型度聚合
    2.3.5 同义属性集合
  2.4 相关研究
  2.5 小结
第3章 单实体概念化模型
  3.1 引言
    3.1.1 基本层次类别
    3.1.2 应用
    3.1.3 BLC计算方法
  3.2 语义网络
  3.3 基本层次类别化
    3.3.1 典型性
    3.3.2 将典型性用于BLC
    3.3.3 将平滑典型性用于BLC
    3.3.4 将PMI用于BLC
    3.3.5 将Rep(e,c)用于BLC
  3.4 小结
第4章 基于概念化的短文本理解
  4.1 引言
  4.2 预备知识
    4.2.1 概念
    4.2.2 概念聚类
    4.2.3 属性
    4.2.4 整体框架和符号表示
  4.3 挖掘词汇关系
    4.3.1 概述
    4.3.2 解析
    4.3.3 P(z|t)推导
    4.3.4 P(c|t,z)推导
    4.3.5 语义网络
  4.4 查询理解
    4.4.1 方法概况
    4.4.2 算法
  4.5 小结
第5章 基于概念化的短文本主题词与修饰词检测
  5.1 引言
  5.2 整体框架
  5.3 非限定性修饰词挖掘
  5.4 限定性修饰词挖掘
    5.4.1 Probase:一个大规模的isA知识库
    5.4.2 实体级别主题词修饰词
    5.4.3 概念级别主题词修饰词
  5.5 主题词与修饰词检测
    5.5.1 解析
    5.5.2 针对两个组件的主题词修饰词检测
    5.5.3 针对两个以上组件的主题词修饰词检测
  5.6 相关工作
  5.7 小结
第6章 基于概念化的词相似度计算
  6.1 引言
  6.2 语义网络和同义词集合
  6.3 基本方法
    6.3.1 类型判别
    6.3.2 语境表示
    6.3.3 语境相似度
    6.3.4 讨论
  6.4 改进方法
    6.4.1 概念聚类
    6.4.2 Max-Max相似度计算方法
    6.4.3 聚类删减优化
  6.5 相关工作
  6.6 小结
第7章 基于概念化的海量竞价关键字匹配
  7.1 引言
  7.2 语义网络
  7.3 系统框架
  7.4 概念化
    7.4.1 实体检测
    7.4.2 词义推导
    7.4.3 消除歧义
  7.5 检索
    7.5.1 基于点击数据的候选竞价关键字选择
    7.5.2 基于概念的候选竞价关键字选择
    7.5.3 排名
  7.6 相关工作
  7.7 小结
第8章 短文本理解研究展望
  8.1 知识语义网
  8.2 显性知识和隐性知识的结合
参考文献

教学资源推荐
作者: 张玉洁 孟祥武 编著
作者: Rebecca M.Riordan
作者: Thomas M. Connolly, Carolyn E. Begg
作者: 王丽艳 郑先锋 刘亮 编著 陈昌志 主审
参考读物推荐
作者: Scott Urman
作者: (美)Shashi Shekhar,Sanjay Chawla
作者: [美]朱尔斯 J. 伯曼(Jules J. Berman) 著
作者: 吴德胜 赵会东 等编著