首页>参考读物>计算机科学与技术>数据库

实体识别技术
作者 : 申德荣 寇月 聂铁铮 于戈 等编著
丛书名 : 大数据管理丛书
出版日期 : 2017-10-20
ISBN : 978-7-111-58161-1
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 212
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书核心介绍实体识别技术,拟结合作者这几年的研究工作,从多角度阐述实体识别技术,主要包括基于关系的实体记录识别技术、分布的实体识别技术、基于时间的实体识别技术、隐私保护下的实体识别技术和研究展望。

图书特色

实体识别技术
申德荣  寇月  聂铁铮  于戈  等编著

丛书简介
本套丛书是面向新形势下的大数据技术发展对人才培养提出的挑战以及知识
更新的需求而策划组织的,旨在为学术研究和人才培养提供可供参考的“基石”。
丛书内容涵盖大数据管理的理论、方法、技术等诸多方面,选题面向技术热点,
弥补现有知识体系的漏洞和不足,力图为现有的数据管理知识查漏补缺,聚少成多,
最终形成适应大数据技术发展和人才培养的知识体系和教材基础。丛书主编是中国人民大学孟小峰教授。

图书前言

在大数据时代,数据驱动的数据分析与挖掘已成为各领域决策的客观依据。然而,由于不同的数据源有不同的描述实体的方式,并且可能存在拼写错误、缩写方式不同、描述格式不同、属性值缺失、属性值随着时间演化等特点,导致描述真实世界同一实体的不同数据对象存在差异。实体识别将一个或多个数据源中描述真实世界同一实体的数据对象识别出来,提升集成的大数据资源的质量。
实体识别最早出现在人口普查和医疗卫生等社会公共服务领域,很早就受到公共机构的重视和依赖,从而促进了实体识别的研究。实体识别已经有几十年的研究历史,出现了许多有效的实体识别技术。在大数据时代的今天,实体识别在多个领域有着广泛的应用需求,包括客户关系管理、人口普查、医疗卫生、网购比价、国家安全、引文数据库、垃圾邮件检测、关联的数据(Linked Data)、机器阅读等。
本书作者多年来一直从事数据集成相关研究,实体识别是提升数据集成质量的关键技术之一。在国家973计划、国家自然科学基金、国家863计划等课题的支持下,作者分别针对关系数据对象识别、复杂数据空间中的数据对象识别、具有时间特性的数据对象识别、隐私保护下的数据对象识别等方面进行了深入研究。本书基于已有相关研究,综述了当前已有的实体识别技术,目的是为相关研究者提供一定借鉴作用。
本书共分八章,主要内容包括概述、相似度计算算法、实体识别的分块技术、典型的基于机器学习的实体识别技术和基于关系的实体识别技术,以及新型的实体识别技术(包括基于时间模型的实体识别、基于众包的实体识别、隐私保护下的实体识别)等。
本书由东北大学计算机科学与工程学院计算机科学系申德荣、寇月、聂铁铮、于戈等撰写。其中,申德荣、于戈负责本书前言部分,申德荣、于戈、孙琛琛负责第1章,韩姝敏、寇月负责第2章,聂铁铮负责第3章,孙琛琛、聂铁铮负责第4章,寇月负责第5章,申德荣、韩姝敏负责第6章,孙琛琛、韩姝敏负责第7章,申德荣、孙琛琛负责第8章。参加本书撰写的还有硕士研究生刘宏、汪潜等。全书由申德荣统稿,由于戈教授主审。
我们在撰写本书过程中,覆盖了经典实体识别技术和新型的实体识别技术,跟踪了该学科的新发展和新技术,力求本书具有先进性和实用性。但由于作者学识有限,一定存在许多不足之处,敬请专家和学者批评指正。

上架指导

计算机\数据库

图书目录

丛书前言
前言

第1章 概述1
  1.1 实体识别问题的提出1
  1.2 实体识别研究的发展历史2
  1.3 实体识别问题的描述4
  1.4 实体识别的处理流程6
  1.5 实体识别的挑战6
    1.5.1 相似度衡量问题7
    1.5.2 计算效率问题7
    1.5.3 机器学习方法的应用问题8
    1.5.4 关联对象的识别问题8
    1.5.5 一些新的挑战9
    1.5.6 实体识别评估10
  1.6 实体识别的应用10
    1.6.1 医疗卫生10
    1.6.2 人口普查11
    1.6.3 客户关系管理12
    1.6.4 网购比价13
    1.6.5 犯罪及欺诈侦查13
    1.6.6 关联的开放数据14
    1.6.7 引文数据库15
  1.7 本章小结17
  参考文献17
第2章 相似度计算算法22
  2.1 基于字段的相似度算法22
    2.1.1 Jaccard相似度算法22
    2.1.2 基于TF-IDF的相似度算法23
    2.1.3 基于q-grams的相似度算法24
  2.2 基于编辑距离的相似度算法25
    2.2.1 Levenshtein距离算法25
    2.2.2 Jaro和Jaro-Winkler距离算法26
  2.3 混合的相似度算法27
    2.3.1 扩展的Jaccard相似度算法27
    2.3.2 Monge-Elkan相似度算法29
    2.3.3 Soft TF-IDF相似度算法29
  2.4 数值型数据相似度算法31
    2.4.1 数字型相似度算法31
    2.4.2 日期型相似度算法32
    2.4.3 价格型相似度算法32
  2.5 本章小结33
  参考文献33
第3章 实体识别的分块技术35
  3.1 引言35
    3.1.1 数据分块技术的应用35
    3.1.2 实体识别数据分块问题定义与算法分类38
  3.2 分块键39
    3.2.1 分块键的定义39
    3.2.2 分块键的编码44
  3.3 基于等值匹配的分块算法45
    3.3.1 标准分块方法46
    3.3.2 基于学习的分块键定义48
  3.4 基于相似性的分块算法50
    3.4.1 基于排序的分块方法51
    3.4.2 基于字符串分割的分块方法54
    3.4.3 基于MinHash的分块方法58
    3.4.4 基于Canopy聚类的分块方法61
    3.4.5 基于前缀过滤的分块方法64
  3.5 本章小结69
  参考文献69
第4章 基于机器学习的实体识别方法72
  4.1 基于分类器的实体识别方法72
    4.1.1 基于决策树的实体识别方法73
    4.1.2 基于贝叶斯分类器的实体识别方法76
    4.1.3 基于SVM的实体识别方法79
    4.1.4 基于主动学习的实体识别方法84
    4.1.5 其他方法87
  4.2 基于概率图模型的实体识别方法88
    4.2.1 基于马尔可夫逻辑网络的实体识别方法89
    4.2.2 基于条件随机场的实体识别方法93
  4.3 本章小结97
  参考文献97
第5章 基于关系的实体识别方法100
  5.1 引言100
  5.2 联合式实体识别方法101
    5.2.1 基于关系聚类的联合式实体识别方法102
    5.2.2 复杂信息空间中的联合式实体识别方法108
  5.3 基于实体关系的消歧方法118
    5.3.1 基于社交关系的名字消歧方法119
    5.3.2 基于实体关系的实体消歧方法122
    5.3.3 基于异构实体关系的实体消歧方法133
  5.4 本章小结140
  参考文献141
第6章 新型的实体识别技术143
  6.1 引言143
  6.2 基于时间模型的实体识别技术144
    6.2.1 一个实例145
    6.2.2 时间模型146
    6.2.3 基于时间模型的实体识别算法161
  6.3 基于众包的实体识别技术170
    6.3.1 一个实例171
    6.3.2 基于众包的实体识别框架172
    6.3.3 基于众包的实体识别的核心问题174
    6.3.4 基于众包的实体识别方法的特点177
  6.4 隐私保护下的实体识别技术178
    6.4.1 实体匹配中隐私保护的分类179
    6.4.2 实体识别隐私保护算法的评估182
  6.5 本章小结184
  参考文献184
第7章 实体识别评估187
  7.1 基于记录对的精确性评价——准确率、召回率和F测度187
  7.2 分块技术评价189
  7.3 常用数据集190
    7.3.1 真实数据集190
    7.3.2 数据生成工具191
  7.4 本章小结192
  参考文献192
第8章 总结与展望193
  8.1 实体识别研究总结193
  8.2 新型实体识别研究展望195
    8.2.1 基于时间模型的实体识别195
    8.2.2 基于众包的实体识别196
    8.2.3 隐私保护下的实体识别197
  8.3 研究挑战198

教学资源推荐
作者: 杨金民 荣辉桂 蒋洪波 编著
作者: 杨佩理 陶瑜
作者: 何玉洁 张俊超
作者: 李雄飞 杜钦生 吴昊 编著
参考读物推荐
作者: (美)Steve Vandivier Kelly Cox
作者: (美)Jason S.Couchman,Sudheer N.Marisetti