教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 385

开本 : 16

原书名 : 数据集成原理与实践

原出版社: Elsevier (Singapore) Pte Ltd

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

当数据存储在多个数据库中，如何查询数据？特别是当这些数据库是由不同的人分别设计。这是第一个全面介绍数据集成的书，由业界三个最受人尊敬的专家撰写。这本书讲解数据集成技术的理论知识，使用大量实例来解释基本概念。数据集成是解决跨多个数据源（如数据库，网页）的问题。目前在多种环境中都涉及数据集成问题，包括企业信息集成，在网络上的查询处理，政府机构之间的协调和科学家之间的合作。在某些情况下，数据集成是某个领域取得进展的关键。本书提供了数据集成的概念和工具，可用于数据集成的具体实现。本书作者是威斯康星大学麦迪逊分校计算机科学副教授，同时在微软AdCenter实验室与雅虎研究实验室担任咨询顾问。

图书特色

数据集成的第一部综合指南，从理论原则到实现细节，再到语义网和云计算目前所面临的新挑战。

这是一本数据集成技术的权威之作，书中的大部分技术都是作者提出来的。本书内容全面，很多技术细节都介绍得非常清楚，是数据集成相关工作人员的必读书籍。　
—— Philip A. Bernstein，微软杰出科学家
本书的三位作者对数据集成领域都有重要贡献，既有学术背景，又有工业界的经历。书中包含很多例子和相关信息，以便于读者理解理论知识。本书包含了现代数据集成技术的很多方面，包括不同的集成方式、数据和模式匹配、查询处理和包装器，还包括Web以及多种数据类型和数据格式带来的挑战。本书非常适合作为研究生数据集成课程教材。　
—— Michael Carey，加州大学欧文分校信息与计算机科学Bren教授　

数据集成主要用来解决跨多个数据源的查询处理问题。本书是有关数据集成技术的集大成之作，由该领域最受尊重的三位专家融合多年学术成果和工业经验编写而成，全面介绍了作为当今数据集成技术基础的理论和概念，并用具体的实例详细解释这些概念的系统实现，以及面临的各种挑战。适合作为高等院校计算机、信息管理等相关专业高年级本科生或者研究生课程的教材或参考书，同时对于数据管理领域的研究人员和专业人士，本书也是一本非常实用的参考资料和实践指南。

本书特点
提供一系列数据集成解决方案，使研究人员和从业者能把重点放在手头的问题上。
提供特定的算法来解决常见的数据集成挑战。
使你可以创建自己的算法并实现自己的数据集成应用。

作者简介
AnHai Doan　威斯康星大学麦迪逊分校计算机科学系副教授。
Alon Halevy　谷歌结构化数据组负责人。
Zachary Ives　宾夕法尼亚大学费城分校副教授。

图书前言

在过去20年中，数据库的角色，尤其是数据库技术的角色已经发生了翻天覆地的变化。在传统数据库应用中，企业或者组织为了保存全部的数据记录，往往拥有一个集中的、相对封闭的数据库。而如今，我们已经进入了以Web为主导的新时代，在新的应用环境下，不同的数据库和结构化信息源之间往往需要进行交互和相互操作，这需要为用户提供一个完整的集成视图。
　　本书主要讨论以下问题：如何对数据库思想进行扩充和深化，从而使其能够容纳外部信息源，处理Web的分布式特性和信息共享带来的问题，特别是异构性和不确定性。这些内容可以作为大学本科数据库课程的扩展。因此，本书主要作为高年级本科生或者研究生课程的教材，该课程可以作为本科生数据库课程的后续课程。此外，本书还可以作为数据库和数据集成领域研究人员与从业者的参考资料和教程。
　　本书主要包括3个部分。第一部分以数据库课程涵盖的研究主题为基础，主要关注数据集成领域的基本技术：查询表达式、数据源描述、异构数据与模式的匹配、模式操作、查询应答、Web数据抽取以及集成数据的存储。第二部分主要关注扩展的数据表示，扩展的数据表示可以获得标准关系数据模型无法表示的一些特性，如层次型（XML）、基于知识表示的本体构建、不确定性以及数据溯源。第三部分介绍解决特定集成问题的创新架构，主要包括多样的Web数据源集成、基于关键字搜索的结构化数据集成、对等数据集成和支持协同的集成等。最后介绍了数据集成技术的主要研究方向。
本书提供了大量网络补充资料，包括：习题集、部分习题的答案以及教案。
致谢
　　很多人对本书初稿提供了宝贵的反馈意见。我们由衷地感谢Jan Chomicki和Helena Galhardas，他们最早在课程中使用了本书，并提出了很多宝贵建议。其他人也提供了很多反馈信息，包括：Mike Cafarella、Debby Wallach、Neil Conway、Phil Zeyliger、Joe Hellerstein、Marie-Christine Rousset、Natasha Noy、Jayant Madhavan、Karan Mangla、Phil Bernstein、Anish Das Sarma、Luna Dong、Rajeev Alur、Chris Olston、Val Tannen、Grigoris Karvounarakis、William Cohen、Prasenjit Mitra、Lise Getoor和Fei Wu。选修威斯康星大学高级数据管理CS 784课程以及宾夕法尼亚大学数据库和信息系统CIS 550课程的几个学期的学生阅读了本书的各章内容，并提供了很好的评论。我们尤其感谢Kent Chen、Fei Du、Adel Ardalan和KwangHyun Park的帮助。
　　本书部分内容来自于作者和同事、学生的合作研究成果，在此对他们的贡献表示感谢。
　　最后，感谢我们的家人，正是由于他们的宽容和付出，本书才得以顺利完成。

AnHai Doan
Alon Halevy
Zachary Ives

上架指导

计算机\数据库

封底文字

数据集成的第一部综合指南，从理论原则到实现细节，再到语义网和云计算目前所面临的新挑战。

这是一本数据集成技术的权威之作，书中的大部分技术都是作者提出来的。本书内容全面，很多技术细节都介绍得非常清楚，是数据集成相关工作人员的必读书籍。
----Philip A. Bernstein，微软杰出科学家

本书的三位作者对数据集成领域都有重要贡献，既有学术背景，又有工业界的经历。书中包含很多例子和相关信息，以便于读者理解理论知识。本书包含了现代数据集成技术的很多方面，包括不同的集成方式、数据和模式匹配、查询处理和包装器，还包括Web以及多种数据类型和数据格式带来的挑战。本书非常适合作为研究生数据集成课程教材。
----Michael Carey，加州大学欧文分校信息与计算机科学Bren教授

数据集成主要用来解决跨多个数据源的查询处理问题。本书讨论了数据集成过程中的很多问题，包括企业信息集成、网络上的查询处理、政府机构之间的合作和科学家之间的协调。有些情况下，数据集成可能是取得进展的关键瓶颈。要想获得完整、有组织的数据视图需要应用数据集成技术。

本书全面介绍了数据集成过程中所面临的很多问题，从理论原则到系统实现以及各种挑战。通过学习本书，你将能够回答：当数据存储在由不同的人设计的多个数据库中时，如何处理查询？

提供一系列数据集成解决方案，使研究人员和从业者能把重点放在手头的问题上。
提供特定的算法来解决常见的数据集成挑战。
使你可以创建自己的算法并实现自己的数据集成应用。

作者简介

（美）AnHai Doan，Alon Halevy，Zachary Ives 著：AnHai Doan 威斯康星大学麦迪逊分校计算机科学系副教授。
Alon Halevy 谷歌结构化数据组负责人。
Zachary Ives 宾夕法尼亚大学费城分校副教授。

译者简介

孟小峰　马如霞马友忠等译：暂无简介

译者序

近20年来，数据产生的方式不断得到扩展，带来数据管理需求和任务的不断变化，促使数据管理技术不断推陈出新。数据库管理系统、数据仓库与数据挖掘、数据集成被视为三足鼎立的现代数据管理技术，它们在构建信息系统中的作用相当、互为依存、缺一不可。但在人们的认知度上，数据集成技术远不及前两者，其主要原因或许在于缺乏像数据库系统、数据挖掘广为人知的专业教材，使得该技术虽“叫好（广为应用）”，但“不叫座（缺乏教学传播）”。大学也鲜有开设此类课程的，其知识的积累多散见于论文、系统。本书可以说一举改变了数据集成没有专业教材的困局。尤其在当今的大数据背景下，本书的作用尤为突出。
　　本书是有关数据集成技术的集大成之作。数据集成简单地说是指为多个数据源提供统一访问的技术。数据集成技术已有20多年的研究历史，大致可分为两个阶段：首先，在数据库应用发展到一定阶段时，积累了大量封闭、完备的异构数据库，形成了企业异构数据库范畴下的数据集成；其次，随着Web的出现，积累了大量开放、多源异构的数据源（一部分是DBMS支持的数据源，大量的是缺乏结构、不确定的数据源），遂形成了Web多源异构数据源范畴下的数据集成。两者的侧　　重点有所不同，技术和方法也有所差异。前者是基于封闭世界的假设，后者则是基于开放世界的假设，难度也大大增加。AnHai Doan等几位作者的研究背景涉及这两个阶段，因此本书试图将这两个阶段研究成果的共性技术同时呈现在读者面前。本书以教科书的逻辑整理有关内容，强调知识的基础性和理论性。本书共有三个部分：第一部分介绍数据集成的基本知识，主要是数据库集成的内容，如查询的表示、数据源的描述、模式匹配、查询处理、集成方法等；穿插补充了Web数据集成的内容，如包装器、数据匹配（实体识别）等。第二部分介绍扩展数据集成的知识，包括XML、语义Web、不确定性、数据溯源等。第三部分介绍各种新的集成技术，包括Web数据集成、基于关键字搜索的按需集成、对等集成、协同集成等。
　　值此翻译本书之际，译者也在撰写一部同类但侧重点不同的书籍，即《Web数据管理：概念与技术》。该书直接以Web数据为研究对象，系统地介绍Web数据管理的关键技术，即以第二阶段的数据集成为主线。比较而言，本书的主线是数据集成的基本原理，其知识体系的厚度和广度令人叹服，但有些内容不够系统，略显遗憾。
　　本书堪称鸿篇巨著，翻译、统稿和审校由孟小峰组织完成，具体翻译分工如下：第1、2章由赵可君翻译；第3章由王淼翻译；第4章由王璐翻译；第5、7章由马友忠翻译；第6、9、10章由马如霞翻译；第8章由王江涛翻译；第11章由王春凯翻译；第12、13章由李勇翻译；第14章由韩旭翻译；第15章由张榆翻译；第16、17章由干艳桃翻译；第18、19章由慈祥翻译。本书于2013年秋译出初稿，之后由孟小峰逐章进行修改或重译，并在实验室组织了为期两个月的每周课程讨论班，这期间三易其稿，最后由孟小峰、马如霞、马友忠负责统一定稿。
　　本书涉及面广，内容丰富，术语量大，翻译难度可想而知。本书译词主要遵从教科书中的习惯用法，并参考《计算机科学技术名词》等书籍。在翻译中我们深感力不从心，译文中不当之处在所难免，诚恳读者批评指正并不吝赐教。如果你有任何建议或意见，欢迎发邮件给xfmeng@ruc.edu.cn。

译者
2014年3月于北京

图书目录

出版者的话
中文版序
译者序
前言
第1章　绪论1
　1.1　什么是数据集成1
　1.2　数据集成面临的挑战5
　　1.2.1　系统原因5
　　1.2.2　逻辑原因5
　　1.2.3　社会和管理原因6
　　1.2.4　设定预期7
　1.3　数据集成架构7
　　1.3.1　数据集成系统的组成部分7
　　1.3.2　数据集成实例9
　1.4　全书概览12
　参考文献注释13
第一部分　数据集成技术基础
第2章　查询表达式及运算16
　2.1　数据库概念回顾16
　　2.1.1　数据模型16
　　2.1.2　完整性约束18
　　2.1.3　查询和应答19
　　2.1.4　合取查询20
　　2.1.5　datalog查询21
　2.2　查询展开22
　2.3　查询包含与等价23
　　2.3.1　形式化定义23
　　2.3.2　合取查询的包含24
　　2.3.3　合取查询的并集25
　　2.3.4　带有比较谓词的合取查询26
　　2.3.5　带有否定的合取查询28
　　2.3.6　包语义、分组和聚集30
　2.4　基于视图计算查询32
　　2.4.1　问题定义33
　　2.4.2　视图与查询计算的相关性34
　　2.4.3　查询重写的可能长度34
　　2.4.4　桶算法和MiniCon算法35
　　2.4.5　逻辑方法：逆规则算法41
　　2.4.6　算法比较42
　　2.4.7　基于视图的查询应答43
　参考文献注释46
第3章　数据源描述47
　3.1　概述和必要条件47
　3.2　模式映射语言49
　　3.2.1　模式映射语言规则49
　　3.2.2　全局视图50
　　3.2.3　局部视图53
　　3.2.4　全局-局部视图55
　　3.2.5　元组生成依赖56
　3.3　访问模式限制57
　　3.3.1　构建访问模式限制58
　　3.3.2　生成可执行计划58
　3.4　中介模式上的完整性约束61
　　3.4.1　带有完整性约束的LAV61
　　3.4.2　带有完整性约束的GAV62
　3.5　结果完备性63
　　3.5.1　局部完备性63
　　3.5.2　结果完备性检测64
　3.6　数据级的异构性65
　　3.6.1　标度差异性66
　　3.6.2　相同实体的多重表示66
　参考文献注释67
第4章　字符串匹配68
　4.1　问题描述68
　4.2　相似度度量69
　　4.2.1　基于序列的相似度度量69
　　4.2.2　基于集合的相似度度量75
　　4.2.3　混合相似度度量77
　　4.2.4　语音相似度度量79
　4.3　可扩展的字符串匹配80
　　4.3.1　字符串上的倒排索引81
　　4.3.2　大小过滤81
　　4.3.3　前缀过滤82
　　4.3.4　位置过滤84
　　4.3.5　边界过滤85
　　4.3.6　其他相似度度量方法的可扩展技术86
　参考文献注释86
第5章　模式匹配与模式映射88
　5.1　问题定义88
　　5.1.1　语义映射89
　　5.1.2　语义匹配89
　　5.1.3　模式匹配与模式映射90
　5.2　模式匹配和模式映射的挑战90
　5.3　匹配和映射系统概述92
　　5.3.1　模式匹配系统92
　　5.3.2　模式映射系统94
　5.4　匹配器94
　　5.4.1　名字匹配器94
　　5.4.2　实例匹配器96
　5.5　组合匹配预测97
　5.6　施加域完整性约束98
　　5.6.1　域完整性约束99
　　5.6.2　搜索匹配组合空间100
　5.7　匹配选择器104
　5.8　匹配重用105
　　5.8.1　学习匹配106
　　5.8.2　学习器107
　　5.8.3　训练元学习器108
　5.9　多对多匹配109
　5.10　由匹配到映射111
　参考文献注释116
第6章　通用模式操作118
　6.1　模型管理操作119
　6.2　合并操作120
　6.3　模型生成操作121
　6.4　逆映射操作123
　6.5　模型管理系统124
　参考文献注释124
第7章　数据匹配126
　7.1　问题定义126
　7.2　规则匹配127
　7.3　学习匹配129
　7.4　聚类匹配131
　7.5　概率匹配133
　　7.5.1　贝叶斯网络133
　　7.5.2　基于朴素贝叶斯的数据匹配138
　　7.5.3　特征相关性140
　　7.5.4　文本中的实体指代匹配141
　7.6　协同匹配144
　　7.6.1　基于聚类的协同匹配146
　　7.6.2　协同匹配文档中的实体指代146
　7.7　数据匹配的可扩展性148
　　7.7.1　规则匹配扩展148
　　7.7.2　其他匹配方法的扩展149
　参考文献注释150
第8章　查询处理152
　8.1　背景：DBMS查询处理153
　　8.1.1　选择查询执行计划154
　　8.1.2　执行查询计划156
　8.2　背景：分布式查询处理157
　　8.2.1　数据放置和转移158
　　8.2.2　两阶段连接158
　8.3　数据集成查询处理160
　8.4　生成初始查询计划161
　8.5　互联网数据的查询执行161
　　8.5.1　多线程、流水线、数据流架构161
　　8.5.2　有自治数据源的接口162
　　8.5.3　故障处理163
　8.6　自适应查询处理163
　8.7　事件驱动自适应策略164
　　8.7.1　数据源故障和延迟处理165
　　8.7.2　处理流水线操作结束时突发的基数问题166
　8.8　性能驱动的自适应策略168
　　8.8.1　Eddy：基于队列的计划选择169
　　8.8.2　校正查询处理：基于代价的重新优化171
　参考文献注释175
第9章　包装器176
　9.1　引言176
　　9.1.1　包装器的构建177
　　9.1.2　包装器构建面临的挑战177
　　9.1.3　构建方法的分类178
　9.2　手动的包装器构建179
　9.3　基于学习的包装器构建180
　　9.3.1　HLRT包装器181
　　9.3.2　Stalker包装器182
　9.4　无模式的包装器学习186
　　9.4.1　建模数据源模式TS和抽取程序EW187
　　9.4.2　推导数据模式TS和抽取程序EW187
　9.5　交互的包装器构建191
　　9.5.1　使用Stalker交互标记页面192
　　9.5.2　使用Poly识别正确的抽取规则193
　　9.5.3　用Lixto创建抽取规则195
　参考文献注释197
第10章　数据仓库与缓存199
　10.1　数据仓库200
　　10.1.1　数据仓库设计201
　　10.1.2　ETL：抽取/转换/加载201
　10.2　数据交换：描述性仓库203
　　10.2.1　数据交换设置203
　　10.2.2　数据交换解204
　　10.2.3　通用解204
　　10.2.4　核心通用解206
　　10.2.5　查询物化信息库207
　10.3　缓存及部分物化207
　10.4　本地、外部数据的直接分析208
　参考文献注释210
第二部分　扩展数据表示集成
第11章　XML214
　11.1　数据模型215
　11.2　XML结构和模式定义217
　　11.2.1　文档类型定义218
　　11.2.2　XML模式219
　11.3　查询语言220
　　11.3.1　先驱：DOM和SAX221
　　11.3.2　XPath：XML查询原语221
　　11.3.3　XQuery：XML查询能力225
　11.4　XML查询处理229
　　11.4.1　XML路径匹配231
　　11.4.2　XML输出232
　　11.4.3　XML查询优化233
　11.5　XML模式映射233
　　11.5.1　嵌套映射233
　　11.5.2　带嵌套映射的查询重写236
　参考文献注释236
第12章　本体和知识表示238
　12.1　数据集成中的知识表示举例238
　12.2　描述逻辑239
　　12.2.1　描述逻辑的语法240
　　12.2.2　描述逻辑的语义241
　　12.2.3　描述逻辑的推理242
　　12.2.4　描述逻辑和数据库推理的比较244
　12.3　语义Web245
　　12.3.1　资源描述框架245
　　12.3.2　RDF模式249
　　12.3.3　Web本体语言249
　　12.3.4　RDF查询：SPARQL语言250
　参考文献注释251
第13章　不确定性数据集成253
　13.1　不确定性表示254
　　13.1.1　概率数据表示255
　　13.1.2　从不确定性到概率256
　13.2　不确定模式映射建模257
　　13.2.1　概率映射257
　　13.2.2　概率映射的语义258
　　13.2.3　表语义259
　　13.2.4　元组语义260
　13.3　不确定性和数据溯源261
　参考文献注释261
第14章　数据溯源263
　14.1　溯源的两种表示方法263
　　14.1.1　使用数据标注表示溯源263
　　14.1.2　使用数据关系图表示溯源264
　　14.1.3　两种表示方法的可交换性265
　14.2　数据溯源的应用265
　14.3　溯源半环266
　　14.3.1　半环形式化模型266
　　14.3.2　半环模型的应用268
　14.4　溯源的存储270
　参考文献注释271
第三部分　新型集成系统
第15章　Web数据集成274
　15.1　Web数据的用途276
　15.2　深层网络277
　　15.2.1　垂直搜索278
　　15.2.2　深层网络浅层化280
　15.3　主题门户网站282
　15.4　Web数据的轻量级集成284
　　15.4.1　发现Web中的结构化数据285
　　15.4.2　导入数据287
　　15.4.3　合并多个数据集288
　　15.4.4　重用他人工作成果288
　15.5　“即付即用”数据管理289
　参考文献注释289
第16章　关键字搜索：按需集成293
　16.1　结构化数据中的关键字搜索293
　　16.1.1　数据图293
　　16.1.2　关键字匹配和评分模型295
　16.2　结果排名计算296
　　16.2.1　图扩展算法296
　　16.2.2　基于阈值的合并297
　16.3　数据集成中的关键字搜索299
　　16.3.1　以可扩展的方式自动地构建边300
　　16.3.2　可扩展的查询应答301
　　16.3.3　通过学习算法调整边和节点的权重301
　参考文献注释302
第17章　对等数据集成303
　17.1　对等节点和映射303
　17.2　映射的语义307
　17.3　PDMS查询应答的复杂性307
　　17.3.1　有环PDMS308
　　17.3.2　对等映射中的比较谓词308
　17.4　查询重写算法309
　17.5　组合映射312
　17.6　采用松散映射进行对等数据管理314
　　17.6.1　基于相似度的映射314
　　17.6.2　映射表315
　参考文献注释317
第18章　支持协同的集成318
　18.1　协同因何而不同318
　18.2　处理校正和反馈319
　　18.2.1　直接向下传播的用户更新319
　　18.2.2　回溯传播的反馈或更新319
　18.3　协同标注与表达320
　　18.3.1　映射作为标注：轨迹320
　　18.3.2　评论和讨论作为标注321
　18.4　动态数据：协同数据共享322
　　18.4.1　基本架构324
　　18.4.2　映射更新与物化实例325
　　18.4.3　冲突协调328
　参考文献注释328
第19章　数据集成的未来330
　19.1　不确定性、溯源和清理330
　19.2　众包和“人计算”330
　19.3　构建大规模结构化Web数据库331
　19.4　轻量级集成331
　19.5　集成数据可视化332
　19.6　社交媒体集成332
　19.7　基于集群和云的并行处理与缓存332
参考文献333
索引360