教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 424

开本 : 16

原书名 : 无

原出版社: 无

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

本书主要介绍分布式数据库系统和大数据库系统的基本理论与实现技术。全书共分12章，第1章和第2章介绍分布式数据库系统和大数据库系统的基础和背景，主要包括系统的基本概念、体系结构、发展历史、系统分类和主要研究问题；第3~9章为全书的重点，介绍分布式数据库系统和大数据库系统的核心技术，包括分布式数据库设计、分布式查询处理与优化、分布式查询的存取优化、分布式事务管理、分布式恢复管理、分布式并发控制、数据复制与一致性，并给出了Oracle应用示例；第10章和第11章介绍两个分布式的数据管理系统案例，分别为P2P数据管理系统和Web数据库集成系统；第12章介绍大数据系统研究进展及发展趋势。

图书特色

本书是作者在长期的数据库教学和科研基础上，面向大数据应用的新需求，结合分布式数据库和大数据管理的基本原理及其实际应用技术编写而成的。书中详细介绍了经典的分布式数据库管理和新兴的大数据库管理的理论和技术，以流行的商用数据库Oracle为例介绍了分布式数据库的相关实现技术，以P2P数据管理和Web数据库集成系统为例介绍了面向互联网和Web应用的分布式数据库技术，以HBase、Cassandra、Spanner、OceanBase等为例介绍了面向大数据应用的新型数据库技术，还给出了大数据库系统的最新研究进展及发展趋势。
本书特色
内容全面，涵盖广泛。不仅覆盖传统分布式数据库系统的经典理论和技术，还用大篇幅介绍了大数据库技术，包括基于HDFS的大数据存储模型和数据分区策略、基于MapReduce的分布查询及优化处理方法、典型的索引查询优化及缓存技术、多类型的事务管理和故障恢复技术、扩展的并发控制技术、数据复制与一致性技术等。
与时俱进，突出先进性。面向互联网+、云计算等大数据应用的新需求，跟踪分布式数据库系统的新发展，反映最新的大数据管理技术。
理论与实际相结合，实用性强。以流行的商用数据库Oracle和典型的大数据管理系统如HBase、Cassandra、Spanner、OceanBase等为例介绍相关理论的应用，易于读者掌握。
内容全面，涵盖广泛。不仅覆盖传统分布式数据库系统的经典理论和技术，还用大篇幅介绍了大数据库技术，包括基于HDFS的大数据存储模型和数据分区策略、基于MapReduce的分布查询及优化处理方法、典型的索引查询优化及缓存技术、多类型的事务管理和故障恢复技术、扩展的并发控制技术、数据复制与一致性技术等。
与时俱进，突出先进性。面向互联网+、云计算等大数据应用的新需求，跟踪分布式数据库系统的新发展，反映最新的大数据管理技术。
理论与实际相结合，实用性强。以流行的商用数据库Oracle和典型的大数据管理系统如HBase、Cassandra、Spanner、OceanBase等为例介绍相关理论的应用，易于读者掌握。

于戈，博士，教授，博士生导师，CCF会士。现任东北大学计算机科学与工程学院执行院长，东北大学计算中心主任。曾任第五、六届国务院学科评议组成员，第十二、十三届国家自然科学基金委专家评审组成员。获得“中国高校青年教师奖”和省部级科学技术奖5项。
申德荣，博士，东北大学计算机科学与工程学院教授、博士生导师。现任中国计算机学会办公自动化专业委员会秘书长，中国计算机学会数据库专业委员会委员。获得国家发明专利5项，计算机软件登记4项。获省部级科学技术奖3项。

图书前言

数据库系统的发展起始于20世纪60年代，从IBM的层次模型IMS、网状模型、关系模型，发展到多数据模型共存。随着科学技术的发展，各个行业、领域对数据库技术提出了更多的需求，推动了数据库技术同诸多新技术如分布式处理技术、并行计算技术、人工智能技术、多媒体技术、模糊计算技术等相结合，由此衍生出了多种新的数据库技术。分布式数据库系统是其中的一种新数据库技术。分布式数据库系统兴起于20世纪70年代中期。推动分布式数据库系统发展的动力来自于两方面：一是应用需求，二是硬件环境的发展。在应用需求上，全国甚至全球范围内的航空及铁路订票系统、银行通存通兑系统、水陆空联运系统、跨国公司管理系统、连锁配送管理系统等，都涉及地理上分布的企业或机构的局部业务管理和与整个系统有关的全局管理，采用传统的集中式数据库管理系统已无法满足这种分布式应用需求。在硬件环境上，提供了功能强大的计算机和成熟的广域公用数据网及快速增长的局域网。在上述两方面的推动下，人们期望符合现实需要的、能处理分散地域的、具备数据库系统特点的新数据库系统的出现。
从20世纪70年代中期开始，各发达国家纷纷投巨资支持分布式数据库系统的研究和开发计划。历时十年，呈现出了许多研究成果。典型的原型系统有美国国防部委托CCA公司设计和研制的SDD1分布式数据库系统、美国加利福尼亚大学伯克利分校研制的分布式INGRES系统、IBM圣何塞实验室研制的R*分布式数据库系统、德国斯图加特大学研制的Porel分布式数据库系统、法国Sirius资助计划产生的若干原型系统（如SiriusDelta、Polypheme等）。随后，商品化的数据库系统Oracle、Sybase、DB2、Informix、INGRES等都从分布式数据库系统研究中吸取了许多重要的概念、方法和技术，实现了相当程度上的分布式数据管理功能，并宣称它们都是分布式数据库系统产品。在分布式数据库系统的商品化进程中，随着研究的深入和应用的普及，更由于分布式数据库管理系统本身的高复杂性，研究者提出了更简洁、更灵活的实现技术来满足分布式数据处理的要求。目前，商品化数据库产品如Oracle、Sybase、DB2、SQL Server、Informix都支持异构数据库系统的访问和集成功能。它们都采用基于组件和中间件的松散耦合型事务管理机制来实现分布式数据的管理，具有高灵活性和可扩展性，并且具有替代传统分布式数据库管理系统中的紧耦合型事务管理机制的趋势。
随着Internet和Web的蓬勃发展，Web环境下的分布式系统已成为当前应用的主流，如电子商务系统、网格系统、P2P共享系统等。近来，云计算、物联网等新型分布式应用的提出，更凸显了分布式数据管理的重要地位。分布式数据处理是分布式系统中必不可少的重要组成部分，涉及数据的分布式存储管理、分布式数据的查询优化、分布式事务管理与故障恢复，以及并发控制处理机制等。分布式数据库系统的概念、基本理论、算法及其相应的技术都将对分布式数据处理以及分布式系统的研究起到重要的指导作用。并且，随着分布式计算技术和应用的发展，分布式数据管理系统的基本理论和技术将发挥越来越重要的作用。
随着技术的发展，大数据广泛存在，如Web数据、移动数据、社交网络数据、电子商务数据、企业数据、科学数据等，并且各行各业都期望得益于大数据中蕴含的有价值的知识。为此，呈现出了支持大数据管理和分析的技术，如大数据存储模型、键值模型、MapReduce分布式处理架构、改进的支持分布式的事务协议、副本管理等，并推出了许多关系云系统和多存储结构的大数据库系统等。支持大数据库管理的基础理论和技术，典型代表是以经典的分布式数据库理论和技术为基础的扩展研究，满足大数据处理的实时性、高性能和可扩展性需求等。
多年来，作者在国家自然科学基金、国家973计划、国家863计划等课题的支持下，以大数据管理、Web数据库集成、联盟企业数据集成为应用背景，针对分布式环境下的数据管理进行了深入研究。同时，作者一直承担东北大学计算机专业硕士研究生的分布式数据库系统课程以及计算机专业本科生的数据库系统概论和数据库系统实现课程的教学工作。本书正是基于以上工作而撰写的。
本书首先重点介绍经典的分布式数据库系统的基本理论和关键技术，介绍当前流行的商品化分布式数据管理机制，并进行特点分析和对比。同时，以经典的分布式数据库基本理论和技术为基础，介绍大数据库管理的关键技术和流行的大数据库系统。
本书共分为12章，内容包括分布式数据库系统概述、分布式数据库系统的结构、分布式数据库设计、分布式查询处理与优化、分布式查询的存取优化、分布式事务管理、分布式恢复管理、分布式并发控制、数据复制与一致性、典型的分布式数据库系统案例（P2P数据管理系统、Web数据库集成系统）和大数据库系统研究进展。
第1章主要介绍数据库基本知识、分布式数据库概念及其特性，以及分布式数据库系统的作用和特点。之后，概述大数据管理并介绍大数据库概念，主要包括大数据类型、特点、处理过程和大数据库关键技术。
第2章主要介绍分布式数据库系统的结构，包括分布式数据库系统的物理结构、逻辑结构、模式结构和组件结构，阐述典型的分布式数据集成系统的异同点，给出分布式数据库系统的分类。之后，介绍大数据库系统的分类、典型的体系结构和大数据库系统案例。
第3章主要介绍分布式数据库设计方法，包括全局关系模式的逻辑划分和实际物理分配，主要包括分片定义、分片设计和分配设计，具体包括水平分片、垂直分片和混合分片的设计。之后，介绍支持大数据库管理的存储模型、数据分布式存储策略以及大数据库存储案例。
第4章主要介绍分布式查询处理技术，包括查询优化的基本概念、查询处理与优化过程、查询分解、数据局部化和片段查询优化方法。之后，介绍大数据库的查询API、查询处理和优化策略。
第5章主要介绍分布式查询的存取优化技术，包括存取优化的基本概念、存取优化的代价模型、典型的半连接优化技术、枚举法优化技术，以及几种典型的集中式查询优化算法和分布式查询优化算法。之后，介绍大数据库管理的索引技术、缓存技术、并行处理技术。
第6章主要介绍分布式事务管理技术，包括分布式事务概念、分布式事务的实现模型、分布式事务执行的控制模型、分布式事务管理的实现模型以及分布式事务提交协议。之后，介绍大数据库的事务管理，包括大数据库管理理论、扩展的事务模型和实现方法。
第7章主要介绍分布式恢复管理技术，包括分布式数据库系统中的故障类型、集中式数据库的故障恢复方法、分布式数据库的恢复方法以及分布式数据库的可靠性协议。之后，介绍大数据库系统中的恢复管理问题、故障类型、故障检测技术和容错技术。
第8章主要介绍分布式并发控制技术，包括分布式并发控制概念及其理论基础、基于锁的并发控制方法、基于时间戳的并发控制方法、乐观的并发控制方法以及分布式死锁管理。之后，介绍支持大数据库并发控制的扩展技术。
第9章主要介绍分布式数据库的数据复制和一致性技术，包括复制策略、复制协议和一致性协议。之后，结合大数据库一致性协议介绍大数据库系统所采用的副本一致性实现策略。
第10章介绍一个典型的分布式数据库系统案例——P2P数据管理系统，包括几种典型的P2P系统的体系结构、数据管理机制以及查询处理与优化策略。
第11章介绍另一个典型的分布式数据库系统案例——Web数据库集成系统，包括典型的Web数据库集成系统的组成结构以及集成系统中的三个核心模块（搜索子系统、查询子系统和集成子系统）。
第12章介绍大数据库系统研究进展及展望，包括数据模型、基于MapReduce框架的查询处理与优化策略、事务管理技术、动态负载均衡策略、副本管理技术以及多存储模式的数据库系统。
本书由东北大学计算机科学与工程学院于戈、申德荣、赵志滨、李芳芳、聂铁铮、寇月、冯时、鲍玉斌撰写。其中，于戈负责本书前言部分，申德荣负责教学建议部分，于戈、申德荣负责第1章，赵志滨、申德荣负责第2章，申德荣、聂铁铮负责第3章，李芳芳、于戈负责第4章、第8章、第9章，聂铁铮负责第5章，寇月负责第6章和第7章，赵志滨负责第10章，申德荣、聂铁铮负责第11章，申德荣、于戈、鲍玉斌负责第12章，冯时负责各章中有关Oracle数据库的案例部分。参加本书撰写的还有博士研究生朱命冬、王习特等。全书由于戈和申德荣统稿。
我们在撰写本书的过程中，努力使本书覆盖已有分布式数据库系统的经典理论和技术，尽力跟踪该学科的新发展和新技术，尤其是用大篇幅介绍了大数据库技术，力求使本书具有先进性和实用性，并突出本书自身的特色。但由于作者学识有限，一定存在许多不足之处，敬请专家和学者批评指正。

上架指导

计算机\数据库

封底文字

本书是作者在长期的数据库教学和科研基础上，面向大数据应用的新需求，结合分布式数据库和大数据管理的基本原理及其实际应用技术编写而成的。书中详细介绍了经典的分布式数据库管理和新兴的大数据库管理的理论和技术，以流行的商用数据库Oracle为例介绍了分布式数据库的相关实现技术，以P2P数据管理和Web数据库集成系统为例介绍了面向互联网和Web应用的分布式数据库技术，以HBase、Cassandra、Spanner、OceanBase等为例介绍了面向大数据应用的新型数据库技术，还给出了大数据库系统的最新研究进展及发展趋势。
本书特点
 内容全面，涵盖广泛。不仅覆盖传统分布式数据库系统的经典理论和技术，还用大篇幅介绍了大数据库技术，包括基于HDFS的大数据存储模型和数据分区策略、基于MapReduce的分布查询及优化处理方法、典型的索引查询优化及缓存技术、多类型的事务管理和故障恢复技术、扩展的并发控制技术、数据复制与一致性技术等。
 与时俱进，突出先进性。面向互联网+、云计算等大数据应用的新需求，跟踪分布式数据库系统的新发展，反映最新的大数据管理技术。
 理论与实际相结合，实用性强。以流行的商用数据库Oracle和典型的大数据管理系统如HBase、Cassandra、Spanner、OceanBase等为例介绍相关理论的应用，易于读者掌握。

作者简介

于戈申德荣等编著：于戈，博士，教授，博士生导师，CCF会士。现任东北大学计算机科学与工程学院执行院长，东北大学计算中心主任。曾任第五、六届国务院学科评议组成员，第十二、十三届国家自然科学基金委专家评审组成员。获得“中国高校青年教师奖”和省部级科学技术奖5项。
申德荣，博士，东北大学计算机科学与工程学院教授、博士生导师。现任中国计算机学会办公自动化专业委员会秘书长，中国计算机学会数据库专业委员会委员。获得国家发明专利5项，计算机软件登记4项。获省部级科学技术奖3项。

图书目录

前言
教学建议
第1章分布式数据库系统概述
11引言及准备知识
111相关基本概念
112相关基础知识
12分布式数据库系统的基本概念
121节点/场地
122分布式数据库
123分布式数据库管理系统
124分布式数据库系统应用举例
125分布式数据库的特性
13分布式数据库系统的作用和特点
131分布式数据库系统的作用
132分布式数据库系统的特点
14分布式数据库系统中的关键技术
141关键技术
142典型的分布式数据库原型系统简介
15大数据应用与分布式数据库技术
151大数据类型和应用
152大数据特点
153大数据处理过程
154大数据管理新模式
155分布式大数据库系统及关键技术
16本章小结
习题
主要参考文献
第2章分布式数据库系统的结构
21DDBS的物理结构和逻辑结构
22DDBS的体系结构
221基于客户端/服务器结构的体系结构
222基于中间件的客户端/服务器结构
23DDBS的模式结构
24DDBS的组件结构
241应用处理器功能
242数据处理器功能
25多数据库集成系统
251数据库集成
252多数据库系统
26对等型数据库系统
261P2PDBS的数据集成体系结构
262P2PDBS的体系结构
263P2PDBS与DDBS的典型区别
27DDBS的分类
271非集中式数据库系统及P2PDBS的特性
272DDBS的分类图
28元数据的管理
281数据字典的主要内容
282数据字典的主要用途
283数据字典的组织
29Oracle系统体系结构
291Oracle系统体系结构简介
292Oracle中实现分布式功能的关键组件
293Oracle分布式数据库架构
210分布式大数据库系统
2101分布式大数据库系统的分类
2102分布式大数据库系统的体系结构
2103基于HDFS的分布式数据库
2104其他分布式数据库系统
211本章小结
习题
主要参考文献
第3章分布式数据库设计
31设计策略
311TopDown设计过程
312BottomUp设计过程
32分片的定义及作用
321分片的定义
322分片的作用
323分片设计过程
324分片的原则
325分片的种类
326分布透明性
33水平分片
331水平分片的定义
332水平分片的操作
333水平分片的设计
334水平分片的正确性判断
34垂直分片
341垂直分片的定义
342垂直分片的操作
343垂直分片的设计
344垂直分片的正确性判断
35混合分片
36分片的表示方法
361图形表示法
362分片树表示法
37分配设计
371分配类型
372分配设计原则
373分配模型
38数据复制技术
381数据复制的优势
382数据复制的分类
383数据复制的常用方法
39Oracle数据分布式设计案例
391Oracle分布式数据库的水平分片
392Oracle分布式数据库的垂直分片
393Oracle集中式数据库的数据分区技术
310大数据库的分布存储策略
3101分布式文件系统HDFS
3102基于SSTable的数据存储结构
3103大数据存储模型
3104数据分区策略
311大数据库分布式存储案例
3111Bigtable
3112Cassandra
3113Spanner
312本章小结
习题
主要参考文献
第4章分布式查询处理与优化
41查询处理基础
411查询处理目标
412查询优化的意义
413查询优化的基本概念
414查询优化的过程
42查询处理器
421查询处理器的特性
422查询处理层次
43查询分解
431查询规范化
432查询分析
433查询约简
434查询重写
44数据局部化
45片段查询的优化
46Oracle分布式查询处理与优化案例
47大数据库系统的查询API
471基于类SQL的查询语言
472基于编程接口的查询语言
48大数据库的查询处理及优化
481大数据库查询处理方法
482基于MapReduce的查询处理
483大数据库查询优化
49本章小结
习题
主要参考文献
第5章分布式查询的存取优化
51分布式查询的基本概念
511分布式查询的执行与处理
512查询存取优化的内容
52存取优化的理论基础
521查询代价模型
522数据库的特征参数
523关系运算的特征参数
53基于半连接的优化方法
531半连接操作及相关规则
532半连接运算的作用
533使用半连接算法的通信代价估计
534半连接算法优化原理
54基于枚举法的优化技术
541嵌套循环连接算法
542基于排序的连接算法
543散列连接算法
544连接关系的传输方法
55集中式系统中的查询优化算法
551INGRES
552System R方法
553考虑代价的动态规划方法
554PostgreSQL的遗传算法
56分布式系统中的查询优化算法
561Distributed INGRES方法
562System R*方法
563SDD1方法
57Oracle分布式查询优化案例
58大数据库的索引查询优化方法
581布隆过滤器
582键值二级索引
583跳跃表
59大数据库的查询处理与优化
591并行查询处理
592基于分析引擎的大数据库查询优化
510分布式缓存
5101分布式缓存概述
5102分布式缓存的体系结构
5103典型分布式缓存系统
5104分布式缓存与存储引擎的结合使用
511本章小结
习题
主要参考文献
第6章分布式事务管理
61事务的基本概念
611事务的定义
612事务的基本性质
613事务的种类
62分布式事务
621分布式事务的定义
622分布式事务的实现模型
623分布式事务管理的目标
63分布式事务的提交协议
631协调者和参与者
632两段提交协议的基本思想
633两段提交协议的基本流程
64分布式事务管理的实现
641LTM与DTM
642分布式事务执行的控制模型
643分布式事务管理的实现模型
65两段提交协议的实现方法
651集中式方法
652分布式的2PC
653分层式方法
654线性方法
66非阻塞分布式事务提交协议
661三段提交协议的基本思想
662三段提交协议的基本流程
67Oracle分布式事务管理案例
68大数据库的事务管理
681大数据库的事务管理问题
682大数据库系统设计的理论基础
683弱事务型与强事务型大数据库
684大数据库中的事务特性
685大数据库的事务实现方法
69本章小结
习题
主要参考文献
第7章分布式恢复管理
71分布式恢复概述
711故障类型
712恢复模型
72集中式数据库的故障恢复
721局部恢复系统的体系结构
722数据更新策略
723针对不同更新事务的恢复方法
73分布式事务的故障恢复
731两段提交协议对故障的恢复
732三段提交协议对故障的恢复
74分布式可靠性协议
741可靠性和可用性
742分布式可靠性协议的组成
743两段提交协议的终结协议
744两段提交协议的演变
745三段提交协议的终结协议
746三段提交协议的演变
75Oracle分布式数据库系统故障恢复案例
76大数据库的恢复管理
761大数据库的恢复管理问题
762大数据库系统中的故障类型
763大数据库系统的故障检测技术
764基于事务的大数据库容错技术
765基于冗余的大数据库容错技术
77本章小结
习题
主要参考文献
第8章分布式并发控制
81分布式并发控制的基本概念
811并发控制问题
812并发控制定义
82并发控制理论基础
821事务执行过程的形式化描述
822集中式数据库的可串行化问题
823分布式事务的可串行化问题
83基于锁的并发控制方法
831锁的类型和相容性
832封锁规则
833锁的粒度
84两段封锁协议
841基本的两段封锁协议
842严格的两段封锁协议
843可串行化证明
85分布式数据库并发控制方法
851基于锁的并发控制方法的实现
852基于时间戳的并发控制算法
853乐观的并发控制算法
86分布式死锁管理
861死锁等待图
862死锁的检测
863死锁的预防和避免
87Oracle分布式数据库系统并发控制案例
871Oracle中的锁机制
872Oracle中的并发控制
88大数据库并发控制技术
881事务读写模式扩展
882封锁机制扩展
883基于多版本并发控制扩展
884基于时间戳并发控制扩展
89本章小结
习题
主要参考文献
第9章数据复制与一致性
91数据复制的作用
92数据复制一致性模型
93分布式数据库复制策略
931数据复制的执行方式
932数据复制的实现方法
933数据复制的体系结构
94数据复制协议
941主从复制协议
942对等复制协议
95大数据库一致性协议
951Paxos协议
952反熵协议
953NWR协议
954向量时钟技术
96大数据库复制一致性管理
961基于Paxos的复制管理技术
962基于反熵的复制管理技术
963基于NWR的复制管理技术
964基于向量时钟的复制管理技术
97本章小结
习题
主要参考文献
第10章P2P数据管理系统
101P2P系统概述
102P2P系统的体系结构
1021集中式P2P网络
1022全分布式P2P网络
1023混合型P2P网络
103P2P系统中的数据管理
104资源的定位和路由
1041面向非结构化P2P网络的资源定位方法
1042面向结构化P2P网络的资源定位方法
105处理语义异构性
106查询处理与优化
1061查询处理
1062查询优化
107本章小结
习题
主要参考文献
第11章Web数据库集成系统
111Web数据库集成系统概述
112三种体系结构介绍
1121数据供应模式
1122数据收集模式
1123元搜索模式
113基于元搜索模式的Web数据库集成系统WDBIntegrator
1131系统总体结构
1132Web数据库资源搜索子系统
1133资源查询子系统
114本章小结
习题
主要参考文献
第12章大数据库系统研究进展
121数据模型的研究
1211支持大数据库管理的数据模型研究
1212读写方式
1213支持大数据库管理的分布式索引技术
1214支持的查询
122基于MapReduce框架的查询处理与优化技术研究
1221基于MapReduce的支持大数据处理的优化框架研究
1222基于MapReduce的支持大数据计算的优化策略研究
1223基于MapReduce的支持多数据集的连接查询研究
1224MapReduce与NoSQL数据库相结合的研究
123支持事务的研究
1231应用层保证事务一致性
1232本地事务支持
1233有限范围内的事务支持
1234弹性的事务支持
1235面向分区数据支持分布式事务的研究
1236异构多存储的可扩展的事务
124动态负载均衡技术的研究
1241面向多租户的动态迁移技术
1242面向查询处理的负载均衡技术
1243基于中间件的面向负载的动态均衡技术
125副本管理研究
1251自适应副本策略研究
1252数据一致性维护策略研究
1253多数据中心的副本一致性维护策略研究
126支持多存储模式的数据库系统
1261支持访问多数据模式的大数据库系统
1262自适应的多数据模式的大数据库系统
1263支持分析型数据的分布式数据库系统
127其他研究
128总结及研究展望
1281关键技术问题
1282研究挑战
习题
主要参考文献