云数据管理:挑战与机遇
作者 : [美]迪卫艾肯特?阿格拉沃尔(Divyakant Agrawal) 苏迪皮托?达斯(Sudipto Das) 阿姆鲁?埃尔?阿巴迪(Amr El Abbadi) 著
译者 : 马友忠 孟小峰 译
丛书名 : 大数据管理丛书
出版日期 : 2017-05-17
ISBN : 978-7-111-56327-3
定价 : 69.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 154
开本 : 16
原书名 : Data Management in the Cloud: Challenges and Opportunities
原出版社: Morgan & Claypool Publishers, Inc.
属性分类: 教材
包含CD :
绝版 :
图书简介

本书对云数据管理的基本概念进行剖析,在此基础上阐述云数据管理的基本框架和关键技术,并就云计算技术对于大数据时代数据管理所产生的作用进行分析。最后归纳总结大数据和云计算时代所面临的云数据管理的新挑战和应对策略。

图书前言

大数据和云计算是研究文献和主流媒体中大量使用的两个术语。当我们走进云计算和数据洪流的时代,经常被问到的一个问题是:云数据管理中的新挑战是什么?本书就是由我们寻求回答这个问题发展而来,并使我们自己对这一问题有了更为深入的理解。本书首先介绍了一些初步的综述性论文,这些综述论文总结了适合键–值存储系统的主要设计原则,这些系统如谷歌的Bigtable、亚马逊的Dynamo和雅虎的PNUTS,通过在一个数据中心或者有可能在世界不同地方的多个数据中心中部署成千上万台服务器来达到前所未有的规模。由于这一领域引起了学术界和工业界越来越多的研究人员的关注,该领域从键–值存储进一步发展到支持更丰富功能的可扩展数据存储,如事务或除简单键–值模型之外的模式。因此,我们将3个系统的简单综述在新加坡举办的VLDB 2010会议和在瑞典乌普萨拉举办的EDBT 2011会议扩展成一个3小时长的教程。后来又有很多相关资料的介绍,因为这些教程以及我们对该问题的理解也随时间的推移发生了改变。其间也提出了更多的系统。本书对我们这些年课程的学习以及来自于我们讲座的很多有趣的讨论进行了总结。
与传统数据管理时代事务处理与数据分析系统之间的划分一样,云数据管理也有一个类似的划分。一种是面向数据存储和服务于互联网应用的系统。这些系统与经典的事务处理系统类似,尽管有很多不同之处。另一种是数据分析系统,类似于数据仓库,通过分析大量数据来从中获得知识和智能。随着企业不断地搜集用户数据,并对来自于多种数据源的数据进行合并,基于MapReduce的系统,如Hadoop及其生态系统,使得数据分析和数据仓库更加大众化。云数据分析方面有几十个开源产品和数百篇相关领域的研究论文,已经成为一个热门的研究领域。因为企业试图从它们的数据库中获得新的见解,从而取得竞争优势,该领域会得到进一步扩展。
我们的研究、分析和调查主要关注于第一类系统,即数据管理和存储系统。因此,本书也主要关注这些系统。本书将深入探讨在设计这些更新密集型系统中存在的挑战,这些更新密集型系统必须对访问数据库小部分数据的查询和更新提供快速响应。在该类中,我们进一步将研究划分成两类系统。在第一类中,挑战在于对系统进行扩展,从而服务于拥有几千个并发请求和数百GB到数百TB频繁访问数据的大型应用。第二类包括这样一种情况,云服务提供商必须有效地服务于数十万个应用程序,每个应用程序的查询负载和资源需求都比较少。
致谢
本书源自于几年前我们试图更好地理解云数据管理设计领域的愿望。结果就有了我们对该设计领域的不断深入的理解。这得益于我们周围有很多人提供了帮助,人数太多,以至于这里无法一一列出。但是,我们想借此机会感谢那些在本书中发挥了重要作用的人。
首先,我们想感谢编辑M. Tamer zsu,他给了我们写这本书的机会,并在整个过程中为我们提供了持续的支持和反馈。他认真阅读了大量的早期草稿,并给出了很多意见和修正,大大完善了本书。Diane Cerra作为我们的出版商Morgan & Claypool的执行编辑,为我们提供了必要的行政支持。没有来自Tamer和Diane的帮助与支持,本书将无法出版。
本书中的大部分材料都以不同的形式在世界各地的不同地点呈现过。在这些演示过程中,我们收到了许多与会者的反馈,这些反馈直接或间接地改善了我们的演示,并经常会给我们提供不同的角度。我们非常感谢所有提供这些慷慨反馈的人。我们也从与Shyam Anthony、Philip Bernstein、Selcuk Candan、Aaron Elmore、Wen-syan Li、Klaus Schauser和Junichi Tatemura的大量讨论中获益匪浅,在此对他们表示感谢。我们还要感谢2008~2012年间学习研究生课程(CMPSC 271和CMPSC 274)的所有研究生的贡献。
最后,我们要感谢我们各自的家庭,他们容忍我们为准备本书和相关资料而花费了无数个小时。没有他们的一贯支持和理解,本书也不会有面世的一天。
Divyakant Agrawal、Sudipto Das和Amr El Abbadi

上架指导

计算机\数据库

作者简介

[美]迪卫艾肯特?阿格拉沃尔(Divyakant Agrawal) 苏迪皮托?达斯(Sudipto Das) 阿姆鲁?埃尔?阿巴迪(Amr El Abbadi) 著:
Divyakant Agrawal
加州大学圣塔芭芭拉分校计算机科学系教授。主要研究方向包括数据库系统、分布式计算、数据仓库和大规模信息系统。ACM和IEEE会员。在数据库系统、分布式系统、多维索引、数据仓库和云数据管理等领域发表论文300余篇。是多个国际会议、论坛的程序委员会委员,1993~2008年,任《分布式和并行数据库期刊》(Journal of Distributed and Parallel Databases)编辑,2003~2008年,任《VLDB Journal》编辑。ACM SIGMOD 2010程序委员会主席,多次担任ACM SIGSPATIAL会议的大会主席。目前担任《Journal of Distributed and Parallel Databases》的主编,ACM TODS和IEEE TKDE编委,VLDB基金会的受托人。在加州大学圣塔芭芭拉分校工作超过25年,培养了30多位博士研究生。荣获加州大学圣塔芭芭拉分校杰出指导导师奖。
Sudipto Das
微软研究院极限计算组(eXtreme Computing Group)研究员。于加州大学圣塔芭芭拉分校获得计算机科学博士。研究兴趣广泛,主要包括可扩展数据管理系统和分布式系统。其研究跨多个领域,如云计算平台的可扩展事务处理系统、针对大数据的高级数据分析系统和多租户数据库系统。在众多著名的数据库相关期刊、会议(如SIGMOD、VLDB、ICDE、CIDR、MDM和SoCC)上发表过著作。在云计算和大数据领域做过多次培训。曾荣获加州大学圣塔芭芭拉分校2012年Lancaster论文奖、CIDR 2011最佳论文奖、MDM-2011最佳论文奖第二名、2012杰出论文奖,2011加州大学圣塔芭芭拉分校优秀学生奖和2006年TCS-JU最佳学生奖。



Amr El Abbadi
加州大学圣塔芭芭拉分校计算机科学系教授。于埃及亚历山大大学获得计算机科学学士学位,康奈尔大学获得计算机科学硕士和博士学位。2007~2011年,加州大学圣塔芭芭拉分校计算机科学系主任。ACM和AAAS会员。多个数据库期刊编辑,包括《VLDB Journal》。多个数据库和分布式系统会议的程序委员会主席,包括VLDB 2000、SIGSPATIAL GIS 2010和SoCC 2011。2002至2008年任VLDB基金会委员。2007年,荣获UCSB Senate杰出导师奖。在数据库和分布式系统领域发表超过275篇论文。

译者简介

马友忠 孟小峰 译:暂无简介

译者序

随着物联网、社交网络、移动互联网等新兴技术和服务的快速普及与应用,数据以前所未有的速度不断增长,人类进入了大数据时代。数据规模的海量性、数据种类的多样性以及数据产生速度的快速性等特点给数据管理带来了巨大挑战。为实现对大规模数据的有效管理,云数据管理技术应运而生。
云数据管理虽然已有十余年的发展历程,但仍存在诸多挑战和发展机遇。本书以面向数据存储和服务于互联网应用的云数据管理系统为主要对象,描述了其中存在的若干关键性挑战。本书共7章,第1章介绍了云计算、云数据管理的基本概念,对其中面临的关键挑战进行了概述,并描述了本书的组织结构;第2章主要介绍了分布式数据管理的相关知识,包括分布式系统、P2P系统、并发控制和分布式数据恢复等;第3章对云数据管理的早期研究工作进行了描述,包括不同的键–值存储系统在数据模型、数据分布和容错等方面的区别,以及Bigtable、PNUTS和Dynamo这三个有代表性的键–值存储系统的特点;第4章介绍了托管数据的事务问题,包括数据托管模式、托管数据的事务执行、数据存储和复制等内容;第5章主要介绍了分布式数据事务相关技术;第6章讨论了云数据管理中的多租户技术,包括多租户模型、云中的数据库弹性以及云中数据库负载的自动控制;第7章对相关经验教训进行了总结,并指出了未来的主要研究方向。
本书主要由马友忠负责翻译,孟小峰负责统稿和审校。本书于2016年9月译出初稿,责任编辑关敏对初稿进行了认真审核,张瑞玲、刘栋、贾世杰、张永新等也认真阅读初稿,给出了许多宝贵的修改意见。之后由孟小峰、马友忠根据责任编辑和同事提出的意见,逐章进行修改和完善。最后于2017年1月完成定稿。
本书译词主要遵从教科书及相关学术著作、科研论文中的习惯用法,并参考《计算机科学技术名词》等典籍。由于译者能力有限,译文中难免有不当之处,恳请读者批评指正并不吝赐教。如有任何建议或意见,敬请发邮件至ma_youzhong@163.com。

马友忠
2017年1月于洛阳

图书目录

丛书前言
译者序
前言
作者简介
第1章 简介 1
第2章 分布式数据管理 9
2.1 分布式系统 9
2.1.1 逻辑时间和Lamport时钟 10
2.1.2 向量时钟 12
2.1.3 互斥和仲裁集 13
2.1.4 领导者选举 15
2.1.5 基于广播和多播的组通信 16
2.1.6 一致性问题 19
2.1.7 CAP理论 21
2.2 P2P系统 21
2.3 数据库系统 24
2.3.1 预备知识 24
2.3.2 并发控制 25
2.3.3 恢复和提交 28
第3章 云数据管理:早期趋势 31
3.1 键–值存储系统概述 32
3.2 设计选择及其影响 33
3.2.1 数据模型 34
3.2.2 数据分布和请求路由 35
3.2.3 集群管理 35
3.2.4 容错和数据复制 36
3.3 键–值存储系统案例 38
3.3.1 Bigtable 38
3.3.2 PNUTS 41
3.3.3 Dynamo 43
3.4 讨论 45
第4章 托管数据的事务 47
4.1 数据或所有权托管 48
4.1.1 利用架构模式 49
4.1.2 访问驱动的数据库划分 53
4.1.3 特定于应用的动态划分 55
4.2 事务执行 58
4.3 数据存储 58
4.3.1 耦合存储 58
4.3.2 解耦存储 59
4.4 复制 61
4.4.1 显式复制 61
4.4.2 隐式复制 62
4.5 系统综述 63
4.5.1 G-Store 63
4.5.2 ElasTraS 67
4.5.3 Cloud SQL Server 71
4.5.4 Megastore 73
4.5.5 Relational Cloud 77
4.5.6 Hyder 79
4.5.7 Deuteronomy 82
第5章 分布式数据事务 85
5.1 云存储上的类数据库功能 85
5.2 地理复制数据的事务支持 90
5.3 使用分布式事务进行增量更新处理 92
5.4 使用迷你事务的可扩展分布式同步 95
5.5 讨论 98
第6章 多租户数据库系统 100
6.1 多租户模型 101
6.1.1 共享硬件 102
6.1.2 共享进程 103
6.1.3 共享表 104
6.1.4 模型分析 104
6.2 云中的数据库弹性 106
6.2.1 Albatross:共享存储数据库的实时迁移 108
6.2.2 Zephyr:无共享数据存储的实时迁移 112
6.2.3 Slacker:无共享模型中实时DBMS实例迁移 119
6.3 云中数据库负载的自动控制 122
6.4 讨论 126
第7章 结束语 128
参考文献 131

教学资源推荐
作者: 主编 李丹 赵占坤 丁宏伟 石建国 副主编 赵尔丹 钟莲 石彦芳
作者: 周玲艳 张希
作者: [美] 内纳德·尤基克(Nenad Jukic;) 苏珊·维布斯基(Susan Vrbsky) 斯维特洛扎·奈斯特罗夫(Svetlozar Nestorov) 著
参考读物推荐
作者: (美) Brian Larson 著
作者: (美)Karanjit S.Siyan
作者: Thomas Kyte