首页>参考读物>计算机科学与技术>数据库

大数据管理概论
作者 : 孟小峰 编著
丛书名 : 大数据管理丛书
出版日期 : 2017-05-17
ISBN : 978-7-111-56440-9
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 207
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书着重介绍大数据的基本概念、架构以及主流的大数据系统等方面内容。主要面向的读者为对大数据领域有兴趣的学生、研究人员和相关从业人员等。

图书前言

陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。
对数据库领域而言,真正的“预流”是Jim Gray和Michael Stone-braker等大师们。十三年前面对“数据库领域还能再活跃30年吗”这一问题,Jim Gray给出的回答是:“不可能。在数据库领域里,我们已经非常狭隘。”但他转而回答到:“SIGMOD这个词中的MOD表示‘数据管理’。对我来说,数据管理包含很多工作,如收集数据、存储数据、组织数据、分析数据和表示数据,特别是数据表示部分。针对数据查询已经做了相当多的工作,但这些工作仅仅围绕查询画了个‘艾普西龙球面’,而没有真正超越它。所以,如果我们还像以前一样把研究与现实脱离开来,还继续保持狭隘的眼光审视自己所做的研究,数据库领域将要消失,因为那些研究越来越偏离实际。现在人们已经拥有太多数据,而我对许多人说我们仅仅希望拥有更多的时间。所以,整个数据收集、数据分析和数据简单化的工作就是能准确地给予人们所要的数据,而不是把所有的数据都提供给他们。这个问题不会消失,而是会变得越来越重要。如果你用一种大而广的眼光看,数据库是一个蓬勃发展的领域;如果采用审视的眼光看,现在做的很多研究对30年后的人们不会产生任何影响”(见《数据库大师访谈录》)。
最近人们提出了“数据湖”,以区别传统的“数据库”技术。两者的差别到底何在呢?偶读了费孝通先生所著的《乡土中国》后,笔者略有所悟。费老分析总结了中国乡土社会结构,指出中国社会呈现出所谓的“差序格局”,而西方社会呈现的是“团体格局”。传统数据库结构关系单一,呈现状态犹如“团体格局”,即以单个实体为本位,实体之间的关系好比一捆柴,几根成一把,几把成一扎,条理清楚,有共同的模式可循。而当下大数据来源广泛,关系复杂,远近亲疏各不同,这种关系就好比“差序格局”,以语义主题为本位,每类实体都以自我为中心按照与其他实体的语义关系为主线结成网络,这个网络按照语义关系的紧密亲疏呈现“差序”状态,就如同湖面丢下的石子形成的水波纹依中心扩散开去的样子。这种状态随着实体间关系的变化而动态演化,并且每个网络的大小不同,体现的语义关系也不同,蕴含的价值也不同。
数据库的“团体格局”本质上是先有模式后有数据,因此数据集成可以采用中介模式(GAV和LAV)以自顶向下的方式实现集成。数据湖的“差序格局”是先有数据后有模式,因此需要按照自底向上的方式以一种大数据融合的方法实现集成。大数据融合即建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中一个个维系我们社会的“水波纹”(即语义关联的紧密程度)。
本书集成了大数据融合、存储、分析、隐私和系统等方面的工作,其组织结构如下:第1章描述大数据的概念、演变过程和处理模式;第2章提出大数据融合的概念,分析大数据融合的独特性和任务,给出大数据融合的方法论;第3章介绍大数据存储与管理方法;第4章描述大数据分析技术,包括实时分析、交互分析、智能分析等;第5章讲述大数据涉及的隐私问题,主要介绍不同领域中的隐私保护问题及其隐私保护技术;第6章介绍大数据管理系统,并分析其体系结构;第7章是基于大数据的交叉学科研究,介绍在线用户行为演化的相关研究。
本书中涉及的研究工作得到众多科研项目的支持,其中包括:国家自然基金重点项目——“大规模关联数据管理的关键技术研究”(编号:61532010);国家自然基金重点项目——“面向大数据内存计算的计算机体系结构”(编号:61532016);国家重点研发项目——“科学大数据管理系统”(编号:2016YFB1000600);中国人民大学重点科学研究基金重大基础研究项目——“社会计算若干关键问题研究”(编号:11XNL010);高等学校博士学科点专项科研基金优先领域课题——“云计算环境下的在线聚集技术研究”(编号:20130004130001);国家自然基金重大研究计划重点项目——“大数据开放与治理中的隐私保护关键技术研究”(编号:91646203)。
本书架构的安排以及统稿、审校工作由孟小峰组织完成,这里要特别感谢王春凯、杜治娟、郭崎、杨晨、王硕、叶青青和李勇,在本书的编写过程中他们给予了极大的帮助。
本书涉及面广,内容丰富,术语量大,如果在阅读过程中发现有不当之处,恳请读者批评指正;如果有任何建议或意见,欢迎发邮件与作者(xfmeng@ruc.edu.cn)联系。

孟小峰
2016年9月28日于北京

上架指导

计算机\数据挖掘

作者简介

孟小峰 编著:
孟小峰,中国人民大学教授,博士生导师。中国计算机学会会士(2013—)、常务理事(2011—2015年)、数据库专委会秘书长(1999—2015年)、大数据专家委员会委员(2012—)。《Journal of Computer Science and Technology》《Frontiers of Computer Science》《软件学报》《计算机研究与发展》等期刊编委。主持或参加过二十多项国家科技攻关项目、国家自然科学基金以及国家863项目、973项目,先后荣获电子部科技进步特等奖(1996年)、北京市科技进步二等奖(1998年,2001年)、中国计算机学会“王选奖”一等奖(2009年)等奖励。

图书目录

丛书前言
前言
作者简介
第1章 概述 1
1.1 大数据的基本概念 1
1.2 大数据的演变过程 2
1.3 大数据应用 4
1.4 大数据的处理模式 6
1.4.1 批处理 7
1.4.2 流处理 8
1.5 大数据管理的关键技术 9
1.5.1 大数据融合 9
1.5.2 大数据分析 10
1.5.3 大数据隐私 11
1.5.4 大数据能耗 12
1.5.5 大数据处理与硬件的协同 13
1.6 小结 15
第2章 大数据融合 16
2.1 引言 16
2.2 大数据融合的概念 17
2.2.1 大数据融合需求的独特性 18
2.2.2 大数据融合对象的独特性 20
2.3 大数据融合的方法论 23
2.3.1 数据库视角下的融合 23
2.3.2 认知计算和人工智能视角下的融合 25
2.3.3 两种融合方式的对比分析 28
2.3.4 大数据融合范式 30
2.4 数据融合技术 32
2.4.1 模式/本体对齐 32
2.4.2 实体链接 33
2.4.3 冲突解决 34
2.4.4 知识库自适应发展 35
2.5 知识融合技术 36
2.5.1 知识抽象与建模 36
2.5.2 关系推演 37
2.5.3 深度知识发现 38
2.5.4 普适机理的剖析和归纳 39
2.6 大数据融合的驱动枢纽 40
2.6.1 智能晶格 40
2.6.2 迁移学习 40
2.6.3 数据溯源 41
2.6.4 D&2V处理 42
2.7 小结 43
第3章 大数据存储 44
3.1 引言 44
3.2 大数据存储与管理方法 46
3.2.1 基于PCM的主存架构 47
3.2.2 基于闪存的主存扩展架构 47
3.2.3 基于多存储介质的分层存储架构 48
3.2.4 分布式存储与缓存架构 49
3.3 基于新型存储的大数据管理 50
3.3.1 存储管理 50
3.3.2 索引管理 51
3.3.3 查询处理 52
3.3.4 事务处理 53
3.3.5 大数据分析 53
3.4 大数据处理与存储一体化技术 54
3.4.1 一体化架构中的大数据存储 55
3.4.2 一体化架构中的大数据处理 56
3.4.3 一体化架构面临的挑战 57
3.5 小结 58
第4章 大数据分析 60
4.1 引言 60
4.1.1 传统的数据分析技术 60
4.1.2 大数据的分析技术 62
4.2 大数据的实时分析 64
4.2.1 实时分析的背景和概念 64
4.2.2 实时分析技术 66
4.3 大数据的交互式分析 70
4.3.1 交互式分析的背景和概念 70
4.3.2 交互式分析技术 71
4.4 云在线聚集 74
4.4.1 云在线聚集技术的背景和概念 74
4.4.2 云在线聚集的关键技术 77
4.5 大数据的智能分析 81
4.5.1 大数据分析中的计算智能 81
4.5.2 智能分析的主要技术 82
4.6 小结 84
第5章 大数据隐私 85
5.1 引言 85
5.1.1 大数据的类型 86
5.1.2 隐私特征与类别 87
5.1.3 大数据的隐私风险 88
5.2 隐私保护技术 91
5.2.1 匿名化技术 91
5.2.2 数据加密技术 92
5.2.3 差分隐私技术 93
5.2.4 隐私信息检索技术 94
5.3 隐私保护技术的应用 94
5.3.1 位置大数据中的隐私保护 95
5.3.2 数据发布和分析中的隐私保护 97
5.3.3 互联网搜索中的隐私保护 101
5.3.4 云计算中的隐私保护 103
5.4 大数据隐私管理 107
5.4.1 隐私管理的目标 107
5.4.2 主动式隐私管理框架 108
5.5 小结 110
第6章 大数据管理系统 111
6.1 引言 111
6.2 云计算:大数据的基础平台与支撑技术 112
6.3 批数据与流数据管理系统 116
6.3.1 批数据管理系统 118
6.3.2 流数据管理系统 119
6.3.3 混合处理系统 120
6.4 SQL、NoSQL与NewSQL系统 121
6.4.1 SQL类数据库 123
6.4.2 NoSQL类数据库 125
6.4.3 NewSQL类数据库 128
6.5 小结 129
第7章 基于大数据的交叉学科研究 131
7.1 引言 131
7.2 在线用户行为演化研究 133
7.2.1 在线用户行为大数据 133
7.2.2 在线用户行为演化 134
7.3 在线用户兴趣长程演化 135
7.3.1 理论与方法 136
7.3.2 在线用户兴趣演化分析 137
7.4 在线用户集体注意力流 141
7.4.1 注意力流网络 142
7.4.2 注意力流网络中的异速标度律 143
7.4.3 注意力流的应用:Web站点排名 144
7.5 在线用户集体注意力流的普适模式 146
7.5.1 异速标度律 147
7.5.2 耗散律 149
7.5.3 引力律 150
7.5.4 Heaps律 151
7.6 小结 152
附录 大数据思考 154
附录A 大数据与小数据 154
附录B 数据的起源 158
附录C 大数据时代的信息系统 161
附录D 数据库(DB)与大数据(BD) 163
附录E 大数据多学科交叉研究 166
附录F 创新数据管理研究2.0 168
附录G 面向移动计算与云计算的数据管理 170
附录H 大数据时代的到来:数据空间与闪存数据库研究 172
附录I 隐私保护研究 175
附录J 网络与移动数据管理研究 176
附录K 大数据管理基石:Web数据管理 178
附录L 大数据管理基石:数据集成 181
附录M 从数据库大师看数据库发展 182
参考文献 185

教学资源推荐
作者: Rebecca M.Riordan
作者: 熊建强,吴保珍,黄文斌
作者: [英]托马斯 M. 康诺利(Thomas M. Connolly) 卡洛琳 E. 贝格(Carolyn E. Begg)著
参考读物推荐