参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 283

开本 : 16

原书名 : Data Warehousing in the Age of Big Data

原出版社: Elsevier (Singapore) Pte Ltd

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

数据仓库专家Krish Krishnan以清晰和简明的讲述，帮助我们理解如何将大数据纳入数据仓库领域。本书的讲述分为三部分。第一部分讨论大数据技术以及用例。第二部分讲述数据仓库技术，包括数据仓库的新架构选择、工作负载和集成技术。第三部分处理大数据和数据仓库的集成，包括数据治理、数据可视化、信息生命周期管理、数据科学家角色变迁等。

图书特色

,

图书前言

Web 2.0改变了我们的生活和工作方式，比如开展业务、与客户沟通、与朋友和家人共享信息、用业务收入和客户花销份额来衡量成功，以及定义品牌管理。最重要的是，它创造了一种独一无二的生财之道。无论是安排度假地点、购买最新型的电视、更换移动服务供应商，还是想要为郊游买最好的食材，你都可以通过互联网查看顾客的评论和读者的推荐。同样，在个人生活中，你可以使用 Facebook、YouTube、iTunes、Instagram和Flickr分享你喜欢的音乐、电影、照片和视频。
当今，企业所提供的产品和服务的个性化为消费者创造了许多机会，同时也大大促进了数据量增大、数据格式（品种）增多和数据生产速度加快。数据的关键价值是，当我们使用地理和人口学数据建模来创建关于相似人群的个性、行为和影响的聚类时，能够找到在数据中隐含的智慧。
向服务的个性化和以客户为中心的商业模式进行转变形成了三个不同的趋势。
众包。这是Jeff Howe于2006年在《连线》杂志上提出的术语。众包是在当今世界使用协同智能研究人类行为的过程。信息管理和个人层次上的推荐共享共同形成了业界的趋势。
众包已演变成一个强有力的工具。它现在在商业上有很多用途，例如寻找有竞争力的研究、客户情感分析和因果分析等。同时还部署了其他的分析模型，例如协作过滤、推荐和机器学习算法。
众包的最佳案例之一是当时身为参议员的奧巴马在2008年的总统候选人提名竞选中筹款。通过使用互联网和社交媒体作为一种个性化的联系渠道，他在筹措资金方面明显超过了其他候选人，从而能够进行有效的竞选。
社交媒体分析。今天的消费者依靠的数据和信息是通过社交媒体渠道获得的，而这些数据和信息又依赖于将这个平台作为其“个人决策支持平台”的广大用户所做出的个人决策。这使得更多的人利用社交媒体作为与客户、合作伙伴和供应商直接和间接的沟通渠道。今天，如果你没有使用社交媒体，那么你是过时的，尤其是与90后和新千年的客户群相比。
如何度量你的社交媒体渠道和沟通策略的有效性？这表明你从哪里开始实施一项社交媒体分析战略。该战略应从两个角度进行度量，包括从内向外和从外向内。在这一领域一个企业的成熟和演变往往需要经过多个阶段。在现在的新闻和互联网上，你会发现一些使用该策略成功进行业务变革的例子。
游戏化。今天的另一个热门趋势是在企业内外使用游戏化策略来吸引员工、客户、潜在客户和任何对你的业务和服务感兴趣的人。
游戏化基于博弈理论和统计模型的组合，在对“长尾”得到的结果进行建模时，这已成为一种非常有效的工具。它也是在Web 2.0时代由Chris Andersson定义的术语，他还专门就这个主题写了一本书。
这一策略最好的例子是在2012年美国总统大选中，竞选策略专家使用博弈论和统计模型寻找目标选民，而且非常有效。奥巴马总统的竞选专门使用这种组合作为一种有效的和颠覆性的策略，从个人层次在候选人和选民之间创建了很多需要的连接。
从Web 2.0的观点来看，所有趋势、理论和成果的共同主线可以归结为两点。
使用Web 2.0平台所需要的数据量远远大于现今企业所用到的。
在计算的历史上，使用统计模型和分析的需求比以往更加强烈。
这两个事实已经被Facebook、Groupon、Google、Yahoo、Apple和其他财富500强公司证明是成功的。
数据带来了如下问题：如何计算海量和多样的数据，以及如何应对数据体量。这是Google、Facebook和Yahoo清楚展示的方式；前者创造了一种新的计算模型，该模型基于文件系统和一种叫作MapReduce的编程语言。MapReduce扩展了搜索引擎的能力，能够同时处理多个查询。2002年，架构师Doug Cutting和Mike Carafella正在做开源搜索引擎项目Nutch，这促使他们基于Google模型来对底层架构进行建模。这也使得Nutch成为一个开源的顶级Apache项目。该项目于2006年被Yahoo所采用，称为Hadoop。在过去的几年中Hadoop成就了大量的公司，这些公司有商业化的解决方案，同时将相应功能回馈给基础的开源项目，这是一种真正基于协作的软件和框架开发。
另外一项技术也演化为一个强大的平台，即NoSQL（Not only SQL）运动。该平台基于Eric Brewer在2002年提出的CAP定理。根据CAP定理，一个数据库不能在任何一个时间点满足ACID兼容的所有规则，同时又是可扩展的和灵活的。然而，在一致性、可用性和分区容忍性三个基本性质中，一个数据库可以满足三个性质中的两个，从而创建可扩展的分布式结构，该架构可以演变成满足水平方向上缩放的可扩展性要求并提供更高的吞吐量，因为在这种环境中计算和存储是非常接近的，同时是一个允许多种一致性级别的分布式架构。
Facebook是NoSQL架构的最早提倡者之一，因为他们要解决用户的可扩展性和可用性要求，其用户量仅次于中国和印度的人口。Cassandra是一个流行的数据库，在Facebook经历了很长时间的开发和使用（现在由于更大的可扩展性需求，它已经被Facebook抛弃）。许多其他公司把它与Hadoop以及其他传统的RDBMS解决方案一起使用。它仍然是一个顶级的Apache项目，并且正在添加更多的功能。
随着这些新技术和商业模式的出现，也出现了大量噪音，并导致了混乱。这些趋势或噪音之一是“数据仓库的死亡”，这在全球都带来了严重影响，因为企业已不只投入数以百万计的美元来搭建这种决策支持平台，而且基于其输出开发了若干下游系统。
作为传统的数据仓库领域和大数据领域中都有经验的数据实践者和咨询师，我开始在数据仓储研究所（TDWI）教授课程，在许多国际峰会和其他会议中谈论大数据和数据仓库，以消除数据仓库的“死亡”所带来的恐怖。在过去四年中，在全球关于这个话题展开了大量讨论之后，我决定写这本书并讨论大数据。包括谁使用大数据，它是如何影响数据仓库世界的，以及数据分析的未来，更重要的是，下一代数据库仓库的概念以及它是如何构建的。
坦白地说，我们将继续构建和使用数据仓库，而且它将仍然是“单一版本的事实”，但我们将不再使用RDBMS作为数据仓库和分析的平台。在写这本书的时候，我们看到每隔几个月，有时是几周，Hadoop、MapReduce和NoSQL就会发生变化，新功能就会浮出水面。人们正在设计和搭建这些架构，它们可以处理大型和复杂的数据，能够在批处理环境中有效处理数据，但是比起关系数据库管理系统在实时和交互能力方面比较有限。该架构的最终状态将是这些架构的异构组合，以共同创建一个强大和巨大的决策支持架构，这个系统的名称依然是数据仓库。
在读这本书时，你会发现三个不同的部分。第一部分讨论大数据，包括大数据技术及来自早期实践者的用例。第二部分介绍数据仓库、它失败的原因、新的架构选项、工作负载、工作负载驱动的架构，以及大数据和数据仓库的集成技术。第三部分涉及数据治理、数据可视化、信息生命周期管理、数据科学家，以及适合大数据的数据仓库。附录包括来自供应商的实现和一个关于如何建立医疗保健信息工厂的案例研究。
本书的总体目标是帮助你了解大数据和数据仓库的复杂层次，同时为你提供关于如何有效使用所有这些技术和架构来设计下一代数据仓库的信息。
下面描述各章的内容和全书组织结构，为你提供阅读路线图。在逐章阅读时，这些章节结合起来就会为你提供简洁而深入的理解。
第一部分：大数据
第1章的重点是让你彻底理解大数据。我们避免使用流行词，探讨了新兴的大数据领域和它对企业的重要性。
第2章的重点是大数据隐含的复杂之处（即三个V—体量、速度以及多样性和多义性），如何处理这些特点，以及在这些主题域有哪些隐藏的陷阱。
第3章重点讨论需要或者设计什么架构以进行大数据处理，还讨论了算法级的方法、分类系统、集群和其他内容。
第4章重点讨论的是为解决大规模数据处理，核心技术是如何演化的。这些技术包括Hadoop及其生态系统、NoSQL数据库和其他技术。这一章对于这些技术的介绍是极其浓缩的，建议你进一步阅读有关这些主题的核心书目。
第5章论述在现实生活中不同公司利用大数据实现价值的各种用例。这些用例涉及B2B、B2C、C2C等场景，该章还介绍在每个场景中是如何定义和实现价值的。
第二部分：数据仓库
第6章重点追溯数据库仓库的起源以及这些年来的演化。该章讨论早期版本的缺陷所导致的数据仓库的失败，以及如何识别和避免这些缺陷。
第7章主要介绍如何以及为什么要现代化数据仓库架构。这将为你提供概念上的思想以及实现上的一些选项。
第8章重点介绍工作负载，及其在数据仓库和大数据领域中的真正含义，理解工作负载的重要性，以及基于工作负载如何创建数据仓库的架构。对于任何数据管理解决方案来说，这都是其未来架构最重要和最关键的方面之一。
第9章重点讨论那些已持续应用到企业中的新兴技术，特别是在处理数据库仓库的性能和可扩展性方面。该章还讨论数据仓库一体机、云计算、数据虚拟化和内存计算。
第三部分：构建大数据-数据仓库
第10章重点介绍将数据仓库与大数据集成的方法和相关的技术，这些技术的采用基于公司的数据类型、当前演化状态和现有技术。
第11章重点讨论在大数据领域中通过部署有效的MDM和元数据策略来创建数据驱动的架构。它强调对数据管理的这两大支柱的需求，特别是在大数据领域。该章还讨论语义层和基于语义网的方法。
第12章的重点是管理大数据的生命周期，包括哪些数据是基本的，在处理前和处理后如何以及在哪里保存数据。还将讨论企业大数据中如果不实现一个鲁棒的ILM策略会带来哪些问题。
第13章涉及使用大数据的最终目标，也就是提供强大的可视化，分析大数据，最重要的是，新兴的数据科学家的角色。这里的目标是为你提供关于这些主题的概念性的想法以及它们如何影响整体的大数据策略。
第14章着重介绍在财富500强企业的下一代数据仓库的实际实施中的最终架构。目的是当你的企业演化到新的数据领域后，为你提供一些面向未来的想法。
附录
附录A展示具体的客户案例研究。
附录B给出建设医疗保健信息工厂的案例研究。

上架指导

计算机\数据库\数据仓库

封底文字

本书从全新的视角讨论数据存储和数据仓库技术，阐明了数据仓库与大数据的关系，并且包含各大企业的数据架构实例。在这个竞争激烈的信息时代，Krishnan给出的不仅是赢得数据成功的路径，更是迈向商业成功的基石。
——　William McKnight, McKnight咨询集团总裁

大数据时代，新的技术和商业模式不断涌现，质疑传统数据仓库的声音甚嚣尘上，而转型和升级均非易事，深陷于此的企业当何去何从？
数据仓库专家Krishnan在本书中为我们提供了详尽的答案。全书共分为三部分，分别讨论了大数据、数据仓库以及二者的集成，涵盖技术、架构和管理等层面，为新一代数据科学家和企业管理者迎接数据世界的挑战提供了理论基础和实践指南。

通过本书，你将学到：
如何利用大数据，如何将大数据与数据仓库有效整合。
了解Google、Microsoft等知名企业如何解决数据架构问题，理解Hadoop、NoSQL、HBase、Hive等技术的基本原理。
在当前数据仓库的基础上，如何进行升级并与新的基础设施集成，从而满足不断增长的数据处理需求。

作者简介
克里什·克里希南（Krish Krishnan） Sixth Sense Advisors公司创始人兼CEO，高性能数据仓库解决方案和非结构化数据方面的策略、架构和实现专家。作为富有远见的数据仓库思想领导者和实践者，他是该领域公认的顶级顾问之一。

作者简介

[美]克里什·克里希南（Krish Krishnan）著：克里什·克里希南（Krish Krishnan） Sixth Sense Advisors公司创始人兼CEO，高性能数据仓库解决方案和非结构化数据方面的策略、架构和实现专家。作为富有远见的数据仓库思想领导者和实践者，他是该领域公认的顶级顾问之一。

译者序

数据仓库最早用于为企业决策提供所有类型数据支撑的大型数据集合。随着大数据时代的到来，数据量越来越大，对数据的处理速度越来越快，同时数据的价值密度也变得越来越小。大数据时代下具有4V特征的数据环境中，数据仓库又会变得怎样呢？本书为回答这一问题做了详细的分析和呈现。
目前对数据仓库进行论述的著作都没有明确指出大数据这一特殊时代的特点以及面临的问题和相应的解决方法，而本书将数据仓库与大数据两者进行了有机融合与统一，从而使得数据仓库技术符合大数据这一特定环境的需求。同时，也为新型企业基于大数据-数据仓库的管理决策提供了有效的途径。
本书逻辑清晰，内容较为全面，具有很强的适用性。全书由三大部分组成，分别为大数据、数据仓库以及构建大数据-数据仓库。第一部分主要包含：大数据简介，使用大数据，大数据处理架构，大数据技术简介，以及大数据驱动的商业价值。第二部分主要包括：再论数据仓库，数据仓库的再造，数据仓库中的工作负载管理，以及应用到数据仓库的新技术。第三部分主要包括：大数据和数据仓库的集成，大数据的数据驱动架构，大数据的信息管理和生命周期，大数据分析、可视化和数据科学家，以及实施大数据-数据仓库的现实情况。值得一提的是，本书还对客户案例研究与建设医疗保健信息工厂两个案例做了分析，有助于读者更好地理解本书。
本书的翻译工作主要由如下人员完成。清华大学信息技术研究院邢春晓研究员负责译稿的审校工作，清华大学信息技术研究院张勇副研究员和中国科学院自动化研究所张桂刚副教授负责本书的翻译工作。

图书目录

译者序
前言
致谢
作者简介
第一部分　大数据
第1章　大数据简介2
1.1　引言2
1.2　大数据2
1.3　大数据的定义4
1.4　为什么需要大数据？为什么是现在4
1.5　大数据示例5
1.5.1　社交媒体的文章5
1.5.2　调查数据分析6
1.5.3　调查数据7
1.5.4　气象数据8
1.5.5　Twitter数据8
1.5.6　集成和分析8
1.5.7　附加数据的类型10
1.6　总结11
延伸阅读11
第2章　使用大数据12
2.1　引言12
2.2　数据爆炸12
2.3　数据体量13
2.3.1　机器数据14
2.3.2　应用日志14
2.3.3　点击流日志14
2.3.4　外部或第三方数据15
2.3.5　电子邮件15
2.3.6　合同15
2.3.7　地理信息系统和地理空间数据16
2.3.8　示例：Funshots公司17
2.4　数据速度19
2.4.1　Amazon、Facebook、Yahoo和Google19
2.4.2　传感器数据19
2.4.3　移动网络20
2.4.4　社交媒体20
2.5　数据多样性21
2.6　总结22
第3章　大数据处理架构23
3.1　引言23
3.2　再论数据处理23
3.3　数据处理技术24
3.4　数据处理基础设施的挑战25
3.4.1　存储25
3.4.2　传输25
3.4.3　处理26
3.4.4　速度或吞吐量26
3.5　全共享架构与无共享架构的比较26
3.5.1　全共享架构27
3.5.2　无共享架构27
3.5.3　OLTP与数据仓库28
3.6　大数据处理28
3.6.1　基础设施方面31
3.6.2　数据处理方面32
3.7　电信大数据研究32
3.7.1　基础设施34
3.7.2　数据处理34
第4章　大数据技术简介35
4.1　引言35
4.2　分布式数据处理36
4.3　大数据处理需求38
4.4　大数据处理技术39
4.5　Hadoop42
4.5.1　Hadoop核心组件43
4.5.2　Hadoop总结69
4.6　NoSQL69
4.6.1　CAP定理69
4.6.2　键-值对：Voldemort70
4.6.3　列簇存储：Cassandra70
4.6.4　文档数据库：Riak76
4.6.5　图数据库77
4.6.6　NoSQL小结78
4.7　文本ETL处理78
延伸阅读79
第5章　大数据驱动的商业价值80
5.1　引言80
5.2　案例研究1：传感器数据81
5.2.1　摘要81
5.2.2　Vestas81
5.2.3　概述81
5.2.4　利用风力发电81
5.2.5　把气候变成资本82
5.2.6　跟踪大数据的挑战83
5.2.7　维持数据中心的能源效率83
5.3　案例研究2：流数据84
5.3.1　摘要84
5.3.2　监控和安全：TerraEchos84
5.3.3　需求84
5.3.4　解决方案84
5.3.5　效益84
5.3.6　先进的光纤网结合实时流数据85
5.3.7　解决方案组件85
5.3.8　扩展安全边界创建战略优势85
5.3.9　关联传感器数据使得假阳性率为零86
5.4　案例研究3：通过大数据分析改善患者预后86
5.4.1　摘要86
5.4.2　业务目标87
5.4.3　挑战87
5.4.4　概述：给从业人员新的洞察以指导患者护理87
5.4.5　挑战：将传统数据仓库生态系统与大数据融合87
5.4.6　解决方案：为大数据分析做好准备88
5.4.7　结果：消除“数据陷阱”88
5.4.8　为什么是aster88
5.4.9　关于Aurora89
5.5　案例研究4：安大略大学技术学院—利用关键数据，提供积极的患者护理89
5.5.1　摘要89
5.5.2　概述89
5.5.3　商业上的收益90
5.5.4　更好地利用数据资源90
5.5.5　智慧医疗保健91
5.5.6　解决方案组件91
5.5.7　融合人类知识与技术92
5.5.8　扩大Artemis的影响92
5.6　案例研究5：微软SQL Server客户解决方案93
5.6.1　客户画像93
5.6.2　解决方案的亮点93
5.6.3　业务需求93
5.6.4　解决方案94
5.6.5　好处94
5.7　案例研究6：以客户为中心的数据集成95
5.7.1　概述95
5.7.2　解决方案设计98
5.7.3　促成更好的交叉销售和追加销售的机会99
5.8　总结100
第二部分　数据仓库
第6章　再论数据仓库102
6.1　引言102
6.2　传统的数据仓库或DW 1.0103
6.2.1　数据架构103
6.2.2　基础设施104
6.2.3　数据仓库的陷阱106
6.2.4　建立数据仓库的架构方法111
6.3　DW 2.0113
6.3.1　Inmon的DW 2.0概述114
6.3.2　DSS 2.0概述115
6.4　总结116
延伸阅读116
第7章　数据仓库的再造118
7.1　引言118
7.2　企业数据仓库平台118
7.2.1　事务型系统119
7.2.2　运营数据存储区119
7.2.3　分段区120
7.2.4　数据仓库120
7.2.5　数据集市120
7.2.6　分析型数据库121
7.2.7　数据仓库的问题121
7.3　再造数据仓库的选择122
7.3.1　平台再造122
7.3.2　平台工程123
7.3.3　数据工程124
7.4　使数据仓库现代化125
7.5　使数据仓库现代化的案例研究127
7.5.1　当前状态分析127
7.5.2　推荐127
7.5.3　现代化的业务收益128
7.5.4　一体机的选择过程128
7.6　总结132
第8章　数据仓库中的工作负载管理133
8.1　引言133
8.2　当前状态133
8.3　工作负载的定义134
8.4　了解工作负载135
8.4.1　数据仓库输出136
8.4.2　数据仓库输入137
8.5　查询分类138
8.5.1　宽/宽138
8.5.2　宽/窄139
8.5.3　窄/宽139
8.5.4　窄/窄139
8.5.5　非结构化/半结构化数据140
8.6　ETL和CDC的工作负载140
8.7　度量141
8.8　当前系统设计的局限142
8.9　新工作负载和大数据143
8.10　技术选择144
8.11　总结144
第9章　应用到数据仓库的新技术145
9.1　引言145
9.2　重新检查数据仓库挑战145
9.2.1　数据加载145
9.2.2　可用性146
9.2.3　数据体量146
9.2.4　存储性能147
9.2.5　查询性能147
9.2.6　数据传输147
9.3　数据仓库一体机147
9.3.1　一体机架构148
9.3.2　一体机中的数据分布149
9.3.3　部署数据仓库一体机最佳实践150
9.3.4　大数据一体机152
9.4　云计算152
9.4.1　基础设施即服务152
9.4.2　平台即服务152
9.4.3　软件即服务153
9.4.4　云基础架构153
9.4.5　云计算给数据仓库带来的好处154
9.4.6　将云计算用于数据仓库所面临的问题154
9.5　数据虚拟化154
9.5.1　数据虚拟化是什么155
9.5.2　提高商务智能性能156
9.5.3　工作负载分布156
9.5.4　实施数据虚拟化项目156
9.5.5　使用数据虚拟化时应避免的误区157
9.5.6　内存技术157
9.5.7　内存架构的好处157
9.6　总结158
延伸阅读158
第三部分　构建大数据-数据仓库
第10章　大数据和数据仓库的集成160
10.1　引言160
10.2　新数据仓库的组件160
10.2.1　数据层161
10.2.2　算法162
10.2.3　技术层163
10.3集成策略164
10.3.1　数据驱动的集成164
10.3.2　物理组件集成和架构167
10.3.3　外部数据集成168
10.4Hadoop与RDBMS169
10.5大数据一体机171
10.6数据虚拟化172
10.7语义框架173
10.7.1　词法处理174
10.7.2　聚类174
10.7.3语义知识处理174
10.7.4信息抽取175
10.7.5可视化175
10.8总结175
第11章　大数据的数据驱动架构176
11.1引言176
11.2元数据177
11.2.1技术元数据177
11.2.2业务元数据178
11.2.3上下文元数据178
11.2.4过程设计级元数据178
11.2.5程序级元数据178
11.2.6基础设施元数据179
11.2.7核心业务元数据179
11.2.8运营元数据179
11.2.9商务智能型元数据180
11.3主数据管理180
11.4处理数据仓库中的数据181
11.5处理大数据的复杂性184
11.5.1处理能力的限制184
11.5.2处理大数据184
11.6机器学习190
11.7总结193
第12章　大数据的信息管理和生命周期195
12.1引言195
12.2信息生命周期管理195
12.2.1目标196
12.2.2信息管理策略196
12.2.3治理196
12.2.4信息生命周期管理的优点200
12.3大数据的信息生命周期管理200
12.3.1示例：信息生命周期管理和社交媒体数据200
12.3.2测量信息生命周期管理的影响202
12.4总结203
第13章　大数据分析、可视化和数据科学家204
13.1引言204
13.2大数据分析204
13.3数据发现206
13.4可视化206
13.5数据科学家的角色变迁207
13.6总结208
第14章　实施大数据-数据仓库的现实情况209
14.1引言：构建大数据-数据仓库209
14.2以客户为中心的业务转型209
14.3Hadoop和MySQL驱动创新212
14.4将大数据集成到数据仓库中214
14.4.1增强决策制订215
14.4.2成果216
14.5总结216
附录A　客户案例研究217
附录B　建设医疗保健信息工厂237
结束语269