DW2.0:下一代数据仓库的构架
作者 : (美)W. H. Inmon;Derek Strauss;Genia Neushloss著
译者 : 王志海 王建林 付彬 武婷婷 等译
丛书名 : 计算机科学丛书
出版日期 : 2010-03-08
ISBN : 978-7-111-28826-8
定价 : 45.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 230
开本 : 16
原书名 : DW 2.0: The Architecture for the Next Generation of Data Warehousing
原出版社: Elsevier
属性分类: 教材
包含CD :
绝版 :
图书简介

本书是数据仓库和商业智能领域的又一部经典著作,讲述了整个生命周期各个环节的具体工作,从业务需求的视角,引导读者全面认识下一代数据仓库系统的构架。本书包含了DW2.0详细的定义和描述,此外,书中对数据仓库的结构、内容及其前景进行了介绍。
本书主要面向数据仓库的业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。

图书特色

DW2.0 下一代数据仓库的构架
DW2.0
The Architecture for the Next Generation of Data Warehousing 
(美) W. H. Inmon  Derek Strauss  Genia Neushloss  著 
王志海 王建林 付彬 武婷婷 等译

这个行业很长时间以来就已经需要一个关于数据仓库的定义了,而DW2.0不仅仅提供了这个定义。
—— Dan Meers,弗雷德马克公司企业构架副主席
这本新的著作通过引入生命周期管理、非结构化数据和新的整合元数据的方法,使DW2.0更清晰。
—— Marvin Adams,富达投资公司共享服务主席

第二代数据仓库已经来临!在本书中,数据仓库之父向有较强信息需求的公司展示了一些技术和构架上的可能性,是数据仓库和商业智能领域的又一部经典著作。
本书包含了DW2.0详细的定义和描述,讨论了整个生命周期各个环节的具体工作,从业务需求的视角引导读者全面认识下一代数据仓库系统的构架。
本书特色
对租赁、技术投资、遗留系统的处理等做出正确的决策提供了具体的信息。
充分地解释了在数据仓库环境中非结构化数据的整合。
彻底地讨论了DW2.0的所有相关问题,包括非结构化数据、业务元数据、统计处理和探索处理、安全、粒度和系统性能。
对从DW1.0顺利迁移到DW2.0提供了专家级建议。

作者简介
W. H. Inmon
数据仓库之父。他一直致力于数据库和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理的管理方面撰写了49本著作,发表过1000多篇学术论文。他创建了世界上第一个ETL软件公司,最新成立的一个公司是Forest Rim Technology公司,该公司致力于非结构化数据的存取并将其整合到结构化环境中。

Derek Strauss
Gavroshe公司的创始人、CEO和首席顾问。他拥有28年IT界从业经验和22年信息资源管理及商业智能/数据仓库领域的从业经验。

Genia Neushloss
Gavroshe公司的联合创始人和首席顾问。30多年来,她在保险业、金融业、制造业、采矿业及电信业都拥有相当深厚的管理及技术经验。

图书前言

数据仓库已经问世二十多年了,它已成为信息技术基础设施的基本组成部分。数据仓库的出现最初是为了满足对信息而不是对数据的企业需求。数据仓库是一个能够为企业提供整合的、粒度的、历史的数据的结构。
然而,数据仓库存在一个问题,即当前对数据仓库还存在多种不同的解释和实现方式。例如,有联合数据仓库、主动数据仓库、星状模式数据仓库、数据集市数据仓库等。实际上,有多少软硬件供应商,就有多少对数据仓库的诠释和实现方式。
  还有一个问题就是,对什么样的结构才是数据仓库适合的,也存在着多种不同的解释和实现方式。而且,每一种实现在构架上都与其他的实现有很大区别。如果走进一个房间,里面联合数据仓库的支持者正在与主动数据仓库的支持者交谈,你也许会听到一些相同的词语,但这些词代表的意思却大相径庭。即使使用相同的词语,你听到的可能也不是有意义的交流。当两个不同背景的人交谈时,即使使用相同的词语,也不能保证他们彼此能够相互理解。
  于是,今天的第一代数据仓库就处于这种情况下。
  在陷入什么是数据仓库或什么不是数据仓库这样的混乱或疑惑的情况下,出现了DW20。DW20是对下一代数据仓库的定义。与术语“数据仓库”不同,DW20有着简明扼要和清晰可辨的含义。本书对其含义进行了论述和定义。
DW20中有很多重要的构架上的特征。这些构架特征代表了DW20相对于第一代数据仓库在技术和构架上的进步。在本书中,我们讨论了DW20的如下几种重要特性:
   认识到数据仓库中数据的生命周期。第一代数据仓库仅仅将数据放于磁盘存储器(称之为仓库)中。事实上,数据一旦被置于数据仓库,它就有了自己的生命周期。进入数据仓库后,数据开始老化,数据被访问的可能性也逐渐降低。而数据访问的可能性降低对选择适当的数据管理技术有着深远的含义。另一种现象是,随着数据老化,数据容量会不断增加,并且大多数情况下这种增加是显著的。想要处理访问可能性不断降低的大量数据,就需要一种特定的设计,以免数据仓库的花费巨大,以至于不能有效地使用数据仓库。
   当既包含结构化数据又包含非结构化数据时,数据仓库是最有效的方法。典型的第一代数据仓库完全由面向事务的结构化数据组成,这些数据仓库提供了大量有用的信息。然而,现代数据仓库应该同时包含结构化数据和非结构化数据。非结构化数据是一些文本数据,包括医疗记录、合同、电子邮件、电子表格以及很多其他的文档。非结构化数据中存在着大量的信息,但如何获取这些信息却着实是一个挑战。对创建同时包括结构化数据和非结构化数据的数据仓库都有哪些要求的具体描述是DW20中的一个重要部分。
   由于多种原因,元数据并没有成为第一代数据仓库的重要组成部分。而在定义第二代数据仓库时,元数据的重要性和作用开始得到认可。在DW20中,问题并不是对于元数据的需求。元数据存在于数据库管理系统目录中,存在于业务对象领域中,存在于ETL数据预处理工具中,等等。我们需要的是企业元数据,是从企业级视角理解元数据,需要调节元数据的所有来源并将它们放置在一个能使它们协调工作的环境中。除此之外,在DW20环境中还需要技术元数据和业务元数据的支持。
   数据仓库最终建立在一种技术基础之上。数据仓库是围绕业务需求展开的,这通常会反映在数据模型上。随着时间的推移,企业的业务需求会发生变化,但数据仓库的技术基础却不能很容易地改变。这样,就出现了一个问题,即业务需求持续变化,而技术基础却不变。企业中这种不断变化的业务环境与相对稳定的技术环境之间的矛盾会在机构内形成很紧张的局势。在本书的相关部分中,集中讨论了两种解决方案,用于处理数据仓库中这种变化的业务需求和不变的技术基础之间的难题。一种解决方案是采用诸如Kalido这样的软件,其为数据仓库提供了一种有延展性的技术基础。另一种解决方案是在数据库定义时,通过设计来分离静态数据和临时数据。这两种方案对数据仓库的技术基础随着业务需求的改变而改变来说有很好的效果。
  另外,书中还讨论了其他一些重要的话题。其中一些包括:
   DW20数据仓库基础设施的在线更新。
   ODS适用于哪里?
   针对DW20数据仓库的研究处理过程和统计分析。
   DW20数据仓库环境下的归档处理。
   DW20数据仓库环境下的近线处理。
   数据集市及DW20。
   数据仓库中的粒度数据和数据容量。
   方法论及开发方式。
   DW20的数据模型。
  本书的一个重要特色是运用示意图来从整体上描绘DW20的环境。示意图是经过多次咨询、研讨才确定的,它代表了DW20中放置在一起的不同组件,是DW20环境的一个基本构架表现。
  此外,书中对数据仓库的结构、内容及其前景进行了介绍。本书适用于业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。

上架指导

计算机\数据库\数据仓库

封底文字

这个行业很长时间以来就已经需要一个关于数据仓库的定义了,而DW2.0不仅仅提供了这个定义。
——Dan Meers,弗雷德马克公司企业构架副主席

这本新的著作通过引入生命周期管理、非结构化数据和新的整合元数据的方法,使DW2.0更清晰。
——Marvin Adams,富达投资公司共享服务主席

第二代数据仓库已经来临!在本书中,数据仓库之父为有较强信息需求的公司展示了一些技术和构架上的可能性,是数据仓库和商业智能领域的又一部经典著作。
本书包含了DW2.0详细的定义和描述,讨论了整个生命周期各个环节的具体工作,从业务需求的视角,引导读者全面认识下一代数据仓库系统的构架。

本书特色
 对租赁、技术投资、遗留系统的处理等做出正确的决策提供了具体的信息。
 充分地解释了在数据仓库环境中非结构化数据的整合。
 彻底地讨论了DW2.0的所有相关问题,包括非结构化数据、业务元数据、统计处理和探索处理、安全、粒度和系统性能。
 对从DW1.0顺利迁移到DW2.0提供了专家级建议。

作者简介

(美)W. H. Inmon;Derek Strauss;Genia Neushloss著:W. H. Inmon 数据仓库之父。他一直致力于数据库和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理的管理方面撰写了49本著作,发表过1000多篇学术论文。他创建了世界上第一个ETL软件公司,最新成立的一个公司是Forest Rim Technology公司,该公司致力于非结构化数据的存取并将其整合到结构化环境中。 Derek Strauss Gavroshe公司的创始人、CEO和首席顾问。他拥有28年IT界从业经验和22年信息资源管理及商业智能/数据仓库领域的从业经验。 Genia Neushloss Gavroshe公司的联合创始人和首席顾问。30多年来,她在保险业、金融业、制造业、采矿业及电信业都拥有相当深厚的管理及技术经验。

译者简介

王志海 王建林 付彬 武婷婷 等译:暂无简介

译者序

在过去二十年中,数据仓库的概念一直在逐步进化,DW20是对数据仓库概念最新的理解和描述。自从本书作者Bill Inmon首次给出数据仓库定义之后,该定义就一直被众多研究者和开发者所引用。然而,人们常常陷入什么是数据仓库或什么不是数据仓库这样的混乱或疑惑。在这种情况下,DW20尝试对下一代数据仓库进行全方位的定义。与术语“数据仓库”不同,DW20有着简明扼要和清晰可辨的含义,本书对其含义进行了详细的论述和准确的定义。
  本书是数据仓库和商业智能领域的又一部经典著作,作者Bill Inmon等人在数据仓库领域享有很高的声誉,他们都长期工作在数据仓库系统开发的第一线,将自己多年的经验和感悟融入到了本书的字里行间。本书讲述了整个生命周期各个环节的具体工作,从业务需求的视角,引导读者全面认识下一代数据仓库系统的构架。本书包含了DW20详细的定义和描述,所有的内容被分为不同的章节,其中每一个章节都相当于该部分内容的白皮书。
此外,书中对数据仓库的结构、内容及其前景进行了介绍。
  本书主要面向数据仓库的业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。
  本书的翻译凝结了许多人的智慧。最初,第1章由付彬翻译,第2章由李波翻译,第3章由邵金刚和李亚飞翻译,第4章由冯瑶翻译,第5章由徐闻琸翻译,第6章由王倚丹翻译,第7章与第8章由张森翻译,第9章由刘雪莲翻译,第10章由毛佳敏翻译,第11章由杨磊翻译,第12章由李志尧翻译,第13章由武婷婷翻译,第14章由郑超翻译,第15章由王鑫翻译,第16章与第17章由俞雪娇翻译,第18章由郑超翻译,第19章由邵晓康翻译,第20章、第21章和第22章由武婷婷翻译,第23章由冯瑶翻译。在此基础上,付彬和武婷婷规范了全书的术语,并进行了认真的修订。冯浩、王世强、邵鲁杰、邵进智、孙兴中、贺一航、秦逞、赵飞国、刘礼辉、王辉、张学勇、刘学军、冯岩、杨迪、黄禹钦以及王中锋等参与了本书翻译的讨论。最后,由北京交通大学王志海教授和滨州学院王建林老师审核了全书。
  在翻译过程中,我们无一不被Inmon教授等人的睿智和巨大贡献所打动,秉持“形似、意似、神似”的翻译原则,尽最大的努力,希望奉献给广大读者一部真实反映原著风貌的科技书籍。
  当然,要译好一本经典著作并不是一件容易的事情,我们的水平还很欠缺,错误之处还望广大读者批评指正。
译者
2010年1月

图书目录

出版者的话
译者序
前言
关于作者
第1章数据仓库简史及第一代数据仓库
11数据库管理系统
12在线应用
13个人电脑和4GL技术
14蜘蛛网环境
15企业角度的演化
16数据仓库环境
17什么是数据仓库
18整合数据——一个痛苦的经历
19数据的量
110一种不同的开发方法
111演变到DW20环境
112数据仓库的商业影响
113数据仓库环境的各种组件
1131ETL——抽取/转换/装载
1132ODS——操作数据存储
1133数据集市
1134探索仓库
114数据仓库的演变——从企业的角度
115关于数据仓库的其他观念
116主动数据仓库
117联合数据仓库方法
118星状模式方法
119数据集市数据仓库
120建立一个“真正的”数据仓库
121总结
第2章DW20简介
21DW20——一种新的范式
22DW20——从企业的角度
23数据的生命周期
24设置不同区的原因
25元数据
26数据访问
27结构化数据/非结构化数据
28文本分析
29“废话”
210术语问题
211特定文本/一般文本
212元数据——一个主要组成部分
213本地元数据
214基础技术
215不断变化的业务需求
216DW20中的数据流
217数据量
218实用应用程序
219DW20和参照完整性
220DW20的报告
221总结
第3章DW20组成部分——关于不同区
31交互区
32整合区
33近线区
34归档区
35非结构化处理
36企业用户的观点
37总结
第4章DW20中的元数据
41数据和分析的可复用性
42DW20中的元数据
43主动知识库/被动知识库
44主动知识库
45企业元数据
46元数据和记录系统
47分类
48内部分类/外部分类
49归档区元数据
410维护元数据
411举例说明如何使用元数据
412终端用户的观点
413总结
第5章DW20技术基础设施的流动性
51技术基础设施
52快速的业务改变
53环状改变
54打破循环
55缩短IT响应时间
56语义暂态、语义常态数据
57语义暂态数据
58语义稳定的数据
59混合语义稳定和不稳定数据
510分离语义稳定和不稳定数据
511减缓业务的改变
512创建数据快照
513历史记录
514数据划分
515终端用户的观点
516总结
第6章DW20的方法与途径
61螺旋式方法——主要特点综述
62七流法——总览
63企业参考模型流
64企业知识协调流
65信息工厂开发流
66数据归档定位流
67数据纠正流(旧称数据清理流)
68基础设施流
69整体信息质量管理流
610总结
第7章统计处理和DW20
71两种类型的处理
72使用统计分析
73比较的完整性
74启发式分析
75冻结的数据
76探索型处理
77分析频率
78探索工具
79探索型处理数据的来源
710更新探索数据
711基于项目的数据
712数据集市和探索工具
713数据回流
714在内部使用探索数据
715企业分析员的观点
716总结
第8章数据模型与DW20
81智能路线图
82数据模型和企业
83整合范围
84区别粒状型数据和概括型数据
85数据模型的层次
86数据模型和交互区
87企业数据模型
88模型转化
89数据模型和非结构化数据
810企业用户的观点
811总结
第9章监视DW20环境
91监视DW20环境
92事务监视
93数据质量监视
94数据仓库监视
95事务监视——响应时间
96高峰期处理
97ETL数据质量监视
98数据仓库监视工具
99休眠数据
910企业用户的观点
911总结
第10章DW20与安全
101保护访问数据
102加密技术
103缺点
104防火墙
105使数据脱机
106限制性加密
107直接转储
108数据仓库监视
109检测攻击
1010近线区数据的安全
1011企业用户的观点
1012总结
第11章时间相关数据
111DW20中的所有数据——与时间相关
112交互区中的时间相关性
113DW20其他部分中的数据相关
114整合区中的事务处理
115离散数据
116连续时间段数据
117一个记录序列
118非重叠记录集
119开始和结束一个记录序列
1110数据的连续性
1111时间瓦解数据
1112归档区中的时间相关变量
1113企业用户的观点
1114总结
第12章DW20的数据流
121贯穿整个构架的数据流
122进入交互区
123ETL的角色
124进入整合区的数据流
125进入近线区的数据流
126进入归档区的数据流
127下降的数据访问概率
128数据的异常流
129企业用户的观点
1210总结
第13章ETL处理与DW20
131转换数据状态
132ETL适用范围
133应用数据到企业数据的转换
134ETL工作模式
135源和目标
136ETL映射
137状态转换——实例
138更加复杂的转换
139ETL与吞吐量
1310ETL与元数据
1311ETL与审核记录
1312ETL与数据质量
1313创建ETL
1314代码创建或参数驱动的ETL
1315ETL与丢弃
1316变化数据的捕获
1317ELT
1318企业用户的观点
1319总结
第14章DW20与粒度管理器
141粒度管理器
142提高粒度级别
143过滤数据
144粒度管理器的功能
145本地与第三方粒度管理器的比较
146粒度管理器的并行化
147作为副产品的元数据
148企业用户眼中的粒度管理器
149总结
第15章DW20和性能
151好的性能——DW20的基石
152在线响应时间
153分析响应时间
154数据的流动
155队列
156启发式处理
157分析的生产率和响应时间
158索引
159移除休眠数据
1510终端用户培训
1511监控环境
1512容量规划
1513元数据
1514批处理的并行
1515事务处理的并行
1516工作负荷量的管理
1517数据集市
1518探索工具
1519将事务分为不同的类
1520服务标准协议
1521保护交互区
1522数据分割
1523选择合适的硬件
1524区分“农民”和“探索者”
1525数据的物理分组
1526检查自动产生的代码
1527企业用户的观点
1528总结
第16章迁移
161房屋和城市
162在一个完美情况中迁移
163完美情况几乎永远不会发生
164增量式添加组件
165添加归档区
166建立企业元数据
167建立元数据基础结构
168“吞没”源系统
169作为缓冲器的ETL
1610迁移到非结构化的环境
1611企业用户的观点
1612总结
第17章成本验证和DW20
171DW20的成本值吗
172宏观层次的价值验证
173微观层次的价值验证
174公司B拥有DW20
175生成新的分析
176按步骤执行
177总成本是多少
178考虑公司B
179考虑DW20的成本
1710信息的现实情况
1711DW20真正的经济效益
1712信息的时间价值
1713整合的价值
1714历史信息
1715第一代DW和DW20——在经济效益上的比较
1716企业用户的观点
1717总结
第18章DW20中的数据质量
181DW20中的数据质量工具集
182数据分析工具和逆向工程数据模型
183数据模型种类
184数据分析不一致对自上而下建模的挑战
185总结
第19章DW20和非结构化数据
191DW20和非结构化数据
192文本读取
193在哪里进行文本分析处理
194文本整合
195简单编辑
196无用词
197同义词替换
198同义词串联
199同形异义解析
1910建立主题
1911外部术语表/分类法
1912分词
1913替换拼写
1914跨语言的文本
1915直接搜索
1916间接搜索
1917术语
1918半结构化数据/值=名称数据
1919准备数据所需的技术
1920关系数据库
1921结构化/非结构化连接
1922企业用户的观点
1923总结
第20章DW20与记录系统
201其他记录系统
202企业用户的观点
203总结
第21章多方面的话题
211数据集市
212数据集市带来的便利
213转换数据集市数据
214监视DW2.0
215在数据集市间移动数据
216不合格数据
217用以平衡的条目
218重新设置值
219数据修正
2110数据移动的速度
2111数据仓库工具
2112总结
第22章DW20环境中的处理
第23章管理DW20环境
231数据模型
232构架管理
2321确定什么时候需要归档区
2322确定是否需要近线区
233元数据管理
234数据库管理
235数据管理
236系统和技术管理
237DW20环境管理人员的管理
2371优化及优先冲突
2372预算
2373进度表和里程碑的确定
2374资源分配
2375管理咨询人员
238总结

教学资源推荐
作者: 李维勇 主编 杜亚杰 张以利 陈宇 参编
作者: 董洁 主编 李晓理 孙铁 王粉花 王丽君 编著
作者: 林成森 史九林 周建兰 徐进鸿 徐洁磐 编著
作者: [美]伊恩·福斯特(Ian Foster) 丹尼斯·B. 甘农(Dennis B. Gannon) 著
参考读物推荐
作者: [美] 迈克尔·弗里曼(Michael Freeman), 乔尔·罗斯(Joel Ross) 著
作者: (美)Johnny Cache,Joshua Wright, Vincent Liu 著