本书是数据仓库和商业智能领域的又一部经典著作,讲述了整个生命周期各个环节的具体工作,从业务需求的视角,引导读者全面认识下一代数据仓库系统的构架。本书包含了DW2.0详细的定义和描述,此外,书中对数据仓库的结构、内容及其前景进行了介绍。
本书主要面向数据仓库的业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。
DW2.0 下一代数据仓库的构架
DW2.0
The Architecture for the Next Generation of Data Warehousing
(美) W. H. Inmon Derek Strauss Genia Neushloss 著
王志海 王建林 付彬 武婷婷 等译
这个行业很长时间以来就已经需要一个关于数据仓库的定义了,而DW2.0不仅仅提供了这个定义。
—— Dan Meers,弗雷德马克公司企业构架副主席
这本新的著作通过引入生命周期管理、非结构化数据和新的整合元数据的方法,使DW2.0更清晰。
—— Marvin Adams,富达投资公司共享服务主席
第二代数据仓库已经来临!在本书中,数据仓库之父向有较强信息需求的公司展示了一些技术和构架上的可能性,是数据仓库和商业智能领域的又一部经典著作。
本书包含了DW2.0详细的定义和描述,讨论了整个生命周期各个环节的具体工作,从业务需求的视角引导读者全面认识下一代数据仓库系统的构架。
本书特色
对租赁、技术投资、遗留系统的处理等做出正确的决策提供了具体的信息。
充分地解释了在数据仓库环境中非结构化数据的整合。
彻底地讨论了DW2.0的所有相关问题,包括非结构化数据、业务元数据、统计处理和探索处理、安全、粒度和系统性能。
对从DW1.0顺利迁移到DW2.0提供了专家级建议。
作者简介
W. H. Inmon
数据仓库之父。他一直致力于数据库和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理的管理方面撰写了49本著作,发表过1000多篇学术论文。他创建了世界上第一个ETL软件公司,最新成立的一个公司是Forest Rim Technology公司,该公司致力于非结构化数据的存取并将其整合到结构化环境中。
Derek Strauss
Gavroshe公司的创始人、CEO和首席顾问。他拥有28年IT界从业经验和22年信息资源管理及商业智能/数据仓库领域的从业经验。
Genia Neushloss
Gavroshe公司的联合创始人和首席顾问。30多年来,她在保险业、金融业、制造业、采矿业及电信业都拥有相当深厚的管理及技术经验。
数据仓库已经问世二十多年了,它已成为信息技术基础设施的基本组成部分。数据仓库的出现最初是为了满足对信息而不是对数据的企业需求。数据仓库是一个能够为企业提供整合的、粒度的、历史的数据的结构。
然而,数据仓库存在一个问题,即当前对数据仓库还存在多种不同的解释和实现方式。例如,有联合数据仓库、主动数据仓库、星状模式数据仓库、数据集市数据仓库等。实际上,有多少软硬件供应商,就有多少对数据仓库的诠释和实现方式。
还有一个问题就是,对什么样的结构才是数据仓库适合的,也存在着多种不同的解释和实现方式。而且,每一种实现在构架上都与其他的实现有很大区别。如果走进一个房间,里面联合数据仓库的支持者正在与主动数据仓库的支持者交谈,你也许会听到一些相同的词语,但这些词代表的意思却大相径庭。即使使用相同的词语,你听到的可能也不是有意义的交流。当两个不同背景的人交谈时,即使使用相同的词语,也不能保证他们彼此能够相互理解。
于是,今天的第一代数据仓库就处于这种情况下。
在陷入什么是数据仓库或什么不是数据仓库这样的混乱或疑惑的情况下,出现了DW20。DW20是对下一代数据仓库的定义。与术语“数据仓库”不同,DW20有着简明扼要和清晰可辨的含义。本书对其含义进行了论述和定义。
DW20中有很多重要的构架上的特征。这些构架特征代表了DW20相对于第一代数据仓库在技术和构架上的进步。在本书中,我们讨论了DW20的如下几种重要特性:
认识到数据仓库中数据的生命周期。第一代数据仓库仅仅将数据放于磁盘存储器(称之为仓库)中。事实上,数据一旦被置于数据仓库,它就有了自己的生命周期。进入数据仓库后,数据开始老化,数据被访问的可能性也逐渐降低。而数据访问的可能性降低对选择适当的数据管理技术有着深远的含义。另一种现象是,随着数据老化,数据容量会不断增加,并且大多数情况下这种增加是显著的。想要处理访问可能性不断降低的大量数据,就需要一种特定的设计,以免数据仓库的花费巨大,以至于不能有效地使用数据仓库。
当既包含结构化数据又包含非结构化数据时,数据仓库是最有效的方法。典型的第一代数据仓库完全由面向事务的结构化数据组成,这些数据仓库提供了大量有用的信息。然而,现代数据仓库应该同时包含结构化数据和非结构化数据。非结构化数据是一些文本数据,包括医疗记录、合同、电子邮件、电子表格以及很多其他的文档。非结构化数据中存在着大量的信息,但如何获取这些信息却着实是一个挑战。对创建同时包括结构化数据和非结构化数据的数据仓库都有哪些要求的具体描述是DW20中的一个重要部分。
由于多种原因,元数据并没有成为第一代数据仓库的重要组成部分。而在定义第二代数据仓库时,元数据的重要性和作用开始得到认可。在DW20中,问题并不是对于元数据的需求。元数据存在于数据库管理系统目录中,存在于业务对象领域中,存在于ETL数据预处理工具中,等等。我们需要的是企业元数据,是从企业级视角理解元数据,需要调节元数据的所有来源并将它们放置在一个能使它们协调工作的环境中。除此之外,在DW20环境中还需要技术元数据和业务元数据的支持。
数据仓库最终建立在一种技术基础之上。数据仓库是围绕业务需求展开的,这通常会反映在数据模型上。随着时间的推移,企业的业务需求会发生变化,但数据仓库的技术基础却不能很容易地改变。这样,就出现了一个问题,即业务需求持续变化,而技术基础却不变。企业中这种不断变化的业务环境与相对稳定的技术环境之间的矛盾会在机构内形成很紧张的局势。在本书的相关部分中,集中讨论了两种解决方案,用于处理数据仓库中这种变化的业务需求和不变的技术基础之间的难题。一种解决方案是采用诸如Kalido这样的软件,其为数据仓库提供了一种有延展性的技术基础。另一种解决方案是在数据库定义时,通过设计来分离静态数据和临时数据。这两种方案对数据仓库的技术基础随着业务需求的改变而改变来说有很好的效果。
另外,书中还讨论了其他一些重要的话题。其中一些包括:
DW20数据仓库基础设施的在线更新。
ODS适用于哪里?
针对DW20数据仓库的研究处理过程和统计分析。
DW20数据仓库环境下的归档处理。
DW20数据仓库环境下的近线处理。
数据集市及DW20。
数据仓库中的粒度数据和数据容量。
方法论及开发方式。
DW20的数据模型。
本书的一个重要特色是运用示意图来从整体上描绘DW20的环境。示意图是经过多次咨询、研讨才确定的,它代表了DW20中放置在一起的不同组件,是DW20环境的一个基本构架表现。
此外,书中对数据仓库的结构、内容及其前景进行了介绍。本书适用于业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。
计算机\数据库\数据仓库
这个行业很长时间以来就已经需要一个关于数据仓库的定义了,而DW2.0不仅仅提供了这个定义。
——Dan Meers,弗雷德马克公司企业构架副主席
这本新的著作通过引入生命周期管理、非结构化数据和新的整合元数据的方法,使DW2.0更清晰。
——Marvin Adams,富达投资公司共享服务主席
第二代数据仓库已经来临!在本书中,数据仓库之父为有较强信息需求的公司展示了一些技术和构架上的可能性,是数据仓库和商业智能领域的又一部经典著作。
本书包含了DW2.0详细的定义和描述,讨论了整个生命周期各个环节的具体工作,从业务需求的视角,引导读者全面认识下一代数据仓库系统的构架。
本书特色
对租赁、技术投资、遗留系统的处理等做出正确的决策提供了具体的信息。
充分地解释了在数据仓库环境中非结构化数据的整合。
彻底地讨论了DW2.0的所有相关问题,包括非结构化数据、业务元数据、统计处理和探索处理、安全、粒度和系统性能。
对从DW1.0顺利迁移到DW2.0提供了专家级建议。
(美)W. H. Inmon;Derek Strauss;Genia Neushloss著:W. H. Inmon 数据仓库之父。他一直致力于数据库和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理的管理方面撰写了49本著作,发表过1000多篇学术论文。他创建了世界上第一个ETL软件公司,最新成立的一个公司是Forest Rim Technology公司,该公司致力于非结构化数据的存取并将其整合到结构化环境中。 Derek Strauss Gavroshe公司的创始人、CEO和首席顾问。他拥有28年IT界从业经验和22年信息资源管理及商业智能/数据仓库领域的从业经验。 Genia Neushloss Gavroshe公司的联合创始人和首席顾问。30多年来,她在保险业、金融业、制造业、采矿业及电信业都拥有相当深厚的管理及技术经验。
王志海 王建林 付彬 武婷婷 等译:暂无简介
在过去二十年中,数据仓库的概念一直在逐步进化,DW20是对数据仓库概念最新的理解和描述。自从本书作者Bill Inmon首次给出数据仓库定义之后,该定义就一直被众多研究者和开发者所引用。然而,人们常常陷入什么是数据仓库或什么不是数据仓库这样的混乱或疑惑。在这种情况下,DW20尝试对下一代数据仓库进行全方位的定义。与术语“数据仓库”不同,DW20有着简明扼要和清晰可辨的含义,本书对其含义进行了详细的论述和准确的定义。
本书是数据仓库和商业智能领域的又一部经典著作,作者Bill Inmon等人在数据仓库领域享有很高的声誉,他们都长期工作在数据仓库系统开发的第一线,将自己多年的经验和感悟融入到了本书的字里行间。本书讲述了整个生命周期各个环节的具体工作,从业务需求的视角,引导读者全面认识下一代数据仓库系统的构架。本书包含了DW20详细的定义和描述,所有的内容被分为不同的章节,其中每一个章节都相当于该部分内容的白皮书。
此外,书中对数据仓库的结构、内容及其前景进行了介绍。
本书主要面向数据仓库的业务分析人员、信息构架师、系统开发人员、项目经理、数据仓库技术人员、数据库管理员、数据建模人员、数据管理员等。
本书的翻译凝结了许多人的智慧。最初,第1章由付彬翻译,第2章由李波翻译,第3章由邵金刚和李亚飞翻译,第4章由冯瑶翻译,第5章由徐闻琸翻译,第6章由王倚丹翻译,第7章与第8章由张森翻译,第9章由刘雪莲翻译,第10章由毛佳敏翻译,第11章由杨磊翻译,第12章由李志尧翻译,第13章由武婷婷翻译,第14章由郑超翻译,第15章由王鑫翻译,第16章与第17章由俞雪娇翻译,第18章由郑超翻译,第19章由邵晓康翻译,第20章、第21章和第22章由武婷婷翻译,第23章由冯瑶翻译。在此基础上,付彬和武婷婷规范了全书的术语,并进行了认真的修订。冯浩、王世强、邵鲁杰、邵进智、孙兴中、贺一航、秦逞、赵飞国、刘礼辉、王辉、张学勇、刘学军、冯岩、杨迪、黄禹钦以及王中锋等参与了本书翻译的讨论。最后,由北京交通大学王志海教授和滨州学院王建林老师审核了全书。
在翻译过程中,我们无一不被Inmon教授等人的睿智和巨大贡献所打动,秉持“形似、意似、神似”的翻译原则,尽最大的努力,希望奉献给广大读者一部真实反映原著风貌的科技书籍。
当然,要译好一本经典著作并不是一件容易的事情,我们的水平还很欠缺,错误之处还望广大读者批评指正。
译者
2010年1月
出版者的话
译者序
前言
关于作者
第1章数据仓库简史及第一代数据仓库
11数据库管理系统
12在线应用
13个人电脑和4GL技术
14蜘蛛网环境
15企业角度的演化
16数据仓库环境
17什么是数据仓库
18整合数据——一个痛苦的经历
19数据的量
110一种不同的开发方法
111演变到DW20环境
112数据仓库的商业影响
113数据仓库环境的各种组件
1131ETL——抽取/转换/装载
1132ODS——操作数据存储
1133数据集市
1134探索仓库
114数据仓库的演变——从企业的角度
115关于数据仓库的其他观念
116主动数据仓库
117联合数据仓库方法
118星状模式方法
119数据集市数据仓库
120建立一个“真正的”数据仓库
121总结
第2章DW20简介
21DW20——一种新的范式
22DW20——从企业的角度
23数据的生命周期
24设置不同区的原因
25元数据
26数据访问
27结构化数据/非结构化数据
28文本分析
29“废话”
210术语问题
211特定文本/一般文本
212元数据——一个主要组成部分
213本地元数据
214基础技术
215不断变化的业务需求
216DW20中的数据流
217数据量
218实用应用程序
219DW20和参照完整性
220DW20的报告
221总结
第3章DW20组成部分——关于不同区
31交互区
32整合区
33近线区
34归档区
35非结构化处理
36企业用户的观点
37总结
第4章DW20中的元数据
41数据和分析的可复用性
42DW20中的元数据
43主动知识库/被动知识库
44主动知识库
45企业元数据
46元数据和记录系统
47分类
48内部分类/外部分类
49归档区元数据
410维护元数据
411举例说明如何使用元数据
412终端用户的观点
413总结
第5章DW20技术基础设施的流动性
51技术基础设施
52快速的业务改变
53环状改变
54打破循环
55缩短IT响应时间
56语义暂态、语义常态数据
57语义暂态数据
58语义稳定的数据
59混合语义稳定和不稳定数据
510分离语义稳定和不稳定数据
511减缓业务的改变
512创建数据快照
513历史记录
514数据划分
515终端用户的观点
516总结
第6章DW20的方法与途径
61螺旋式方法——主要特点综述
62七流法——总览
63企业参考模型流
64企业知识协调流
65信息工厂开发流
66数据归档定位流
67数据纠正流(旧称数据清理流)
68基础设施流
69整体信息质量管理流
610总结
第7章统计处理和DW20
71两种类型的处理
72使用统计分析
73比较的完整性
74启发式分析
75冻结的数据
76探索型处理
77分析频率
78探索工具
79探索型处理数据的来源
710更新探索数据
711基于项目的数据
712数据集市和探索工具
713数据回流
714在内部使用探索数据
715企业分析员的观点
716总结
第8章数据模型与DW20
81智能路线图
82数据模型和企业
83整合范围
84区别粒状型数据和概括型数据
85数据模型的层次
86数据模型和交互区
87企业数据模型
88模型转化
89数据模型和非结构化数据
810企业用户的观点
811总结
第9章监视DW20环境
91监视DW20环境
92事务监视
93数据质量监视
94数据仓库监视
95事务监视——响应时间
96高峰期处理
97ETL数据质量监视
98数据仓库监视工具
99休眠数据
910企业用户的观点
911总结
第10章DW20与安全
101保护访问数据
102加密技术
103缺点
104防火墙
105使数据脱机
106限制性加密
107直接转储
108数据仓库监视
109检测攻击
1010近线区数据的安全
1011企业用户的观点
1012总结
第11章时间相关数据
111DW20中的所有数据——与时间相关
112交互区中的时间相关性
113DW20其他部分中的数据相关
114整合区中的事务处理
115离散数据
116连续时间段数据
117一个记录序列
118非重叠记录集
119开始和结束一个记录序列
1110数据的连续性
1111时间瓦解数据
1112归档区中的时间相关变量
1113企业用户的观点
1114总结
第12章DW20的数据流
121贯穿整个构架的数据流
122进入交互区
123ETL的角色
124进入整合区的数据流
125进入近线区的数据流
126进入归档区的数据流
127下降的数据访问概率
128数据的异常流
129企业用户的观点
1210总结
第13章ETL处理与DW20
131转换数据状态
132ETL适用范围
133应用数据到企业数据的转换
134ETL工作模式
135源和目标
136ETL映射
137状态转换——实例
138更加复杂的转换
139ETL与吞吐量
1310ETL与元数据
1311ETL与审核记录
1312ETL与数据质量
1313创建ETL
1314代码创建或参数驱动的ETL
1315ETL与丢弃
1316变化数据的捕获
1317ELT
1318企业用户的观点
1319总结
第14章DW20与粒度管理器
141粒度管理器
142提高粒度级别
143过滤数据
144粒度管理器的功能
145本地与第三方粒度管理器的比较
146粒度管理器的并行化
147作为副产品的元数据
148企业用户眼中的粒度管理器
149总结
第15章DW20和性能
151好的性能——DW20的基石
152在线响应时间
153分析响应时间
154数据的流动
155队列
156启发式处理
157分析的生产率和响应时间
158索引
159移除休眠数据
1510终端用户培训
1511监控环境
1512容量规划
1513元数据
1514批处理的并行
1515事务处理的并行
1516工作负荷量的管理
1517数据集市
1518探索工具
1519将事务分为不同的类
1520服务标准协议
1521保护交互区
1522数据分割
1523选择合适的硬件
1524区分“农民”和“探索者”
1525数据的物理分组
1526检查自动产生的代码
1527企业用户的观点
1528总结
第16章迁移
161房屋和城市
162在一个完美情况中迁移
163完美情况几乎永远不会发生
164增量式添加组件
165添加归档区
166建立企业元数据
167建立元数据基础结构
168“吞没”源系统
169作为缓冲器的ETL
1610迁移到非结构化的环境
1611企业用户的观点
1612总结
第17章成本验证和DW20
171DW20的成本值吗
172宏观层次的价值验证
173微观层次的价值验证
174公司B拥有DW20
175生成新的分析
176按步骤执行
177总成本是多少
178考虑公司B
179考虑DW20的成本
1710信息的现实情况
1711DW20真正的经济效益
1712信息的时间价值
1713整合的价值
1714历史信息
1715第一代DW和DW20——在经济效益上的比较
1716企业用户的观点
1717总结
第18章DW20中的数据质量
181DW20中的数据质量工具集
182数据分析工具和逆向工程数据模型
183数据模型种类
184数据分析不一致对自上而下建模的挑战
185总结
第19章DW20和非结构化数据
191DW20和非结构化数据
192文本读取
193在哪里进行文本分析处理
194文本整合
195简单编辑
196无用词
197同义词替换
198同义词串联
199同形异义解析
1910建立主题
1911外部术语表/分类法
1912分词
1913替换拼写
1914跨语言的文本
1915直接搜索
1916间接搜索
1917术语
1918半结构化数据/值=名称数据
1919准备数据所需的技术
1920关系数据库
1921结构化/非结构化连接
1922企业用户的观点
1923总结
第20章DW20与记录系统
201其他记录系统
202企业用户的观点
203总结
第21章多方面的话题
211数据集市
212数据集市带来的便利
213转换数据集市数据
214监视DW2.0
215在数据集市间移动数据
216不合格数据
217用以平衡的条目
218重新设置值
219数据修正
2110数据移动的速度
2111数据仓库工具
2112总结
第22章DW20环境中的处理
第23章管理DW20环境
231数据模型
232构架管理
2321确定什么时候需要归档区
2322确定是否需要近线区
233元数据管理
234数据库管理
235数据管理
236系统和技术管理
237DW20环境管理人员的管理
2371优化及优先冲突
2372预算
2373进度表和里程碑的确定
2374资源分配
2375管理咨询人员
238总结