本书系统讲述数据仓库的基本概念、基本原理以及建立数据仓库的方法和过程。主要内容包括:数据仓库和商务智能概述,建立商务智能和数据仓库的策略与计划,项目中的角色和职责,商务智能的数据集市及用途,企业数据模型和数据仓库体系结构等。本书作者经验丰富,提供了大量一线开发经验,为正确实施数据仓库和商务智能提供了行之有效的解决方案。适合构建数据仓库的开发人员、管理人员参考。
开发可定制的、灵活的数据仓库和商务智能架构
本书全面系统地讲解如何规划、设计、构建和管理数据仓库/商务智能解决方案。本书介绍在数据仓库开发项目中如何激励用户,在整个企业范围内更好地驱动决策制定,从专业的开发人员获取详细的指导和最佳实践经验。本书内容涉及如何选择恰当的组件、构建企业数据模型、配置数据集市和数据仓库、构建数据流并降低风险,还涉及项目开发中变更管理、数据监理和安全方面的问题。
本书主要内容:
● 理解数据仓库系统和商务智能组件。
● 建立项目目标并有效制定部署计划。
● 用数据挖掘发现组织内业务见解。
● 使用ETL技术对数据进行输入、清洗和规范化。
● 使用结构化输入文件来定义数据需求。
● 使用自上而下、自下而上、混合的设计方式。
● 使用数据监理工具来处理安全和性能优化问题。
本书对数据仓库世界中很多主题进行了探讨。本书旨在从业务和技术角度说明数据仓库系统的构建,侧重于简单朴实地描述如何构建切实的解决方案。这些见解来源于我30多年在20多个国家中50多家企业的亲身经历,在这些经历中,我曾作为独立顾问、员工以及IBM产业模式和资产实验室的合伙人,见证了很多数据仓库的实施过程。
本书介绍了构建数据仓库的组件和不同选择,以及选择某种方式的利弊。每家企业的数据仓库构建都是具有其特色的,但可以借鉴全球范围内很多企业的各种数据仓库和商务智能环境中获取的知识。本书首先从高层角度介绍了数据仓库主题,以确保对术语和上下文理解一致,然后详细说明了各个主题。这些主题都和数据仓库、商务智能和性能管理相关。
对于数据仓库的构建不存在规则,但是有很多指南。本书的主要根本点是根据具体的和对业务需求的理解,构建适应特定企业需求的解决方案,同时为今后的工作创建一个开放、灵活的架构基础。很多企业在初始包含商务智能报表的集中式数据仓库的构建上花费了大量的预算,结果却发现其创建的解决方案过于具体,只适合一两个用途,而无法满足后期的需求。当然,我们无法对未来进行预测,但是可以在一定程度上预期今后的数据需求和使用方式,确保设计和构建环境灵活、开放,对于变化可扩展而不需要每次重新设计和构建。
很多企业的领导人意识到企业数据是企业的基础资产,必须对它进行组织、结构化和维护,以保证其业务信息有较好的质量和管理,从而在整个企业范围内共享。如果没有信息系统,企业就无法运作,而如果没有商业目的,信息系统就不复存在。它们相互依存,应该充分意识到信息架构和使用方式,以使得企业变得更加智慧。
本书结构
第一部分:准备
第一部分介绍商务智能和数据仓库的基础概念,旨在介绍基础知识,为管理工作奠定基础。
第1章:数据仓库和商务智能概述该章概要介绍了商务智能和数据仓库,最后提出了和数据仓库实现相关的高层次问题。
第2章:企业中的数据该章探讨了数据如何作为企业资产,并提出关于如何组织数据的见解。
第3章:为什么创建数据仓库该章探讨了支持和反对构建数据仓库的各种理由。“支持”的理由在于已经有一些构建数据仓库的经典场景,而“反对”的理由在于企业的文化和局限性能否推动项目向前发展。
第4章:数据仓库和商务智能战略该章给出了构建数据仓库和商务智能行动的一些规划,探讨从何处以及如何启动项目,这取决于这项工作是面向商业报表解决方案,还是努力将数据进行组织和结构化。
第5章:项目资源:角色和洞察力该章讨论了数据仓库项目的关键角色,以及最佳实践的团队结构。
第6章:项目总结概论该章简要介绍了项目章程、项目范畴和工作说明书的内容。
第二部分:组件
第二部分介绍了数据仓库系统的基础组件,深入分析了数据仓库和商务智能系统的技术方面。这部分具体探讨了数据仓库系统中用以维护企业资产和提供商务智能支持工作的各个组件。
第7章:商务智能:数据集市及其使用方式该章从数据模型到性能问题,详细探讨了数据集市及其使用方式。
第8章:企业数据模型该章讨论了企业数据模型、如何构建企业数据模型的一些实例以及一般问题。
第9章:数据仓库架构:组件该章从建模和数据流角度探讨了数据仓库架构的不同类型。
第10章:ETL和数据质量该章探讨了数据仓库中的数据采集层和分发层的一些普遍特征,并提出关于数据质量问题的一些见解。
第11章:项目规划和方法论该章讨论了数据仓库和商务智能项目规划的一些方法。
第三部分:构建
第三部分从实践角度说明了如何构建数据仓库系统。这部分旨在介绍经典的构建场景和工作,以及数据监理和对后期工作的审查。
第12章:工作场景该章介绍了如何使用自上而下、自下而上和混合式方法来构建数据仓库和商务智能系统,并讨论了一些其他主题,包括简要介绍企业信息架构。
第13章:数据监理该章探讨了企业数据监理,包括企业结构、数据质量、所有权和变更管理。
第14章:项目后评审该章探讨了数据仓库和商务智能项目在开发完成后的一些方面。
本书力争做到成为构建数据仓库系统的完整指南,目标是理解当今数据仓库系统中的很多问题,并从多个角度提出自己的观点。作者希望本书能够帮助你构建好自己的数据仓库。
希望你喜欢本书!
致谢
特别感谢本书的技术编辑David Marcotte 和 Ken Yu,感谢他们帮我审查书稿,并提出他们的观点和建议。他们的宝贵意见为本书最终的成功出版提供了方向指引。真心感激!
David Marcotte是全球性零售业和分析业的大师,他拥有该行业的渊博知识。
Ken Yu是数据设计和数据流方面的技术专家,他在很多部门工作过,积累了对数据建模和数据架构的很多实践经验和常识性方法。
特别感谢我的妻子Rakhee Laberge(工商管理硕士),感谢她对本书的审查以及提出的很多意见和建议。
Robert (Bob)Laberge
联系方式:datawarehousementor@gmailcom
计算机\数据挖掘
开发可定制的、灵活的数据仓库和商务智能架构
本书全面系统地讲解如何规划、设计、构建和管理数据仓库/商务智能解决方案。介绍在数据仓库开发项目中如何激励用户,在整个企业范围内更好地驱动决策制定,从专业的开发和培训人员获取详细的指导和最佳实践经验。本书内容涉及如何选择恰当的组件、构建企业数据模型、配置数据集市和数据仓库、构建数据流并降低风险,还涉及项目开发中变更管理、数据监理和安全方面的问题。
主要内容:
理解BI和数据仓库系统组件
建立项目目标并有效制定部署计划
用数据挖掘发现组织内业务见解
使用ETL技术对数据进行输入、清洗和规范化
使用结构化输入文件来定义数据需求
使用自上而下、自下而上、混合的设计方式
使用数据监理工具来处理安全和性能优化问题
(美)Robert Laberge 著:暂无简介
祝洪凯 李妹芳 译:暂无简介
数据仓库和商务智能在各个领域的应用已经如火如荼。本书作者给我们分享了他30多年的工作经验。本书涉及面广泛,内容全面,从基础概念的介绍、各个组件的剖析,到实践中的问题,作者都给出了细致的描述,深入浅出、高屋建瓴地阐述了数据仓库和商务智能的方方面面。本书理论和实践相结合,是一本不错的数据仓库和商务智能方面的整体指南。
本书分为三个部分来讲解数据仓库这个复杂系统,以及实现商务智能的有效方案。第一部分介绍了关于商务智能和数据仓库的基础概念,旨在介绍基础知识,为管理者思考为何、如何建立数据仓库提供了思考的方向。第二部分介绍数据仓库系统的基础组件,这部分涉及数据仓库和商务智能系统的技术方面,探讨了如何建立数据仓库系统,来维护企业资产并提供商务智能支持工作。第三部分从实践角度说明了如何构建数据仓库系统,包括经典的构建场景以及后期工作。
说实话,业余翻译了几本书,总是很担心译得不好误导了读者。在翻译的过程中我们查阅了大量文献和网络资源,为了译好一些不常见的词汇也反复琢磨了作者原意。但是还是觉得时间紧迫,翻译仓促,惶恐不安。在这里要感谢机械工业出版社华章分社编辑吴怡老师的很多辛苦付出,也感谢所有其他为本书付出努力的编辑们。
由于时间、精力、能力有限,本书的疏漏、错误之处在所难免,还望各位读者不吝指正。
译者序
前言
作者简介
第一部分准备
第1章数据仓库和商务智能概述
11商务智能概述
111定义
112商务智能的价值
113剖析商务智能
114商务智能的成功要素
115商务智能的目标
116BI用户展现层
117BI工具和架构
118全球化带来的发展
12数据仓库概述
121定义
122数据仓库系统
123数据仓库架构
124数据流术语
125数据仓库目标
126数据结构化策略
127数据仓库业务
13常见问题
131当前系统是否足够好
132数据仓库的价值
133成本多高
134时间多长
135成功的因素
第2章企业中的数据
21企业资产
211具有上下文的数据
212数据质量
213数据字典
214数据组件
22组织数据
221对数据结构化
222数据模型
223数据架构
23竞争优势
231构建还是购买数据模型
232指导业务
第3章为什么创建数据仓库
31平台迁移
311业务连续性
312逆向工程
313数据质量
314并行环境
315附加值
32数据仓库集中化
321企业间并购
322企业内合并
323集中式设计和局部使用
33数据集市整合
34新方案
35新方案:动态报表
36“Just Build It”模式
37数据Floundation
38不构建数据仓库的原因
381数据质量差
382缺乏商业目标
383缺乏管理层支持
384目标不明确
385当前系统足够用
386缺乏人才资源
387环境不稳定
388成本太高
389管理不善
第4章数据仓库和商务智能战略
41商务智能战略
411商业目标
412商业用途
413架构概览
42数据仓库战略
421用途
422数据仓库架构
43重点和成功
431整个企业还是业务线
432目标明确
433成功:衡量的标准是什么
44从何处着手
441关于商务智能
442关于数据仓库
45如何开始
451关于商务智能
452关于数据仓库
46项目阶段化
47需要多长时间(重新回顾)
48兴趣点
481常见的失败原因
482基本原则
第5章项目资源:角色和洞察力
51关键点
511项目团队
512资深专业知识
513领导力
514项目发起人
515数据仓库管理层
52团队结构
521管理层发起人
522数据管家
523基本资源
53定期审查:进度审核
54能力中心
第6章项目总结概论
61项目章程
62项目范畴
63工作说明书
第二部分组件
第7章商务智能:数据集市及其使用方式
71为什么要对数据建模
711数据模型的类型
712数据设计
72事实表
721事实的类型
722事实表的类型
723衡量指标来源
724事实表关键字
725事实表粒度
726事实表密度
727无事实的事实表
73维度表
731维度还是指标
732历史表和日期表
733维度表关键字
734维度表的粒度
735维度属性的来源和价值
736维度类型
737级别和辅助表
738个人信息表
739维度数
74规模
第8章企业数据模型
81数据模型概览
82构建企业数据模型的目标
83企业数据模型的好处
84数据模型:从何处开始
85完全自上而下的数据模型
851主题领域模型
852概念模型
853实体关系模型
86总线结构
87购买的数据模型
88模型分析
881数据组件
882范化数据模型
883超类和子类模型
884在范化的数据模型中收集历史信息
885代理键
886逻辑和物理数据模型
887是否具备参照完整性
89其他数据模型
891输入数据模型
892临时存储数据模型
810最后的思考
第9章数据仓库架构:组件
91架构概述
92架构师角色
921解决方案架构师
922数据仓库架构师
923技术架构师
924数据架构师
925ETL架构师
926BI架构师
927综合
93体系结构分层
931单层体系结构
932经典的两层体系结构
933高级的三层体系结构
94数据仓库架构
941单独的数据集市架构
942总线结构
943中央存储库架构
944联合架构
95组件(分层)
951数据源
952数据生成
953数据组织
954数据分发
955信息输出
96实现方式
961数据设计和数据流
962逻辑和物理模型
963自上而下的方式
964自下而上的方式
965混合模式
97捷径
971数据采集层
972中央数据层
973数据分发层
974表现层
975用户展现层
976方法论
977现成的解决方案
第10章ETL和数据质量
101架构
1011数据获取
1012数据分发
1013ETL映射
1014初始加载和增量加载
1015ETL、ELT和ETTL
1016并行操作
1017ETL功能角色
1018数据流图
1019业务数据存储系统
102数据源系统
1021没有数据源
1022多个数据源
1023其他来源(结构化输入文件)
1024非结构化数据
103数据剖析
104数据获取
1041多个大文件
1042伪文件
1043故障预防策略
105转换和临时数据存储
1051准备工作
1052代理键
1053参照完整性
1054聚合、分析和汇总
1055编码表
106加载
1061是否加载历史数据
1062插入、更新、插入或更新、删除
1063数据获取信息
1064加载调度
107企业数据仓库的临时数据存储和总线架构的临时数据存储
108数据分发
109数据质量
1010ETL工具
第11章项目规划和方法论
111基础
1111风险:逐步发展
1112风险:数据质量
1113风险:资源
1114风险:成本
1115变更管理
1116最佳实践
112错误
113项目规划方法论
1131业务需求分析
1132战略和规划
1133解决方案纲要
1134设计
1135构建
1136部署
1137使用
第三部分构建
第12章工作场景
121让我们开始“烹饪”吧
122自上而下
1221字典
1222集中式数据模型
1223数据架构
1224数据源
1225数据模型
1226数据库
1227数据获取
1228解决方案概述
123自下而上
1231最终结果
1232字典
1233数据架构
1234一致性维度的管理
1235数据源
1236解决方案概述
124混合式
1241起步工作
1242数据模型
1243数据架构
1244解决方案概述
125归并
126没有输入:结构化的输入文件
127集成的第二阶段
128更大的框架:企业信息架构
第13章数据监理
131什么是数据监理
132数据监理的原因
133企业结构
134驱动和启动
135数据监理的主要方面
1351安全性和敏感性
1352数据质量
1353所有权
1354变更控制
136数据监理的准备工作
第14章项目后评审
141概述
142项目评审
143后续工作