首页>参考读物>计算机科学与技术>综合

数据虚拟化:商务智能系统的数据架构与管理
作者 : [荷]里克 F. 范德兰斯(Rick F. van der Lans) 著
译者 : 王志海 韩萌 孙艳歌 等译
出版日期 : 2017-08-09
ISBN : 978-7-111-57612-9
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 224
开本 : 16
原书名 : Data Virtualization for Business Intelligence Systems: Revolutionizing Data Integration for Data Warehouses
原出版社: Elsevier (Singapore) Pte Ltd
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

数据虚拟化是用来描述所有数据管理方法的涵盖性术语,这些方法允许应用程序检索并管理数据,且不需要数据相关的技术细节(例如它格式化的方式或物理位置所在)。本书将会告诉你什么是数据虚拟化,为什么要使用数据虚拟化以及如何将数据虚拟化技术应用到不同的商务智能项目。作者还描述了数据虚拟化与相关主题(例如主数据管理、数据管控和信息管理)之间的关系,使读者能够全面理解数据虚拟化的概貌以及实际应用数据虚拟化的方法。

图书特色

如果你困惑于如何有效满足运营商务智能和大数据的需求,如何扩展数据架构而不中断现有的ETL流程—本书将告诉你答案。
Rick总是能对传统思维给出有趣的新思路,促使我重新评估既有认知。本书也是如此,之后几年我将多次翻开它,相信你也会如此。
— Claudia Imhoff,Intelligent Solution公司总裁,Boulder BI Brain Trust公司创始人

数据虚拟化可以使商务智能系统的数据架构更简单、更便宜、更敏捷!
本书讨论关于数据虚拟化的“是什么”“为什么”和“怎么办”,这些内容不限于特定的制造商或产品,而是全景呈现其基本原理、影响范围、应用方法、优化技术和管理策略。你将了解数据虚拟化技术与ETL等传统方法的不同,同时更加明晰这项技术自身的优劣,进而在开发和管理不同项目时做到有的放矢、事半功倍。此外,作者还分享了丰富的实战经验,十分适合从事数据管理、数据架构、数据分析等工作的专业技术人员参考。

作者简介
里克 F. 范德兰斯(Rick F. van der Lans)
R20/Consultancy公司总裁,曾为许多世界级大公司定制数据仓库架构。他是欧洲数据仓库和商务智能年会的主席,还是SQL权威畅销书《Introduction to SQL》的作者,并经常受各大主流软件供应商之邀在欧洲、美国等地举行演讲。

图书前言

概述
数据虚拟化是一种转化异构数据库集合和文件的技术,这种技术使得这些数据看起来像一种集成的数据。在用于商务智能系统时,它可以使数据架构更简单、更便宜,最重要的是更敏捷。新的报告和分析需求可以更快实施,现有系统可以更容易改变。这就需要增加敏捷性:一方面,商务用户需要其系统提供更多的敏捷性,因为他们的世界已经开始改变;另一方面,商务智能的新形式,如运营报告、大数据分析、360氨ǜ妗⒆灾癖ǜ婧吞剿餍苑治觯际堑鼻暗男枨蟆1臼橹铝τ谑菪槟饣际跻约叭绾斡行У卦谏涛裰悄芟低持欣酶眉际酢R虼巳梦颐谴悠鸬憧迹有槟饣肌
在IT行业,我们已经进入了虚拟化时代。似乎这一行业中的任何东西都可以虚拟化,包括内存、外存、网络和数据中心。虚拟化技术很热门,比如云技术的普及也可以归类为虚拟化技术。虚拟化技术就是热点,并且在一段时间内都将是技术的焦点。
所有虚拟化技术和概念的共同点是它们封装了某个资源。任何虚拟化解决方案都隐藏了可用资源的数量、资源的位置以及获取资源所需的API等。但不要将虚拟化与一些电脑游戏所提供的虚拟世界混淆。这些游戏提供了一些虚拟的东西,但它们并没有封装特定的资源。
本书将解释一种特定形式的虚拟化:数据虚拟化。简而言之,数据虚拟化意味着将数据以集成的方式提供给应用程序,而不管所有数据是否分布在多个数据库中,是否以不同格式存储,是否可通过不同的数据库语言进行访问。数据虚拟化技术将这些不同的数据存储作为一个逻辑数据库呈现给应用程序。虽然数据虚拟化产品和技术已经存在了一段时间,但是大约在2009年,它才逐步得到了应有的关注。因为它对解决方案的影响—增加的敏捷性,所以越来越多的组织正在采用虚拟化技术,似乎可以认为21世纪的第二个十年将成为数据虚拟化的十年。
数据虚拟化可以部署在需要检索和操作数据的所有类型的信息系统中,例如经典数据输入系统、基于因特网的系统、面向服务的系统、主数据管理系统和商务智能系统。本书的重点是商务智能系统。数据虚拟化可用于整合来自各种数据源的数据,包括数据仓库、数据集市和生产型数据库。它有潜力改变我们开发商务智能系统的方式。数据虚拟化将成为大多数这类系统的心脏。
简而言之,数据虚拟化允许我们使用更简单和更灵活的架构构建商务智能系统。如果你想知道怎么做和为什么,本书就是为你而写的!本书将详细描述数据虚拟化产品的工作原理、技术应用、应该做什么和不做什么,以及在商务智能系统中应用它的好处。
谁应该阅读这本书?
本书适合以下人群:
负责开发和管理数据仓库和商务智能环境的商务智能专家,以及那些想知道如何通过应用数据虚拟化技术来简化系统或实现更灵活的商务智能系统的人。
信息管理专家,想知道数据虚拟化对其职业的影响,以及数据虚拟化将如何影响信息管理、数据管理、数据库设计、数据清洗和数据分析等活动。
主数据管理专家,负责创建主数据管理系统,并希望了解如何从部署数据虚拟化中受益。
数据架构师,负责设计数据的整体系统架构,用来向特定组织的任何机构提供所需要的数据。
数据库管理员,必须了解数据虚拟化服务器的特性和限制,用于确定如何以及在何处可以有效且高效地应用此技术。
设计师、分析师和顾问,必须直接或间接处理数据虚拟化,以及想知道数据虚拟化所能做的和不能做的。
学生,想要学习数据虚拟化技术,以及理解数据虚拟化技术与其他数据处理相关技术的区别。
预备知识
关于数据仓库、商务智能和数据库技术的一般性知识是必需的。
术语和定义
遗憾的是,数据虚拟化和数据仓库领域中使用的所有术语并非都是明确定义的,这一点在本书中讲得很清楚。为了避免混淆,我们试图清晰地定义大多数术语。但是,我们不能保证本书中的定义与你的定义一致。
造成这种混乱的原因很多。第一个原因是,供应商纯粹为了区分自己的产品和竞争对手的产品而经常提出新的术语,但营销人员不定义术语,他们只使用这些术语并用一般术语来描述产品。在大家意识到这一点之前,我们都在使用那些定义不明确或根本没有定义的术语。第二个原因是,这个领域发展非常迅速,在较短的时间内就可能要为新思维创造某种术语,并提出权衡性定义。结果,我们可能会匆忙地选择一个术语,而经过仔细检查后才发现它并不合适。
写在最后……
对我来说,写一本书的感觉像是独自一人完成项目:坐在办公室里几个小时、几天、几个月,喝一杯茶,听最喜欢的音乐。但这不是一个独奏项目,一本书通常需要很多人合作而成,本书当然也是如此。因此,我要感谢很多人对我的帮助,感谢他们为本书做出的贡献,提出的想法和意见,以及对我的支持和耐心。
感谢Jim Bean和Richard Hackathorn的技术审查。他们的意见可能比他们意识到的更有价值。在我还在写作本书的时候就得到了他们的反馈意见,这使得整个项目相当鼓舞人心。要是我以前的所有图书都有像他们一样好的技术审校者该多好。
感谢Claudia Imhoff女士。她是各种商务智能书籍的作者和合作者,企业信息工厂的合作设计者,许多关于商务智能和相关主题的文章的作者,Boulder BI Brain Trust公司的创始人,无数事件的发言人,感谢她为本书作序。由于她在商务智能领域的出色表现,因此她是做这项工作的最佳人选。我非常高兴当我向她提出请求时她毫不犹豫地答应了。我仍然感到荣幸。谢谢你,亲爱的Claudia!
从开始写作的第一天起,我就得到了以下三个供应商的全力支持:Composite Software公司、Denodo Technologies公司和Informatica公司。特别感谢以下专家:Composite Software公司的David Besemer、Robert Eve、Kevin O払rien、Ian Pestell和Jean-Philippe;Denodo Technologies公司的Suresh Chandrasekaran、Juan Lozano和Alberto Pan;Informatica公司的Diby Malakar、James Markarian、Bert Oosterhof、Ash Parikh和Lalitha Sundaramurthy。他们都专业且耐心地回答了我的技术问题。
就冲着他们愿意分享自己对数据虚拟化技术未来的看法,我也要感谢Composite Software公司、Denodo Technologies公司和Informatica公司各自的CTO:David Besemer、Alberto Pan和James Markarian。
这是我在Morgan Kaufmann出版的第一本书。现在本书已经在书店和互联网上开始销售,必须说这是一个明智的决定。与Andrea Dierna和Robyn Day合作是一种乐趣。他们通过这个项目给了我很多指导。多亏了他们,最终才有了这本可读性很强的书。这是一次重要的经验,我为我曾经无组织的写作过程而道歉。
在本书中,大多数例子都涉及一个示例数据库,它源于Roland Bouman和Jos van Dongen在他们的书《Pentaho Solutions:Business Intelligence and Data Warehousing with Pentaho and MySQL》中设计的数据库。我要感谢他们开发了这个数据库并允许我在本书中使用。特别感谢Roland,感谢他审阅本书的部分内容,每个作者都应该邀请他做自己书稿的编辑。
感谢过去几年中从世界各地赶来参加我们数据虚拟化和数据交付平台研讨会的数以百计的技术人员。他们的意见和建议对本书是无价的。
多年来与独立分析师Colin White和好朋友Mike Ferguson在商务智能和数据虚拟化上的讨论给我编写本书带来了很大的帮助。我们已经认识了近20年,我一直尊重和高度评价他们对新技术的看法。
上面提到的所有人都对本书贡献颇丰,但有一个人对整个项目来说至关重要:我的“私人编辑”,也是我的妻子Diane Cools。我们已经一起合作了10多本书,这些年来,很多大型项目都是我们一起完成的。事实上,如果没有她,我怀疑自己可能不会写一本关于数据虚拟化的书。一如既往,非常感谢亲爱的Diane!
最后,我想请读者将有关本书内容的意见、观点、想法和建议都发送到电子邮箱info@r20.nl。非常感谢大家的合作。我希望你阅读本书时能够获得的乐趣和我写本书时获得的乐趣一样多。

Rick F. van der Lans
荷兰,海牙

上架指导

计算机科学及应用

封底文字

如果你困惑于如何有效满足运营商务智能和大数据的需求,如何扩展数据架构而不中断现有的ETL流程——本书将告诉你答案。
Rick总是能对传统思维给出有趣的新思路,促使我重新评估既有认知。本书也是如此,之后几年我将多次翻开它,相信你也会如此。
——Claudia Imhoff,Intelligent Solution公司总裁,Boulder BI Brain Trust公司创始人


数据虚拟化可以使商务智能系统的数据架构更简单、更便宜、更敏捷!

本书讨论关于数据虚拟化的“是什么”“为什么”和“怎么办”,这些内容不限于特定的制造商或产品,而是全景呈现其基本原理、影响范围、优化技术、应用方法和管理策略。你将了解数据虚拟化技术与ETL等传统方法的不同,同时更加明晰这项技术自身的优劣,进而在开发和管理不同项目时做到有的放矢、事半功倍。此外,作者还分享了丰富的实战经验,十分适合从事数据管理、数据架构、数据分析等工作的专业技术人员参考。

图书序言

经典数据仓库和商务智能的架构依赖于其中所存储的质量和集成程度都较高的数据本身。在商务智能的早期,我们努力手动地从多个操作型系统之中提取数据、组合数据、修复错误数据、填充缺损字段、删除重复数据,以及将最终集成的数据装载到当前数据库之中,以创建物理数据仓库或“单一数据源”,进而用于生成关于数据的汇总和分析报告。
之后,由于提取-转换-装载(ETL)工具的技术创新,从而能够以可靠的、可重复的方式来自动完成原本手动进行的数据集成任务。ETL工具大大提高了创建数据仓库的整个过程的效率,其中包括数据质量技术,以进一步提高用于决策制定的集成数据的价值。到目前为止,ETL工具仍然是商务智能系统中用于创建历史数据的物理存储的主要机制。
最近,操作型商务智能和大数据分析的出现使得商务智能架构师需要重新思考ETL和数据管理基础结构。首先对操作型商务智能来说,大多数商务智能化环境开始审视生成历史报告和分析的过程中发生了什么。历史数据也可以用于预测将会发生什么,但它并不能完全支持实时决策或者操作型商务智能。
随着企业开始逐渐需要某种能够基于当前或低延迟数据进行快速决策的能力,我们通过改变数据捕获技术、数据载入技术和操作型数据的微批量处理技术等来加速整个ETL过程。这些方法可以将数据仓库中数据的延迟从数天和数小时的级别降低到分钟,但它们仍然不足以实现真正的实时决策。商务智能实现者意识到经典的ETL处理已经达到极限,现在需要一种新的数据集成形式。
大数据及其相关的分析也面临着同样的问题。大数据包括社交和文本分析数据、传感器数据,以及事件或运动中的数据。许多大数据是非结构化的,或者更精确地说它有着多种格式。在典型的操作型系统中尚没有传统的、可预测的结构。相对于以前的标准,它的数据量极大。对于许多数据仓库实施者来说,他们面临着大数据整合的巨大挑战。
事实上,许多大数据并不需要永久存储在结构化的数据仓库中。通常,大数据需要经过实验性和调查性的分析。即使如此,也需要将一些数据与数据仓库中的数据进行组合。我们如何有效满足运营商务智能和大数据的需求,并扩展商务智能架构,而不会中断现有的ETL流程呢?答案就是数据虚拟化。
我认识本书作者Rick F. van der Lans多年。我经常学习他的文章和研究论文,因为他写的内容总是能对传统思维给出有趣的新思路并进行创造性的革新。Rick的著作总是促使我重新评估现有的认知,而本书是他的最新著作。
数据虚拟化已成为当今商务智能实施者必备的技术。与其他新技术一样,它也面临着许多问题。例如如何实施它,什么时候使用它,以及要避免什么陷阱。Rick在这本实用的指南中详细介绍和解答了这些问题。之后几年我将会多次翻开这本书,我知道你也会。

Claudia Imhoff
Intelligent Solutions公司总裁
Boulder BI Brain Trust(BBBT)公司创始人

作者简介

[荷]里克 F. 范德兰斯(Rick F. van der Lans) 著:
里克 F. 范德兰斯(Rick F. van der Lans) R20/Consultancy公司总裁,曾为许多世界级大公司定制数据仓库架构。他是欧洲数据仓库和商务智能年会的主席,还是SQL权威畅销书《Introduction to SQL》的作者,并经常受各大主流软件供应商之邀在欧洲、美国等地举行演讲。

译者简介

王志海 韩萌 孙艳歌 等译:暂无简介

图书目录

序言
前言
作者简介
第1章 数据虚拟化导论1
1.1 引言1
1.2 商务智能世界正在改变1
1.3 虚拟化简介3
1.4 什么是数据虚拟化3
1.5 数据虚拟化与相关概念4
1.5.1 数据虚拟化与封装和信息隐藏4
1.5.2 数据虚拟化与抽象5
1.5.3 数据虚拟化与数据联合5
1.5.4 数据虚拟化与数据集成6
1.5.5 数据虚拟化与企业信息集成7
1.6 数据虚拟化的定义8
1.7 数据虚拟化的技术优势8
1.8 数据虚拟化的不同实现11
1.9 数据虚拟化服务器概述12
1.10 开放式与封闭式数据虚拟化服务器12
1.11 数据集成的其他方式13
1.12 数据虚拟化服务模型15
1.13 数据虚拟化的历史16
1.14 示例数据库:世界一流电影18
1.15 本书结构20
第2章 商务智能和数据仓库22
2.1 引言22
2.2 什么是商务智能22
2.3 管理层次与决策制定23
2.4 商务智能系统23
2.5 商务智能系统的数据存储24
2.5.1 数据仓库25
2.5.2 数据集市 27
2.5.3 数据中转区28
2.5.4 可操作数据存储29
2.5.5 个人数据存储30
2.5.6 不同类型数据存储的对比31
2.6 标准化模式、星形模式和雪花模式31
2.6.1 标准化模式32
2.6.2 非标准化模式32
2.6.3 星形模式33
2.6.4 雪花模式34
2.7 提取-转换-装载、提取-装载-转换和复制35
2.7.1 提取-转换-装载36
2.7.2 提取-装载-转换37
2.7.3 复制38
2.8 商务智能架构总览38
2.9 报告和分析的新形式39
2.9.1 运营报告和分析39
2.9.2 深度和大数据分析40
2.9.3 自助式报告和分析40
2.9.4 无限制的自组织分析40
2.9.5 360氨ǜ 1
2.9.6 探索性分析42
2.9.7 基于文本的分析42
2.10 传统商务智能系统的劣势43
2.11 总结46
第3章 数据虚拟化服务器:构造模块47
3.1 引言47
3.2 数据虚拟化服务器的高层架构47
3.3 导入源表和定义封装器48
3.4 定义虚拟表和映射50
3.5 虚拟表和映射的例子53
3.6 虚拟表和数据建模59
3.7 嵌套虚拟表和共享规范61
3.8 导入非关系数据62
3.8.1 XML和JSON文档62
3.8.2 Web服务66
3.8.3 电子表格66
3.8.4 NoSQL数据库68
3.8.5 多维数据集和MDX70
3.8.6 半结构化数据71
3.8.7 非结构化数据 74
3.9 发布虚拟表75
3.10 互联网数据模型80
3.11 可更新的虚拟表和事务管理82
第4章 数据虚拟化服务器:管理与安全85
4.1 引言85
4.2 影响度和线性分析85
4.3 源表、封装表和虚拟表的同步87
4.4 数据安全:认证与授权88
4.5 监控、管理和实施89
第5章 数据虚拟化服务器:虚拟表的高速缓存93
5.1 引言93
5.2 虚拟表的高速缓存93
5.3 什么时候使用高速缓存95
5.4 高速缓存与数据集市95
5.5 高速缓存保存在哪里96
5.6 刷新高速缓存97
5.7 完整刷新、增量刷新和动态刷新97
5.8 在线刷新与离线刷新98
5.9 高速缓存备份98
第6章 数据虚拟化服务器:查询优化技术100
6.1 引言100
6.2 查询优化的基本原理101
6.3 数据虚拟化服务器查询处理的10个阶段104
6.4 数据存储的智能等级105
6.5 通过查询替换进行优化106
6.6 下推优化107
6.7 查询扩展(查询注入)优化109
6.8 运送连接优化110
6.9 合并排序连接优化111
6.10 缓存优化111
6.11 数据优化与统计112
6.12 提示优化112
6.13 SQL覆盖优化113
6.14 处理策略的说明114
第7章 在商务智能系统上部署数据虚拟化115
7.1 引言115
7.2 基于数据虚拟化的商务智能系统115
7.3 部署数据虚拟化的优点116
7.4 部署数据虚拟化的缺点118
7.5 采用数据虚拟化的策略119
7.5.1 策略1:在现有的商务智能系统上引入数据虚拟化119
7.5.2 策略2:利用数据虚拟化开发新的商务智能系统123
7.5.3 策略3:开发新的结合源数据和转换数据的商务智能系统127
7.6 数据虚拟化的应用领域127
7.6.1 统一的数据访问127
7.6.2 虚拟数据集市128
7.6.3 虚拟数据仓库—基于数据集市130
7.6.4 虚拟数据仓库—基于生产数据库130
7.6.5 扩展数据仓库131
7.6.6 操作报告和分析131
7.6.7 操作数据仓库133
7.6.8 虚拟企业数据仓库133
7.6.9 自助服务报告和分析134
7.6.10 虚拟沙盒134
7.6.11 原型设计135
7.6.12 分析半结构化和非结构化数据135
7.6.13 一次性报告136
7.6.14 通过外部用户扩展的商务智能系统136
7.7 关于数据虚拟化的谬论138
第8章 数据虚拟化设计指南140
8.1 引言140
8.2 错误数据和数据质量140
8.2.1 错误数据的不同形式141
8.2.2 完整性规则和错误数据142
8.2.3 过滤、标记和恢复错误数据142
8.2.4 过滤错误数据的例子143
8.2.5 标记错误值示例145
8.2.6 恢复拼写错误数据示例146
8.3 复杂和不规则的数据结构148
8.3.1 没有名字的代码150
8.3.2 键值不一致150
8.3.3 重复组151
8.3.4 递归数据结构153
8.4 实现封装或映射中的转换155
8.5 分析错误数据155
8.6 不同的用户和不同的定义156
8.7 数据时间的不一致性157
8.8 数据存储和数据传输158
8.9 生产系统数据检索159
8.10 加入历史和业务数据160
8.11 处理组织的变化161
8.12 数据归档162
第9章 数据虚拟化和服务导向架构163
9.1 引言163
9.2 服务导向架构概述163
9.3 基本服务、组合服务、业务流程服务和数据服务165
9.4 使用数据虚拟化服务器开发数据服务166
9.5 使用数据虚拟化服务器开发组合服务167
9.6 服务和内部数据模型169
第10章 数据虚拟化和主数据管理171
10.1 引言171
10.2 数据是任何组织的关键资产171
10.3 业务对象的360笆油夹枨 72
10.4 什么是主数据173
10.5 什么是主数据管理175
10.6 主数据管理系统175
10.7 通过主数据管理集成的数据177
10.8 主数据管理和数据虚拟化的结合178
第11章 数据虚拟化、信息管理和数据管理182
11.1 引言182
11.2 数据虚拟化对信息建模和数据库设计的影响182
11.3 数据虚拟化对数据分析的影响185
11.4 数据虚拟化对数据清洗的影响188
11.5 数据虚拟化对数据管理的影响189
第12章 数据交付平台:新型商务智能系统架构191
12.1 引言191
12.2 数据交付平台简介191
12.3 数据交付平台的定义192
12.4 数据交付平台和其他商务智能架构193
12.5 数据交付平台的需求194
12.6 数据交付平台与数据虚拟化196
12.7 DDP名称说明197
12.8 个人见解197
第13章 数据虚拟化的未来199
13.1 引言199
13.2 数据虚拟化的未来—Rick F. van der Lans200
13.2.1 新的和增强的查询优化技术200
13.2.2 利用新的硬件技术201
13.2.3 扩展设计模块201
13.2.4 数据质量特征203
13.2.5 支持用于数据访问的推模型203
13.2.6 混合数据虚拟化、提取-转换-装载、提取-装载-转换和复制204
13.3 数据虚拟化的未来—DavidBesemer(Composite Software公司CTO)205
13.3.1 授权的消费者获得了无所不在的数据访问205
13.3.2 IT的后台成为云206
13.3.3 数据虚拟化的未来是全球数据结构206
13.3.4 结论207
13.4 数据虚拟化的未来—Alberto Pan(Denodo Technologies公司CTO)207
13.5 数据虚拟化的未来—James Markarian(Informatica公司CTO)209
13.5.1 怎样通过数据虚拟化使数据回报最大化209
13.5.2 深入探索隐藏在表面下的东西210
参考文献211

教学资源推荐
作者: (美)William Stallings 著
作者: 徐明星 编著
作者: 吕云翔等编著
参考读物推荐
作者: 郑志强 编著 韩永奎(东北风) 摄影
作者: (美)Dolores Wells-Pusins AnnPeele Ambrose
作者: (美)Allan M.Stavely