首页>参考读物>计算机科学与技术>数据库

大数据管理:数据集成的技术、方法与最佳实践
作者 : (美)April Reeve 著
译者 : 余水清 潘黎萍 译
丛书名 : 大数据技术丛书
出版日期 : 2014-03-21
ISBN : 978-7-111-45905-7
定价 : 59.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 163
开本 : 16
原书名 : Managing Data in Motion: Data Integration Best Practice Techniques and Technologies
原出版社: Elsevier (Singapore) Pte Ltd
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书详细介绍了大组织环境中计算机系统与不同数据集成之间数据传输管理的各种技术和技巧。主要内容包括数据集成的类型和复杂性、数据集成开发过程、批数据集成、实时数据集成、大数据、云数据和虚拟数据等。

图书特色

很少有企业奢望能够拥有一个统一的、集成的数据平台。但是在企业信息管理领域至少要考虑的一个问题就是,我们如何对待和管理日益增长的接口。April Reeve针对数据集成这一问题给出了清晰的概览和指导。
—— John Ladley,IMCue方案公司首席工程师

这本书针对企业每天所面临的复杂挑战给出了清晰的解决思路,以通俗易懂的语言介绍批处理、实时和大数据集成,包括相关定义、思路、观点,以及最佳实践。我强烈推荐这本书!
—— Danette McGilvray, Granite Fall咨询公司总裁兼首席顾问

本书高屋建瓴地阐述了在大中型企业中,不同计算机系统之间传输数据、集成数据所用到的技巧、技术和最佳实践。April Reeve 结合自己数十年的经验,针对目前数据库管理中面临的主要挑战,给出了一种与供应商无关的方法,帮助你理解不同应用系统间迁移数据的技术和技巧。通过阅读本书,你将了解行业专家对数据集成技术的独到见解,并掌握开发和管理数据集成方案的实用技术、工具集和架构。

本书主要内容:
用通俗的语言阐释企业顺利实施数据集成所需要的架构和组件。
讨论如何降低管理系统接口的复杂性,使得数据架构可扩展,以便处理大数据的不同维度。
详细阐述批处理数据集成、实时数据集成和大数据集成的关键技术、架构、工具集和最佳实践,包括针对结构化和非结构化数据的新解决方案。
讨论与数据集成相关的新兴技术,如云计算、可视化、大规模并行处理和数据虚拟化等。


移动互联网、物联网和社交媒体的飞速发展,数据量呈现爆炸式增长,企业如何实现应用之间的数据共享,如何更好地利用已有数据资源
作者结合她25年的数据集成工作经验,给出了实施企业数据集成的通用法则,深入讲解大数据环境下大中型企业不同应用系统间数据集成的关键技术、架构、工具集和最佳实践

作者简介




April Reeve 资深数据集成专家、资深信息管理顾问、企业架构师和项目经理,拥有数十年行业从业经验,经历丰富,曾服务于多家大型跨国公司,主要负责开发数据战略以及管理开发和运行方案。她是数据转换、数据仓库、商务智能、主数据管理、数据集成和数据治理等数据管理领域的专家。目前,她作为企业信息管理实践的咨询顾问服务于EMC2咨询公司。

译者简介




余水清 国家认证系统分析师、信息系统项目管理师、系统架构师、中国系统分析员协会(CSAI)专业顾问,领导和参与过多项大型软件系统开发项目,担任软件设计师、系统架构设计师、项目经理等职位,涉及银行、医疗、制造业等多个行业 。在信息系统、数据仓库的设计、开发和部署方面拥有丰富的理论和实践经验。




潘黎萍 软件工程硕士,高级工程师,从事企业级信息系统开发和管理十余年,精通数据仓库、商务智能系统的设计和开发,研究领域包括数据集成方法、ETL、数据转换、大数据应用和智能分析系统开发。

图书前言

本书主要内容及其必要性
  绝大多数大中型组织都拥有上百甚至上千的应用系统,而每个应用都有不同的数据库和其他多种形式的数据存储。不管这些数据存储是来自传统技术以及数据库管理系统、新兴技术或者文档管理系统,要使这些应用在组织中发挥作用,在这些数据存储之间共享信息是至关重要的。但是,如果没有一个贯穿整个组织的统一方法,开发和管理在不同的应用系统之间移动数据的方案将会变得复杂无比。本书给出了一个合理的途径和架构,使得在一个应用系统组合中管理纷繁复杂的接口成为可能。
  基于信息技术的数据管理的重点通常围绕着如何高效地管理数据库或者静态存储的持久化数据。由于目前很多组织的应用系统主要都是购买的供应商解决方案,因此,管理系统之间、应用之间、数据存储之间以及组织之间“运动着的数据”应当成为任何一个组织的信息技术的核心工作。对于大多数组织来说,相对于新应用的开发,定制开发将继续围绕着应用之间的数据迁移。
读者将学到什么
  本书高屋建瓴地阐述了在大型组织的环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术以及最佳实践。
  通过本书,读者将掌握开发和管理数据集成方案的最佳实践技能、工具集以及架构。对于组织来说,为了支持健壮的组织级数据集成能力,这些都是必须具备的。根据数据集成的不同类型及其相关性,这些技术可以进一步划分为:批处理集成、实时集成以及大数据集成。
  所有人都应该阅读第1章和第12章,这是将组织中应用接口难以管理的复杂性转变为易于管理的数据层的关键。这两章讲述的内容是开发一个报价合理的数据集成项目的基础。
谁应该阅读本书
  本书面向以下五类读者:
   资深业务和信息技术经理
   企业数据、应用和技术架构师
   数据处理相关项目的项目经理,包括数据仓库、主数据管理项目、数据转换和迁移以及数据归档
   数据分析师、数据模型设计师、数据库工作者以及数据集成程序员
   数据管理专业学生
  本书包含了对各种数据集成问题的多种不同类型的技术解决方案的应用,但读者并不需要具备广阔的技术背景就能理解。
资深业务和信息技术经理
  对大多数组织来说,管理成百上千的应用之间、数据库之间纷繁复杂的交互和接口是IT管理所面临的主要挑战之一。资深经理们,包括信息技术经理和那些需要了解问题并参与管理应用系统组合的经理们,也许对管理数据在组织内部和组织之间迁移的技能、技术和最佳实践感兴趣。而这些数据管理技术以前一直被视为组织中极其细枝末节的技术领域。除了应该了解技术投资的主要部分外,经理们还应当理解一些数据集成管理技术上简单的架构决策可以带来极大的生产率提高,这在任何组织中都不应该被忽视。
企业数据、应用和技术架构师
  企业架构师,尤其是那些不但从事与数据和应用相关架构工作并且从事技术组件设计的架构师,当然需要了解在组织的技术组合和架构计划中所需要的数据集成方案。任何一个组织的数据架构应当包括一些层以支撑数据安全、商务智能、数据库管理、文档管理以及数据集成。
数据处理相关项目的项目经理
  从事数据仓库、主数据管理、数据转换、数据归档、业务智能、元数据管理以及诸如此类项目的项目经理们,都应该了解在应用之间迁移数据以及将数据集成进/出数据中心的技术。
数据分析师、数据模型设计师、数据库工作者以及数据集成程序员
  很多人在数据集成项目中担任诸如数据分析师、程序员等职位,从事着各种详细功能的设计,如ETL程序员、SOA架构师以及数据服务模型设计师。充分理解为什么要设计这些功能以及对此领域里相关技术和新兴技术的了解将帮助他们提高当前的效率和对未来高瞻远瞩的能力。而了解目前所做的工作如何在更广的层面上与组织的技术框架相匹配这一点,将有助于他们致力于工作中最重要的目标,并且在当遇到困难时指引他们走出困境。同时,对这个领域里新兴技术的学习和了解能帮他们找出可能感兴趣的领域和新的职业发展方向。
数据管理专业学生
  在大学里,信息技术课程专注于编程和技术培训。数据库课程则侧重于教授如何新建个别数据库。而在组织的现实情况则是新建的数据库比较少,主要集中于如何管理已经存在的数据库。对一个学生来说,虽然成百上千的应用和数据存储的交互可能难以想象,但是,这些为了解决各种不同类型的数据集成问题而开发的技巧和技术却可以为学生掌握这些知识打下重要而且扎实的基础。
本书组织结构
  本书综述了在一个大型组织环境中,在不同的计算机系统之间传输数据,将不同的数据集成到一起所用到的各种不同的技巧、技术以及最佳实践。每一部分都将对该部分所涉及的数据集成类型的架构、工具集以及技术进行阐述,如:批处理集成、实时集成以及大数据集成。同时,在每一部分中还给出了与相关专家就数据集成问题所进行的交流对话,以及基于笔者经验的一些实际案例。
  目前从事数据集成的技术人员也可以忽略这些基础章节,直接跳到那些他们尚且不熟悉的部分,比如第四部分的大数据集成。
  在这个领域中现有的大多数书籍总是专注于如何实现特定的技术或者解决方案,但是本书却像一个博大的数据集成方案的仓库,包含了诸多不同的技术以及每类技术所具备的优势和挑战。
第一部分:数据集成导论
  本书第一部分集中论述了在组织的数据管理计划中实现数据集成以及对移动中的数据进行高效管理的重要性和必要性。
  第1章:数据集成的重要性
  第1章给出了数据集成应当成为组织数据管理的重要课题的原因,以及几乎每个组织都应当在其信息技术基础设施中设立一个数据集成层的原因。
  第2章:什么是数据集成
  第2章展示了所有可以称为数据集成的过程:移动数据、转换数据、把数据从一个应用迁移到另外一个应用、将所有的信息进行整合,以及针对数据分发不同的数据过程。
  第3章:数据集成的类型和复杂性
  第3章概要讨论了各种不同的数据集成类型,后继章节会详细论述每种数据集成:批处理数据集成、实时数据集成以及大数据集成。
  第4章:数据集成开发过程
  第4章主要就数据集成项目的标准开发生命周期以及所需要的资源类型展开论述。
  第二部分:批处理数据集成
  本书第二部分讨论大规模数据迁移时所涉及的数据集成技巧和技术,这类数据迁移通常称为批处理,或者异步数据集成,用于数据转换以及将数据迁移到数据仓库。
  第5章:批处理数据集成简介
  第5章阐述了什么是批处理数据集成。
  第6章:抽取、转换和加载
  第6章讨论了数据集成的核心处理的过程即ETL的处理流程,这一过程几乎用于所有的数据集成,尤其在批处理集成中。
  第7章:数据仓库
  第7章着重讨论了数据仓库的概念,以及如何将数据装入数据仓库,如何将数据从数据仓库抽取出来。该章还包含了与数据仓库专家Krish Krishnan就数据仓库和数据集成的一个访谈记录。
  第8章:数据转换
  第8章阐述了数据转换的处理过程。数据转换也叫数据迁移,该章还讲述了数据集成如何成为数据转换过程必不可少的组成部分。
  第9章:数据归档
  第9章重点论述了数据归档的处理过程,以及数据集成的重要性。同时还包含了和专家James Anderson就数据归档和数据集成的访谈。
  第10章:批处理数据集成架构和元数据
  第10章概述了实现一个批处理数据集成的所有必须工具,包括分析、建模、元数据处理、数据移动、转换以及调度。还包括了与元数据管理专家Adrienne Tannenbaum就元数据和数据集成所进行的访谈。
  第三部分:实时数据集成
  本书第三部分讨论了与实时或者同步数据集成相关的数据集成最佳实践,实时数据集成用于在相互交互的操作型应用和系统之间传输数据。
  第11章:实时数据集成简介
  第11章介绍了什么是实时数据集成能力。
  第12章:数据集成模式
  第12章分类讨论了实时数据集成的基本模式,特别是对于数据接口来说至关重要的“中心-节点”模式。
  第13章:核心实时数据集成技术
  第13章介绍了用于实时数据集成的关键技术,包括ESB、SOA、XML、EAI以及EAI。该章还包括了与XML专家M. David Allen关于实时数据集成中XML的重要性的访谈,以及与数据集成专家David Linthicum就企业服务总线的访谈。
  第14章:数据集成建模
  第14章论述了数据集成中数据建模的关键领域,特别是对于实时数据集成来说。数据建模专家Dagna Gaythorpe结合其自身经验,就作为中心-节点接口架构不可或缺的一部分的数据建模给出了权威阐述。
  第15章:主数据管理
  第15章阐述了主数据管理,以及数据集成如何与主数据管理相互穿插,并成为其成功的基石。
  第16章:实时更新数据仓库
  第16章论述了数据仓库的实时更新技术。数据仓库专家Krish Krishnan就数据仓库和实时数据集成继续展开访谈。
  第17章:实时数据集成架构和元数据
  第17章给出了实现一个实时数据集成能力所必备的工具,包括分析、建模、元数据存储、数据迁移、转换以及事件调度等。
  第四部分:大数据集成
  本书最后一部分讨论了与数据集成相关的新兴技术,如:云计算、可视化、大规模并行处理以及数据虚拟化。
  第18章:大数据集成简介
  第18章介绍了大数据集成能力。
  第19章:云架构和数据集成
  第19章简要介绍了云计算架构,以及与数据集成相关的一些额外的问题和关注点,如将组织的数据与云解决方案中的数据进行集成。
  第20章:数据虚拟化
  第20章讨论了数据虚拟化技术,这是大数据集成的技术核心。
  第21章:大数据集成
  第21章给出了大数据集成的概貌,同时给出了实现一个大数据集成所必备的工具。
  第22章:移动数据管理总结
  第22章总结了全书的数据集成论述,并就实现各种不同类型的数据集成能力所需要的技术方案做了总结,包括批处理数据集成、实时数据集成以及大数据集成。

上架指导

计算机\数据库

封底文字

“很少有企业奢望能够拥有一个单一的、统一的、集成的数据平台。但是在企业信息管理领域中至少可以考虑的一个问题就是,我们如何对待以及管理日益增长的接口。April Reeve针对数据集成这一问题给出了一个大家急需的概览和指导。”
——John Ladley,IMCue方案公司首席工程师

“这本书针对组织每天所面临的复杂挑战给出了清晰的解决思路。以一种简洁、易于理解的语言介绍批处理、实时和大数据集成,并给出了相关定义、思路、观点,以及最佳实践。我强烈推荐这本书!”
——Danette McGilvray, Granite Fall咨询公司总裁兼首席顾问

本书阐释了那些可用于极大地减少系统接口管理复杂性的技术,这些技术有利于创建一个可扩展的数据架构。April Reeve结合自己数十年的经验,给出了与数据管理供应商无关的一个方法,这个方法便于信息技术、商务经理以及程序员和架构师理解。通过阅读本书,你将学到如何管理计算机系统的数据传输,以及在企业环境中集成不同类型数据的方法、技术以及最佳实践。
本书主要内容:
·用通俗的语言阐释组织顺利实施数据集成所需要的架构和组件。
·讨论如何降低管理系统接口的复杂性,以及如何扩展数据架构以便处理大数据的不同维度。
·集中论述在组织的数据管理计划中实现数据集成以及对移动中的数据进行高效管理的重要性和必要性。
·讨论大规模数据迁移时所涉及的数据集成技巧和技术:批处理或异步数据集成,用于数据转换以及将数据迁移到数据仓库。
·讨论与实时或者同步数据集成相关的数据集成最佳实践,实时数据集成用于在交互的操作型应用和系统之间传输数据。
·讨论与书籍集成相关的新兴技术,如云计算、可视化、大规模并行处理以及数据虚拟化等。

图书序言

数据集成已经成为信息系统行业最为持久的挑战。
  差不多在40年前,即Richard Nolan将数据管理作为他的数据处理成熟度模型的倒数第二个层次开始,人们认识到在开发应用程序以支持业务流程的过程中,如果没有恰当管理,将会产生大量重复和不一致的数据。
  在数据库技术发展的早期阶段,人们曾经梦想通过以一种协调的方式来构建所有组织的数据库,以消除所有的数据重复,从而实现Nolan的目标。“获取数据一次、在一个地方存储并在所有的地方都可以使用数据”就是当时的愿望。
  分布式计算、通用软件包,以及朴实的利己主义为这个梦想画上了一个句号。但是这一基础思想依然以数据管理初步尝试的方式存在于很多组织中,即基于计划和协调来构建数据库—最显著的形式就是企业数据模型。他们的成功是有限的,因此,组织转向于采用战术性的方案来解决最为紧迫的问题。他们构建了接口以便在应用之间传输数据,而不是多次捕获数据。为了报表分析,他们将所有的数据汇聚到一起,而这成为后来的数据仓库和集市。这一实用的做法体现了接收现有的重复数据的一种意愿,因此对于纯粹主义者并不具有任何吸引力。
  具有战略性的、全组织范围的数据处理方法与事后分析的方案之间的矛盾在今天依然存在。但是,问题的规模已经超越了在19世纪70年代的任何设想。
  我们见证了计算能力、存储技术,以及开发工具的非同凡响的进步和发展。信息技术在商务和政府部门无处不在,即使中等规模的组织也依赖他们数以千计的应用和PB级的数据。但是,每个新的应用,每个新的方案都使数据迅速增加。这些解决方案逐渐地都转变成了商业软件包,在数据库设计以及这些软件如何与现存的软件和将来要购买的软件特性上如何重叠上,购买者几乎没有发言权。
  不仅应用的数量呈爆炸性增长,而且应用内部的数据的复杂性也远非早期的文件和数据库的简单结构所能够比拟。互联网和智能手机产生了巨量的非结构化数据,这里的“数据”包括文档、音频以及视频。云计算扩展了组织的数据边界,而且进一步方便了对新应用的获取。
  对数据集成的需求也成比例增长,或者更确切地说,不成比例,因为系统之间的接口呈指数级增长。在很多组织里面,这再一次成为机会,因为他们可以将更多的精力专注于系统开发上。
  在过去的20年里,借助于消息处理和虚拟化技术,数据集成的支持工具取得了重大进步。本书以一种易于非专业人员(计划人员、管理者以及开发者)理解的方式提供了这一技术的概览从而弥补了一个重要的缺口。April Reeve极为罕见地将商务视角与详细的技术知识组合在一起呈现给读者,这些知识来自于她多年在若干个公司作为IT技术人员、经理从事设计、实施,以及运作应用系统,以及最近作为顾问在多个不同的环境中使用这些技术的经验积累。
  也许数据经理将成为本书最重要的读者,尤其是那些顽固执著于静态数据管理模型以及相关工具的数据经理。由于对移动中的数据管理在信息技术预算中的比例渐趋增加,因此需要一种战略性的关注度。而数据经理由于具备一定组织职权,因此理所当然地负起这个责任。本书讨论的技术形成了数据集成的主流思想,并且代表了一种美好的愿望,即达成Nolan很久以前所描述的数据管理的目标。
Graeme Simsion

作者简介

(美)April Reeve 著:暂无简介

译者简介

余水清 潘黎萍 译:暂无简介

译者序

近几十年来,科学技术的迅猛发展和信息化在各行各业的迅速推进,使得人类社会所积累的数据量已经超过了过去5000年的总和,数据的采集、存储、处理和传播的数量也与日俱增。特别最近这几年,随着新兴的移动互联网、物联网以及社会化媒体的飞速发展,数据量更呈现出爆炸式的增长。对于企业来说,如何实现应用之间的数据共享,如何更好地利用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用正成为信息系统建设工作的重中之重。
  企业在实施数据共享的过程当中可能会遇到各式各样的问题,例如:不同应用产生的数据可能来自不同的途径,数据内容、数据格式和数据质量千差万别,有时数据格式不能转换或数据转换格式后丢失信息等,这些问题有时候相当棘手,如果没有正确方法论的指导,则会严重阻碍数据在各部门和各软件系统中的流动与共享。数据集成则是有效解决这些问题的一把金钥匙。
  但是,数据集成是一个很大的课题,通常会包括以下几部分:如何实施一个数据集成项目?数据集成项目的生命周期有哪些不同阶段?与传统的软件项目生命周期有什么迥异之处?数据集成常见的模式包括哪些?数据集成与数据仓库、商务智能有什么联系?诸如此类的问题。其中每一个问题的答案都可能需要一部大部头的数据图书才能讲解得透彻,更别说成千上万的商业或者开源工具、框架了。幸运的是,April Reeve给我们带来了这本书,这本书不仅给出了以上这些问题的答案,还给出了实施企业数据集成的通用法则,即面向整个企业的业务整合元数据、数据规范化模型、主数据管理、ETL,以及数据仓库和商务智能等不同技术与工具的战略性集成方法。
  April Reeve结合她数据集成领域25年以上的工作经验,深入浅出地讲解了数据集成中所涉及的每一个主题。而且,难能可贵的是,全部用非技术人员的语言来讨论每一个问题。因此,阅读本书的过程中,即使没有一定的技术背景,你也不会感到很吃力。当然,如果在数据仓库或者商务智能方面有些实践经验的话,那么阅读本书的过程将会是一次轻松愉快的旅行,而且,我相信对于作者给出的很多观点你会报以会心一笑。
  本书的另外一大亮点就是专家访谈。在每一章中间或者后面,作者都和相关领域的资深专家就数据集成的相关技术、工具、变化和发展趋势,以及不同的数据集成之间的关系进行了深入讨论。这些来自一线资深专家们的经验之谈,犹如一颗颗珍珠点缀着全书,让人在领略相关知识的同时,也可以更进一步地去省视和思考。
  翻译完整本书,我最大的感受就是,真心希望能够早几年读到这本书,那样我在实施和管理数据仓库与商务智能的项目中也许可以少走很多的弯路。
  在本书的翻译过程,得到了机械工业出版社谢晓芳编辑的精心指导和帮助,谢编辑对技术的熟练掌握以及对语言的精准把握让人受益匪浅。
  感谢妻子和家人的宽容和耐心,你们的关心和鼓励让我可以安心地专注于技术、翻译和文字所带来的乐趣。
  时间有限,错误之处在所难免,因此,怀着忐忑的心情,向广大读者呈上这本译著,希望大家不吝指正。
余水清

图书目录

译者序
序言
前言
第一部分 数据集成导论
第1章 数据集成的重要性 / 2
1.1 数据接口的天然复杂性 / 2
1.2 购买供应商应用包的数量日益增加 / 3
1.3 大数据和虚拟化的催化剂 / 3
第2章 什么是数据集成 / 5
2.1 运动中的数据 / 5
2.2 集成为通用格式—数据转换 / 5
2.3 数据从一个系统迁移到另一个系统 / 6
2.4 在组织内部移动数据 / 6
2.5 从非结构化数据中抽取信息 / 8
2.6 将处理移动到数据端 / 9
第3章 数据集成的类型和复杂性 / 10
3.1 管理运动中的数据和持久化数据的异同点 / 10
3.2 批处理数据集成 / 10
3.3 实时数据集成 / 11
3.4 大数据集成 / 11
3.5 数据虚拟化 / 12
第4章 数据集成开发过程 / 13
4.1 数据集成开发生命周期 / 13
4.2 包含业务知识和专家经验 / 14
第二部分 批处理数据集成
第5章 批处理数据集成简介 / 18
5.1 什么是批处理数据集成 / 18
5.2 批处理数据集成生命周期 / 19
第6章 抽取、转换和加载 / 20
6.1 什么是ETL / 20
6.2 概要分析 / 20
6.3 抽取 / 21
6.4 暂存 / 22
6.5 访问层次 / 22
6.6 转换 / 23
6.6.1 简单映射 / 23
6.6.2 查找表 / 24
6.6.3 聚合和规范化 / 24
6.6.4 计算 / 24
6.7 加载 / 24
第7章 数据仓库 / 26
7.1 什么是数据仓库 / 26
7.2 企业数据仓库架构中的层次 / 26
7.2.1 操作型应用层 / 26
7.2.2 外部数据 / 27
7.2.3 数据仓库中的数据暂存区 / 27
7.2.4 数据仓库数据结构 / 28
7.2.5 从数据仓库到数据集市或者商务智能层的暂存 / 28
7.2.6 商务智能层 / 28
7.3 加载到数据仓库中的数据类型 / 29
7.3.1 数据仓库中的主数据 / 29
7.3.2 数据仓库中的余额和快照数据 / 30
7.3.3 数据仓库中的事务型数据 / 31
7.3.4 事件 / 31
7.3.5 调整 / 31
第8章 数据转换 / 39
8.1 什么是数据转换 / 39
8.2 数据转换生命周期 / 39
8.3 数据转换分析 / 39
8.4 数据加载最佳实践 / 40
8.5 提高源数据质量 / 40
8.6 映射到目标系统 / 41
8.7 配置数据 / 41
8.8 测试和依赖 / 42
8.9 私有数据 / 42
8.10 校对 / 43
8.11 环境 / 43
第9章 数据归档 / 47
9.1 什么是数据归档 / 47
9.2 归档数据选择 / 47
9.3 已归档数据可以恢复吗 / 48
9.4 归档环境下数据结构的确认 / 48
9.5 灵活的数据结构 / 49
第10章 批处理数据集成架构和元数据 / 54
10.1 什么是批处理数据集成架构 / 54
10.2 概要分析工具 / 55
10.3 建模工具 / 55
10.4 元数据存储库 / 55
10.5 数据移动 / 56
10.6 转换 / 56
10.7 调度 / 57
第三部分 实时数据集成
第11章 实时数据集成简介 / 64
11.1 为什么需要实时数据集成 / 64
11.2 为什么需要两组技术 / 64
第12章 数据集成模式 / 66
12.1 交互模式 / 66
12.2 松耦合 / 66
12.3 中心和节点模式 / 66
12.4 同步交互和异步交互 / 69
12.5 请求和应答 / 70
12.6 发布和订阅 / 70
12.7 两阶段提交 / 70
12.8 集成交互类型 / 71
第13章 核心实时数据集成技术 / 72
13.1 令人困惑的术语 / 72
13.2 企业服务总线 / 72
13.3 面向服务架构 / 75
13.4 可扩展标记语言 / 77
13.5 数据复制和变化数据捕获 / 81
13.6 企业应用集成 / 82
13.7 企业信息集成 / 82
第14章 数据集成建模 / 84
14.1 规范化建模 / 84
14.2 消息建模 / 88
第15章 主数据管理 / 89
15.1 主数据管理简介 / 89
15.2 需要主数据管理方案的原因 / 89
15.3 购买的软件包与主数据 / 90
15.4 参考数据 / 90
15.5 主和从 / 91
15.6 外部数据 / 93
15.7 主数据管理功能 / 93
15.8 主数据管理方案的类型—注册表以及数据中心 / 94
第16章 实时更新数据仓库 / 95
16.1 企业信息工厂 / 95
16.2 操作型数据存储 / 96
16.3 移动到数据仓库的主数据 / 97
第17章 实时数据集成架构和元数据 / 99
17.1 实时数据集成元数据简介 / 99
17.2 建模 / 100
17.3 概要分析 / 100
17.4 元数据库 / 101
17.5 企业服务总线—数据转换和调度 / 101
17.5.1 技术中介 / 101
17.5.2 业务内容 / 102
17.6 数据移动和中间件 / 102
17.7 外部交互 / 102
第四部分 大数据集成
第18章 大数据集成简介 / 106
18.1 数据集成及非结构化数据 / 106
18.2 大数据、云数据及数据虚拟化 / 106
第19章 云架构和数据集成 / 107
19.1 为什么云中的数据集成比较重要 / 107
19.2 公共云 / 107
19.3 云安全 / 108
19.4 云延迟 / 109
19.5 云冗余 / 110
第20章 数据虚拟化 / 111
20.1 恰逢其时的一项技术 / 111
20.2 数据虚拟化的商业用途 / 112
20.2.1 商务智能方案 / 112
20.2.2 集成不同类型的数据 / 113
20.2.3 快速向数据仓库中增加或者原型增加数据 / 113
20.2.4 将物理上不同的数据一起展现 / 113
20.2.5 利用不同的数据和模型触发交易 / 114
20.3 数据虚拟化架构 / 114
20.3.1 源和适配器 / 114
20.3.2 映射、模型和视图 / 114
20.3.3 转换和展现 / 115
第21章 大数据集成 / 116
21.1 什么是大数据 / 116
21.2 大数据维度—量 / 116
21.2.1 大规模并行处理—将处理过程移动到数据端 / 116
21.2.2 Hadoop和MapReduce / 117
21.2.3 与外部数据集成 / 117
21.2.4 虚拟化 / 118
21.3 大数据维度—多样性 / 118
21.3.1 数据类型 / 118
21.3.2 集成不同类型的数据 / 118
21.4 大数据维度—速度 / 120
21.4.1 流式数据 / 121
21.4.2 传感器和GPS数据 / 121
21.4.3 社会化媒体数据 / 121
21.5 传统大数据应用案例 / 121
21.6 更多大数据应用案例 / 122
21.6.1 医疗 / 122
21.6.2 物流 / 122
21.6.3 国家安全 / 122
21.7 利用大数据的力量—实施决策支持 / 123
21.7.1 触发行动 / 123
21.7.2 从内存以及磁盘中检索数据的速度 / 123
21.7.3 从数据分析到模型,从流式数据到决策 / 124
21.8 大数据架构 / 125
21.8.1 操作型系统和数据存储 / 125
21.8.2 中间数据中心 / 126
21.8.3 商务智能工具 / 126
21.8.4 数据虚拟化服务器 / 127
21.8.5 批处理和实时数据集成工具 / 127
21.8.6 分析型沙盒 / 127
21.8.7 风险响应系统/推荐引擎 / 127
第22章 移动数据管理总结 / 132
22.1 数据集成架构 / 132
22.1.1 为什么需要数据集成架构 / 132
22.1.2 数据集成生命周期和专家经验 / 132
22.1.3 安全和隐私 / 133
22.2 数据集成引擎 / 134
22.2.1 操作连贯性 / 134
22.2.2 ETL引擎 / 134
22.2.3 企业服务总线 / 135
22.2.4 数据虚拟化服务器 / 135
22.2.5 数据移动 / 136
22.3 数据集成中心 / 136
22.3.1 主数据 / 137
22.3.2 数据仓库和操作型数据存储 / 137
22.3.3 企业内容管理 / 138
22.3.4 数据归档 / 138
22.4 元数据管理 / 138
22.4.1 数据发现 / 138
22.4.2 数据概要分析 / 139
22.4.3 数据建模 / 139
22.4.4 数据流建模 / 139
22.4.5 元数据存储库 / 139
22.5 结束语 / 140
参考文献 / 141

教学资源推荐
作者: Nello Cristianini John Shawe-Taylor
作者: William H. Inmon
作者: [美]杰弗里·A·霍弗(Jeffrey A. Hoffer) 海基·托皮(Heikki Topi) 拉梅什•文卡塔拉曼(Ramesh Venkataraman)著
作者: (美)Hector Garcia-Molina,Jeffrey D.Ullman,Jennifer Widom
参考读物推荐