参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 244

开本 : 16

原书名 : Data Architecture: A Primer for the Data Scientist, Second Edition

原出版社: Elsevier (Singapore) Pte Ltd

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

本书由“数据仓库之父”Inmon和“Data Vault之父”Linstedt领衔撰写，带领读者从宏观视角了解数据架构的基本概念和原则，是数据科学家、分析师和管理者在入门阶段的必备参考读物。本书创新性地提出终端状态架构的概念，新增了关于可视化和大数据的章节，以及文本管理和分析等来自不同行业的实例。通过阅读本书，读者将通晓数据收集、治理、提取、分析等不同阶段的核心技术，进而学会将大数据技术融入现有的信息基础设施或数据仓库系统。

图书特色

无

上架指导

计算机\数据科学

封底文字

近年来，大数据和数据科学备受关注，数据架构已经成为企业决策制定过程中不可或缺的组成部分。本书由数据和商业智能领域的三位引领者撰写，帮助读者从宏观视角了解数据架构的基本概念和原则，是数据科学家、分析师和管理者的必备参考读物。

本书特色
全面讲解数据架构的理论知识，添加了文本管理和分析等来自不同行业的实例，帮助读者从整体上清晰地认识数据。
创新性地提出终端状态架构的概念，把握数据收集、治理、提取、分析等不同阶段的核心技术，从而将大数据技术融入现有的信息基础设施或数据仓库系统。
新增关于可视化和大数据的章节，涵盖对数据的商业价值和数据管理等的综合介绍，为大数据技术的未来发展提供新的思路。

作者简介

[美]W. H. 因蒙（W. H. Inmon）丹尼尔·林斯泰特（Daniel Linstedt）玛丽· 莱文斯（Mary Levins）著：

译者序

“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。”确实，数据已成为21世纪的“石油”，成为世界上关键的战略性基础资源。大数据的概念从2012年起进入大众视野，近几年来受到了越来越多的关注。特别是2020年全世界爆发新冠疫情以来，大数据科学家应用大数据技术对不同地区的人群感染新冠病毒的数量进行预测，帮助相关部门对疫情进行防控，让人们进一步意识到开展大数据研究的重要意义。本书为数据科学家未来从事大数据研究提供了全新的视角。
大数据是人工智能的重要基础，人工智能反过来也拓宽了对大数据的数据量和数据种类的需求。为了获得更高的智能，需要对已有的数据采集、数据清洗、数据过滤和数据分析等相关算法及理论进行优化，或者开发设计出新的算法，探索新的理论。大数据与人工智能之间的关系是相互依赖和相互促进，同时，人工智能对数据架构的理论提出了更高的要求。
本书从数据架构的角度描述数据，从不同数据背景的角度介绍数据，并利用不同行业的大量实例和案例研究，为数据科学家提供必要的知识。结合这些行业的实例，数据科学家将从整体的角度对数据有更全面、更清楚的认识。本书提出了终端状态架构的概念，帮助读者更宏观地把握数据收集、治理、提取、分析等不同阶段使用的不同技术。本书还对数据的商业价值、数据管理和数据可视化等进行了综合介绍，帮助数据科学家更全面地认识数据处理，为大数据未来的技术和理论发展提供新的思路。
数据科学是一个正在蓬勃发展的领域，也是一种正在改变世界和影响日常生活的技术。虽然我们开展了很多相关领域的研究和探索，但在翻译的过程中依然感到本书涉及面广，涵盖内容多。为此，我们力求准确反映原书所表达的思想、概念和技术原理，希望能对相关的研究人员、技术人员和学生有所帮助。但受限于译者的学术和技术水平，翻译中难免有错漏或瑕疵，恳请读者及同行批评指正，我们将不胜感激。
最后，感谢家人和朋友的支持与帮助。同时，要感谢在本书翻译过程中做出贡献的人，特别是北京邮电大学张瑞涛、赵孟宇、傅广涛、丁哲伦、黄淮、靳梦凡和张涵等。还要感谢机械工业出版社的各位编辑，以及北京邮电大学计算机学院的大力支持。

北京邮电大学
智能通信软件与多媒体北京市重点实验室
计算智能与可视化实验室
黄智濒　陶袁
2021年2月

图书目录

献词
译者序
第1章　数据架构与数据类型1
1.1　数据架构简介1
1.1.1　细分数据1
1.1.2　重复性和非重复性非结构化数据2
1.1.3　数据的“分水岭”2
1.1.4　文本数据和非文本数据3
1.1.5　各种形式的数据3
1.1.6　商业价值4
1.2　数据基础设施4
1.2.1　重复性数据的两种类型4
1.2.2　重复性结构化数据5
1.2.3　重复性大数据6
1.2.4　两种基础设施6
1.2.5　基础设施的优化7
1.2.6　比较两种基础设施8
1.3　分水岭8
1.3.1　企业数据的分类8
1.3.2　什么是分水岭9
1.3.3　重复性非结构化数据9
1.3.4　非重复性非结构化数据10
1.3.5　不同的环境12
1.4　企业数据统计图13
1.5　企业数据分析16
1.6　数据的生命周期：理解时间线上的数据19
1.7　数据简史23
1.7.1　纸带和打孔卡23
1.7.2　磁带23
1.7.3　磁盘存储器24
1.7.4　数据库管理系统24
1.7.5　耦合处理器24
1.7.6　在线事务处理24
1.7.7　数据仓库25
1.7.8　并行数据管理25
1.7.9　数据保险箱25
1.7.10　大数据25
1.7.11　分水岭26
第2章　终端状态架构——“世界地图”27
2.1　架构组件27
2.2　终端状态架构中不同类型的数据28
2.3　通过模型塑造数据29
2.4　数据仓库在哪里30
2.5　不同类型的问题在终端状态架构中得到不同的回答31
2.6　数据湖中的数据31
2.7　终端状态架构中的元数据32
2.8　网络化元数据32
2.9　演变的经验33
2.10　数据湖架构34
第3章　终端状态架构中的转换35
3.1　冗余数据35
3.2　转换35
3.3　定制数据36
3.4　转换文本37
3.5　转换应用数据37
3.6　将数据转换为定制状态38
3.7　将数据转换为批量存储38
3.8　自动生成数据的转换39
3.9　转换批量数据39
3.10　转换和冗余40
第4章　大数据41
4.1　大数据简史41
4.1.1　类比—占领制高点41
4.1.2　占领制高点42
4.1.3　IBM 360的标准化42
4.1.4　在线事务处理42
4.1.5　Teradata和MPP处理43
4.1.6　Hadoop和大数据43
4.1.7　IBM和Hadoop43
4.1.8　坚守制高点43
4.2　何谓大数据43
4.2.1　另一种定义44
4.2.2　大体量44
4.2.3　廉价存储44
4.2.4　罗马人口普查方法44
4.2.5　非结构化数据45
4.2.6　大数据中的数据46
4.2.7　重复性数据的语境46
4.2.8　非重复性数据47
4.2.9　非重复性数据的语境47
4.3　并行处理49
4.4　非结构化数据53
4.4.1　无处不在的文本信息53
4.4.2　基于结构化数据的决策53
4.4.3　商业价值建议54
4.4.4　重复性和非重复性非结构化信息54
4.4.5　易于分析55
4.4.6　语境化56
4.4.7　一些语境化方法56
4.4.8　Map Reduce57
4.4.9　手工分析58
4.5　将重复性非结构化数据语境化58
4.5.1　解析重复性非结构化数据59
4.5.2　重铸输出数据59
4.6　文本消歧59
4.6.1　从叙述性数据库到分析性数据库60
4.6.2　文本消歧的输入60
4.6.3　映射61
4.6.4　输入/输出61
4.6.5　文档分解和命名值处理62
4.6.6　文档预处理63
4.6.7　电子邮件63
4.6.8　电子表格64
4.6.9　报告反编译器64
4.7　分类法65
4.7.1　数据模型和分类法66
4.7.2　分类法的适用性67
4.7.3　什么是分类法67
4.7.4　多种语言的分类法68
4.7.5　商业分类法还是私人分类法68
4.7.6　分类法和文本消歧的动态过程68
4.7.7　分类法和文本消歧的分离技术68
4.7.8　分类法的不同类型69
4.7.9　分类法—随着时间的推移进行维护70
第5章　孤岛式应用环境71
5.1　孤岛式应用的挑战71
5.2　构建孤岛式应用73
5.3　孤岛式应用是什么样的74
5.4　当前值数据74
5.5　最低限度的历史数据75
5.6　高可用性76
5.7　孤岛式应用之间的重叠76
5.8　冻结业务需求77
5.9　拆除孤岛式应用77
第6章　数据保险箱78
6.1　数据保险箱2.0简介78
6.1.1　数据保险箱的起源和背景78
6.1.2　什么是数据保险箱2.0建模80
6.1.3　如何定义数据保险箱2.0方法论81
6.1.4　为什么需要数据保险箱2.0架构81
6.1.5　数据保险箱2.0的实施范围81
6.1.6　数据保险箱2.0的商业利益81
6.1.7　数据保险箱1.0简介82
6.2　数据保险箱建模简介83
6.2.1　数据保险箱模型的概念83
6.2.2　数据保险箱模型的定义83
6.2.3　数据保险箱模型的组成部分83
6.2.4　业务键为何如此重要84
6.2.5　数据保险箱和数据仓库的关系85
6.2.6　如何转换到数据保险箱建模85
6.2.7　为什么要对暂存区的数据进行限制86
6.2.8　数据保险箱模型的基本规则86
6.2.9　为什么需要很多链接结构87
6.2.10　数据保险箱2.0的主键选项87
6.3　数据保险箱架构简介93
6.3.1　什么是数据保险箱2.0架构93
6.3.2　如何将NoSQL融入架构93
6.3.3　数据保险箱2.0架构的目标94
6.3.4　数据保险箱2.0模型的目标94
6.3.5　硬业务规则和软业务规则95
6.3.6　如何将管理型自助BI融入架构95
6.4　数据保险箱方法论简介96
6.4.1　数据保险箱2.0方法论概述96
6.4.2　CMMI对方法论的贡献96
6.4.3　如果CMMI这么好，为什么还要关心敏捷性98
6.4.4　如果有CMMI和敏捷就足够了，为什么要加入PMP和SDLC98
6.4.5　六西格玛对方法论的贡献99
6.4.6　TQM与方法论的关系100
6.5　数据保险箱实施简介101
6.5.1　实施概述101
6.5.2　模式的重要性101
6.5.3　为什么重新设计会因大数据而发生102
6.5.4　为什么需要虚拟数据集市103
6.5.5　什么是管理型自助BI103
第7章　运营数据105
7.1　运营环境简史105
7.1.1　计算机的商业用途105
7.1.2　首个应用105
7.1.3　爱德华·尤登和结构化革命106
7.1.4　系统开发生命周期106
7.1.5　磁盘技术107
7.1.6　关系数据库管理系统107
7.1.7　响应时间和可用性107
7.1.8　今天的企业计算108
7.2　标准工作单元109
7.2.1　响应时间的要素109
7.2.2　沙漏类比109
7.2.3　赛车场类比110
7.2.4　你的车辆与前面的车辆速度一样快111
7.2.5　标准工作单元的要求111
7.2.6　服务水平协议　111
7.3　结构化环境的数据建模111
7.3.1　路线图的目的111
7.3.2　只为颗粒数据建模112
7.3.3　实体关系图112
7.3.4　数据项集113
7.3.5　物理数据库设计113
7.3.6　数据模型不同层次的关联性114
7.3.7　连接示例115
7.3.8　通用数据模型115
7.3.9　运营数据模型和数据仓库数据模型115
第8章　数据架构116
8.1　数据架构简史116
8.2　大数据和系统接口123
8.2.1　大数据和系统接口概述123
8.2.2　重复性原始大数据和系统接口123
8.2.3　基于异常的数据124
8.2.4　非重复性原始大数据和系统接口125
8.2.5　进入现有系统环境125
8.2.6　语境丰富的大数据环境126
8.2.7　联合分析结构化数据和非结构化数据127
8.3　数据仓库和操作环境接口127
8.3.1　运营环境和数据仓库接口127
8.3.2　经典ETL接口128
8.3.3　ODS和ETL接口128
8.3.4　暂存区129
8.3.5　变动数据捕获129
8.3.6　内嵌转换130
8.3.7　ELT处理130
8.4　数据架构：高层视角131
8.4.1　高层视角131
8.4.2　冗余132
8.4.3　记录系统132
8.4.4　问题的不同类型133
8.4.5　不同的社区134
第9章　重复性分析135
9.1　重复性分析的基础知识135
9.1.1　不同的分析类型135
9.1.2　寻找模式136
9.1.3　启发式处理137
9.1.4　冻结数据137
9.1.5　沙箱138
9.1.6　“正常”概况139
9.1.7　提炼和过滤139
9.1.8　数据子集140
9.1.9　样本的偏差141
9.1.10　过滤数据141
9.1.11　重复性数据及其语境142
9.1.12　将重复记录链接起来143
9.1.13　日志磁带记录143
9.1.14　分析数据点144
9.1.15　离群值144
9.1.16　随时间推移的数据145
9.2　分析重复性数据146
9.2.1　日志数据147
9.2.2　数据的主动索引和被动索引148
9.2.3　汇总数据和详细数据149
9.2.4　大数据中的元数据150
9.2.5　链接数据151
9.3　重复性分析的进阶知识151
9.3.1　内部数据和外部数据151
9.3.2　通用标识符152
9.3.3　安全性153
9.3.4　过滤和提炼154
9.3.5　归档结果155
9.3.6　衡量指标156
第10章　非重复性数据157
10.1　非重复性数据的基础知识157
10.1.1　内嵌式语境化159
10.1.2　分类法和本体论处理160
10.1.3　自定义变量160
10.1.4　同形异义词消解161
10.1.5　缩略词消解162
10.1.6　否定分析163
10.1.7　数值标记163
10.1.8　日期标记164
10.1.9　日期标准化164
10.1.10　列表处理164
10.1.11　关联词处理165
10.1.12　停用词处理165
10.1.13　词干提取165
10.1.14　文档元数据166
10.1.15　文档分类166
10.1.16　邻近度分析167
10.1.17　文本ETL中的函数序列化167
10.1.18　内部引用完整性167
10.1.19　预处理和后处理168
10.2　映射169
10.3　分析非重复性数据170
10.3.1　呼叫中心信息171
10.3.2　病历177
第11章　运营分析：响应时间181
11.1　事务响应时间182
第12章　运营分析186
12.1　看待数据的不同视角189
12.2　数据集市189
12.3　运营数据存储190
第13章　个人分析193
第14章　终端状态架构中的数据模型196
14.1　不同的数据模型196
14.2　功能分解和数据流图197
14.3　企业数据模型198
14.4　星形连接和维度数据模型200
14.5　分类法和本体论201
14.6　数据的选择性细分203
14.7　主动数据模型和被动数据模型204
第15章　记录系统206
15.1　终端用户的认知周期206
15.2　记录系统简介207
15.3　终端状态架构中的记录系统207
15.4　老化在记录系统中的作用208
15.5　简单示例208
15.6　记录系统中的数据流209
15.7　记录系统以外的其他数据209
15.8　记录系统中的数据是否更新209
15.9　记录系统中的详细数据和汇总数据210
15.10　审计数据和记录系统211
15.11　文本和记录系统211
第16章　商业价值和终端状态架构213
16.1　终端状态架构的演变213
16.2　何谓商业价值214
16.3　战术性商业价值和战略性商业价值214
16.4　数据量和商业价值的关系215
16.5　“百万分之一”综合征215
16.6　商业价值发生在哪里216
16.7　随时间推移的数据相关性216
16.8　在哪里做出战术决策217
第17章　管理文本数据218
17.1　文本的挑战218
17.2　语境的挑战220
17.3　文本ETL的处理组件222
17.4　二次分析222
17.5　可视化223
17.6　基于数据和结构化数据的文本合并223
第18章　数据可视化简介224
18.1　数据可视化概览224
18.2　目的和背景225
18.3　可视化—一门科学和一门艺术225
18.4　可视化框架226
18.5　步骤1：定义226
18.6　步骤2：数据227
18.6.1　数据类型227
18.6.2　数据源227
18.6.3　数据组织228
18.6.4　数据质量229
18.7　步骤3：设计229
18.7.1　可视化的形式229
18.8　步骤4：发布233
18.8.1　目的：告知或教育233
18.8.2　目的：互动或探索234
18.9　数据可视化工具和软件234
18.10　总结234