首页>参考读物>计算机科学与技术>综合

数据质量测量的持续改进
作者 : [美] 劳拉·塞巴斯蒂安-科尔曼(Laura Sebastian-Coleman)著
译者 : 卢涛 李颖 译
出版日期 : 2016-05-03
ISBN : 978-7-111-53239-2
定价 : 79.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 271
开本 : 16
原书名 : Measuring Data Quality for Ongoing Improvement: A Data Quality Assessment Framework
原出版社: Elsevier
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

图书特色

在数据质量社区唯一堪称成就显著的著作中,这本书在如何测量数据质量、记录测量结果,以及根据这些结果采取行动方面提供了完整和清晰的指令集。这些指令具有前瞻性和实践意义,对于测量和提高数据质量的实践者,本书极其有用。
— David Plotkin,EMC2咨询顾问

本书将向你展示如何持续地测量和监控数据质量,并确保质量。你将从测量的一般概念开始,并完成一个具有超过48种测量类型的详细框架,这些测量类型涉及5个质量维度:完备性、及时性、一致性、有效性和完整性。持续测量而不是一次性操作,将帮助你的组织把数据质量提升到一个新水平。这个测量质量的浅显方法能被业务和IT两方面的人员理解,并提供如何在任何组织内采用DQAF的实践指导,使你能够设定测量的优先级并高效地针对结果做出报告。
本书不仅介绍使用数据测量结果来治理和提高数据质量的策略,为在数据资产中应用这个框架提供翔实指导,而且包括用于趋势分析且对数据质量结果进行定义和归类的概念性模型,以及对持续测量和监控的普遍业务需求。通过阅读本书,你将能够确定应该优先实现哪些测量类型,了解将它们放置在数据流中的什么地方,以及测量的执行频度。

本书主要内容:
如何利用与技术无关的数据质量评估框架(DQAF)来解决特定业务的优先级和质量的挑战
利用一套数据质量测量的非技术词汇,便于业务和IT人员讨论
如何使用能够适用于任何情况的通用测量类型来持续测量数据质量

劳拉·塞巴斯蒂安-科尔曼
(Laura Sebastian-Coleman)
Optum Insight公司数据质量架构师,信息质量认证专家,自2003年以来,一直从事数据质量方面的工作。她发起并推动Optum Insight的数据质量社区发展,促进数据消费者的培训项目,并领导建立数据标准和管理元数据的工作。2009年,她带领Optum和UnitedHealth集团的分析师,研发了数据质量评估框架(DQAF)。
劳拉曾在麻省理工学院的信息质量会议、信息和数据质量国际协会(IAIDQ)以及数据治理组织(DGO)主办的会议上发表论文与演讲。2009年与2010年,她曾担任IAIDQ会员服务总监。


资深数据质量架构师撰写,凝聚作者十余年在信息质量和数据管理领域的实践经验,深入浅出地剖析数据质量测量和监控的概念、原理、方法和最佳实践。从数据质量的完备性、及时性、有效性、一致性和完整性五个方面阐释数据质量评估框架(DQAF)在持续改善数据质量测量各个方面的问题,能为数据质量研究者与开发人员设计、开发、维护和优化数据测量与监控提供有效指导。
本书分为六部分,共16章。第一部分(第1~4章)讨论对数据质量和数据管理意义重大的术语,涉及数据的扩展定义、符号性功能、与数据和数据管理相关的角色、与数据管理相关的概念以及数据质量维度的概念。第二部分(第5章和第6章)描述创建DQAF的原因,概括框架的假设、定义和管理思路,并简要描述48种测量类型。第三部分(第7~9章)阐释数据评估方案,涉及数据评估的目标与输入、如何剖析数据、测量与数据质量改进项目的关系以及将持续测量用于维持数据质量的一般原则。第四部分(第10章和第11章)展示DQAF类别如何用于编制数据质量的需求,以便指定数据质量的联机测量、控制和定期测量。第五部分(第12章和第13章)讨论定义数据质量战略的环境和方法,涉及数据质量战略的概念与总体策略,还讨论建立组织的数据质量战略的12个指令。第六部分(第14~16章)详细讨论DQAF的框架,涉及联机测量中如何收集与计算原始测量数据,如何产生测量结果,以及DQAF测量逻辑数据模型的测量类型共有的功能。

上架指导

计算机科学及应用

封底文字

在数据质量社区唯一堪称成就显著的著作中,这本书在如何测量数据质量、记录测量结果,以及根据这些结果采取行动方面提供了完整和清晰的指令集。这些指令具有前瞻性和实践意义,对于测量和提高数据质量的实践者,本书极其有用。
——David Plotkin,EMC2咨询顾问

本书将向你展示如何持续地测量和监控数据质量,并确保质量。你将从测量的一般概念开始,并完成一个具有超过48种测量类型的详细框架,这些测量类型涉及5个质量维度:完备性、及时性、一致性、有效性和完整性。持续测量而不是一次性操作,将帮助你的组织把数据质量提升到一个新水平。这个测量质量的浅显方法能被业务和IT两方面的人员理解,并提供如何在任何组织内采用DQAF的实践指导,使你能够设定测量的优先级并高效地针对结果做出报告。
本书不仅介绍使用数据测量结果来治理和提高数据质量的策略,还为在数据资产中应用这个框架提供翔实指导,而且还包括用于趋势分析的对数据质量结果进行定义和归类的概念性模型,以及对持续测量和监控的普遍业务需求。通过阅读本书,你将能够确定应该优先实现哪些测量类型,了解将它们放置在数据流中的什么地方,以及测量的执行频度。
本书主要内容:
•演示如何利用与技术无关的数据质量测量框架(DQAF)来解决特定业务的优先级和质量的挑战
•利用一套数据质量测量的非技术词汇,使得能够在业务和IT人员之间开展讨论
•描述如何使用能够适用于任何情况的通用测量类型来持续测量数据质量

图书序言

我第一次认识劳拉·塞巴斯蒂安-科尔曼是在2007年。在麻省理工学院信息产业质量研讨会的全体会议上听她发表意见时,我注意到她是一个非常能说会道的人。随着时间的推移,这第一印象并没有改变,反而加强了。2008年在麻省理工学院,当我们都应邀出席会议的时候,我们直接见面了。她的思虑周详且旗帜鲜明地表达自己想法的能力再次给我留下了深刻印象。我们继续在麻省理工学院和IAIDQ(信息和数据质量国际协会)随后的会议中进行交流。每次我都期待听到她在医疗部门数据质量方面取得的成就的报告。这本书的问世,使得现在我们所有人都有机会向她学习。
其实,自从我听说她有计划出版本书后,我就一直在热切地等待着她这本书。熟悉我的《数据质量工程实践—获取高质量数据和可信信息的十大步骤》一书的读者都知道,我的方法填补了我们的知识体系中的高层概念和数据质量大饼中特定片段的深入细节之间的空白。我的十大步骤中的第9步被称为“实现控制”。有了劳拉的书,我们现在有了实现控制的深入细节。
这本书是做联机测量的首选手册,这是一种结合在数据处理中进行的测量。她研制数据质量评估框架(DQAF)的最初目的是解决以下问题:“如何建立一个进行数据质量测量的方法,它将跨多个数据存储系统工作,提供有意义的测量结果,并有助于努力提高数据质量?”正如在这本书中介绍的,DQAF已成功地解答了上述问题。
劳拉曾是Optum Insight公司最初创建和实现此框架的团队中的一员。她认识到市面上还没有解决持续测量数据质量问题的书,这是数据质量从业者最大的挑战之一。很多书都写了测量的必要性以及与剖析、数据发现和检查相关的做法,但都没有写如何持续地监控数据,以确保它继续符合要求。提高数据质量取决于持续测量数据是否符合业务期望的能力。劳拉从数据质量测量的上下文开始,并最终转到实现所必需的细节上。她的实践经验,连同她的教育背景,使她完全有资格写这本书。本书是数据质量文献的一个重要补充,我相信它必定会成为数据专业的标准参考资料。
从五年前我第一次听说劳拉,到现在她作为值得信任的同事和朋友,我一直都在注意她的言论。随着很多年前得到商业上的肯定,每个人都应该听劳拉·塞巴斯蒂安-科尔曼怎么说。这里是你的机会!学习和享受吧!
Danette McGilvray
《数据质量工程实践—获取高质量数据和可信信息的十大步骤》作者
Granite Falls Consulting公司主席和首席顾问
弗里蒙特,加利福尼亚,2012

作者简介

[美] 劳拉·塞巴斯蒂安-科尔曼(Laura Sebastian-Coleman)著:暂无简介

译者简介

卢涛 李颖 译:暂无简介

图书目录

序言
致谢
作者简介
概述1
第一部分 概念和定义
第1章 数据13
1.1 目的13
1.2 数据13
1.3 数据表示14
1.4 数据事实20
1.5 数据作为产品20
1.6 数据作为分析的输入21
1.7 数据和期望21
1.8 信息22
1.9 总结思考23
第2章 数据、人员和系统25
2.1 目的25
2.2 企业或组织25
2.3 IT与业务26
2.4 数据生产者27
2.5 数据消费者27
2.6 数据代理27
2.7 数据管家和数据管家工作28
2.8 数据所有者28
2.9 数据所有权和数据治理 29
2.10 IT,业务和数据所有者,终极版29
2.11 数据质量项目组30
2.12 利益相关者31
2.13 系统和系统设计31
2.14 总结思考32
第3章 数据管理、模型和元数据33
3.1 目的33
3.2 数据管理33
3.3 数据库、数据仓库、数据资产和数据集34
3.4 源系统、目标系统和记录系统35
3.5 数据模型35
3.6 数据模型的类型36
3.7 数据的物理特征37
3.8 元数据38
3.9 元数据是显性知识40
3.10 数据链和信息生命周期41
3.11 数据谱系和数据出处41
3.12 总结思考42
第4章 数据质量和测量43
4.1 目的43
4.2 数据质量43
4.3 数据质量维度44
4.4 测量45
4.5 测量数据46
4.6 数据质量测量和业务/IT鸿沟47
4.7 有效测量的特点 48
4.8 数据质量评估49
4.9 数据质量维度,DQAF测量类型,特定的数据质量指标50
4.10 数据剖析51
4.11 数据质量问题和数据管理问题52
4.12 合理性检查52
4.13 数据质量阈值52
4.14 过程控制54
4.15 联机数据质量的测量和监控54
4.16 总结思考55
第二部分 DQAF的概念和测量类型
第5章 数据质量评估框架概念58
5.1 目的58
5.2 DQAF解决的问题58
5.3 数据质量期望和数据管理59
5.4 DQAF的范围60
5.5 DQAF质量维度62
5.6 定义DQAF测量类型64
5.7 元数据的要求64
5.8 测量和评估分类的对象65
5.9 测量的功能:收集、计算、比较67
5.10 总结思考68
第6章 DQAF测量类型69
6.1 目的69
6.2 数据模型的一致性69
6.3 保证正确接收用于处理的数据69
6.4 检查接收到的数据的状况70
6.5 评估数据处理的结果71
6.6 评估数据内容的有效性72
6.7 评估数据内容的一致性 73
6.8 对放置联机测量的注释75
6.9 跨表内容完整性定期测量76
6.10 评估整体数据库内容77
6.11 评估控制和测量78
6.12 测量类型:综合清单78
6.13 总结思考82
第三部分 数据评估方案
第7章 初步数据评估86
7.1 目的86
7.2 初步评估87
7.3 初步评估的输入87
7.4 数据预期87
7.5 数据剖析87
7.6 列属性剖析 89
7.7 结构剖析92
7.8 剖析现有数据资产96
7.9 从剖析到评估96
7.10 初步评估的可交付成果96
7.11 总结思考97
第8章 数据质量改进项目评估98
8.1 目的98
8.2 数据质量改进工作98
8.3 改进项目中的测量98
第9章 持续测量101
9.1 目的101
9.2 适于持续测量的情况101
9.3 示例:医疗保健数据103
9.4 持续测量的输入104
9.5 重要性和风险106
9.6 自动化106
9.7 控制106
9.8 定期测量 107
9.9 持续测量的交付成果108
9.10 联机与定期测量的对比108
9.11 总结思考110
第四部分 将DQAF运用到数据需求中
第10章 需求、风险和重要性114
10.1 目的114
10.2 业务需求114
10.3 数据质量需求和期望的数据特征116
10.4 数据质量需求和数据风险118
10.5 影响数据重要性的因素119
10.6 指定数据质量指标120
10.7 总结思考127
第11章 提问128
11.1 目的128
11.2 提问128
11.3 了解项目129
11.4 了解源系统130
11.5 数据消费者的需求132
11.6 数据的状况133
11.7 数据模型、转换规则和系统设计134
11.8 测量规范过程134
11.9 总结思考137
第五部分 数据质量战略
第12章 数据质量战略140
12.1 目的140
12.2 战略的概念140
12.3 系统战略、数据战略和数据质量战略141
12.4 数据质量战略和数据治理142
12.5 信息生命周期中的决策点143
12.6 数据质量战略一般注意事项144
12.7 总结思考145
第13章 数据质量战略的指令146
13.1 目的146
13.2 指令1:获得管理层对数据质量的承诺148
13.3 指令2:把数据作为资产149
13.4 指令3:应用资源来注重质量150
13.5 指令4:建立数据的显性知识151
13.6 指令5:把数据作为可测量和改进的流程的一个产品152
13.7 指令6:认识到质量是由数据使用者定义的153
13.8 指令7:解决造成数据问题的根本原因154
13.9 指令8:测量数据质量,监控关键数据156
13.10 指令9:保持数据生产者对自己的数据质量(和有关该数据的知识)负责158
13.11 指令10:为数据使用者提供所需的数据使用知识158
13.12 指令11:数据需要和用途将演进—为演进作规划159
13.13 指令12:数据质量超越了数据本身—构建注重质量的文化160
13.14 总结思考:使用现状评估161
第六部分 DQAF详解
第14章 测量功能:收集、计算、比较165
14.1 目的165
14.2 测量功能:收集、计算、比较165
14.3 收集原始测量数据166
14.4 计算测量数据167
14.5 将测量结果与过去的历史结果比较168
14.6 统计168
14.7 控制图:统计过程控制的主要手段172
14.8 DQAF和统计过程控制172
14.9 总结思考173
第15章 DQAF测量逻辑模型的功能174
15.1 目的174
15.2 指标定义表和测量结果表174
15.3 可选字段176
15.4 分母字段177
15.5 自动阈值 179
15.6 手动阈值180
15.7 紧急阈值180
15.8 手动或紧急阈值和结果表181
15.9 其他系统需求181
15.10 支持需求181
15.11 总结思考181
第16章 DQAF测量类型的各方面182
16.1 目的182
16.2 DQAF的各方面183
16.3 本章的组织结构183
16.4 测量类型#1:数据集的完备性—元数据和参照数据的充分性185
16.5 测量类型#2:一个字段内的格式一致性187
16.6 测量类型#3:跨表的格式一致性188
16.7 测量类型#4:一个字段内默认值使用的一致性189
16.8 测量类型#5:跨表的默认值使用的一致性189
16.9 测量类型#6:用于处理的数据的交付及时性190
16.10 测量类型#7:数据集的完备性—对于处理的可用性192
16.11 测量类型#8:数据集的完备性—记录数与控制记录相比193
16.12 测量类型#9:数据集的完整性—汇总数额字段数据194
16.13 测量类型#10:数据集的完备性—将大小与过去的大小作比较195
16.14 测量类型#11:记录的完备性—长度196
16.15 测量类型#12:字段的完备性—不可为空的字段197
16.16 测量类型#13:数据集的完整性—重复数据删除198
16.17 测量类型#14:数据集的完整性—重复记录的合理性检查199
16.18 测量类型#15:字段内容的完备性—来自数据源的默认值200
16.19 测量类型#16:基于日期标准的数据集的完备性202
16.20 测量类型#17:基于日期标准的数据集的合理性203
16.21 测量类型#18:字段内容的完备性—接收到的数据丢失要处理的关键字段204
16.22 测量类型#19:数据集的完备性—经过一个流程的记录数的平衡205
16.23 测量类型#20:数据集的完备性—拒绝记录的理由206
16.24 测量类型#21:经过一个流程的数据集的完备性—输入与输出的比率207
16.25 测量类型#22:经过一个流程的数据集的完备性—数额字段的平衡208
16.26 测量类型#23:字段内容的完备性—汇总的数额字段的比率209
16.27 测量类型#24:字段内容的完备性—推导的默认值211
16.28 测量类型#25:数据处理用时212
16.29 测量类型#26:供访问的数据的及时可用性214
16.30 测量类型#27:有效性检查,单字段,详细结果215
16.31 测量类型#28:有效性检查,卷积汇总218
16.32 测量类型#29:有效性检查,表内多列,详细结果219
16.33 测量类型#30:一致性列剖析221
16.34 测量类型#31:数据集内容的一致性,所表示的实体的不重复计数和记录数比率223
16.35 测量类型#32:数据集内容的一致性,两个所表示的实体的不重复计数的比率225
16.36 测量类型#33:一致性多列剖析226
16.37 测量类型#34:表内时序与业务规则的一致性229
16.38 测量类型#35:用时(小时、天、月等)一致性229
16.39 测量类型#36:数额字段跨二级字段计算结果的一致性231
16.40 测量类型#37:按聚合日期汇总的记录数的一致性233
16.41 测量类型#38:按聚合日期汇总的数额字段数据的一致性235
16.42 测量类型#39:父/子参照完整性236
16.43 测量类型#40:子/父参照完整性237
16.44 测量类型#41:有效性检查,跨表,详细结果238
16.45 测量类型#42:跨表多列剖析一致性239
16.46 测量类型#43:跨表的时序与业务规则的一致性240
16.47 测量类型#44:跨表数额列计算结果的一致性241
16.48 测量类型#45:按聚合日期汇总的跨表数额列的一致性241
16.49 测量类型#46:与外部基准比较的一致性242
16.50 测量类型#47:数据集的完备性—针对特定目的的总体充分性243
16.51 测量类型#48:数据集的完备性—测量和控制的总体充分性244
16.52 总结思考:了解你的数据245
术语表246
参考文献255

教学资源推荐
作者: 蒋明礼 杨嘉辉 贾年
作者: 董丽华 胡予濮 曾勇 编著
作者: 教育部高等学校计算机科学与技术专业教学指导分委员会 编制
参考读物推荐
作者: [美] 亚拉文·谢诺伊(Aravind Shenoy) 乌尔里希·索松(Ulrich Sossou) 著
作者: (美)Nilofer Merchant 著
作者: (美)Henry S.Warren,Jr.