首页>参考读物>计算机科学与技术>软件与程序设计

数据应用工程:方法论与实践
作者 : 钟大伟 高铎 王鹏 宋超 著
丛书名 : 大数据技术丛书
出版日期 : 2022-05-31
ISBN : 978-7-111-70409-6
定价 : 129.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 424
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

内容简介
这是一本讲解组织数据能力建设与数据应用工程化的著作,它旨在为企业应用和管理数据提供组织建设、技术体系和行业解决方案方面的理论指导和实践经验。本书是几位作者在数据领域十几年工作经验的总结,得到了业界10余位专家的一致好评。无论是像互联网行业的数据原生类企业,还是正在数字化转型的传统企业,本书将为他们大规模、工程化地发挥数据的价值提供有意的参考。
本书的内容大致分为如下四个方面:
(1)行业分析
从宏观角度阐述了数字化变革带来的问题和不确定性,并引出了解决这些问题需要掌握的理论和方法。
(2)理论方法
一方面,详细讲解了企业和组织的技术能力建设发方法、发展规律以及成熟度评估,帮助企业打下应用数据的坚实基础;一方面,详细介绍了数据应用成熟度模型的评估、运用和设计,以及数据工程的过程和方法。
(3)知识体系
详细讲解了数据治理与管理的方法,以及整个大数据体系的技术与架构。
(4)实践案例
通过4个综合案例分别讲解了数据工程与治理、业务数据化以及数据的工程化应用,既有企业级别的数据管理案例,还有业务级别的营销案例,不仅有To B场景,还有To G场景。

图书特色

资深大数据专家15年经验总结,10余位行业专家联袂推荐
助力组织打造数据生产力,为组织治理和使用数据提供工程化方法和行业先进经验

图书前言

为何写作本书
数字化大潮来临,所有组织都摩拳擦掌,却常常“拔剑四顾心茫然”。看过各种“包装精美”、优秀的解决方案,频繁参加各种交流会,了解了媒体上层出不穷的热炒概念,如数据中台、SaaS、PaaS、CaaS、API First、云原生、大数据、AI、DataOps、业务数据化、数据资产化、数据业务化、深度数字化、数字孪生、数字原生、数字化生存,以及让游戏娱乐与商业办公在数字世界产生碰撞的元宇宙,“破圈”加“悬浮”的剧情太容易让人热血上脑,但着眼于手头现实的工作,仍困惑于数字化该如何落地:
数字化首先应该做什么?它与信息化有什么区别?
需要聘请什么样的人才?各类人才需要具备哪些知识和技能?组织结构应该如何设计?
什么是DT?它可以创造哪些价值?如何选择合适的数据技术?如果自建数据平台,该如何设计?若采用外部平台,该如何选择数据平台供应商?
数据治理都需要做什么?数据资产该怎样建设?基于现有数据能够开发哪些数据应用以支撑业务?
数据作为数字经济的核心生产要素,如何被收集、加工、治理?如何解决组织自身缺少数据、数据价值不高、数据打通与利用存在障碍、数据应用发展找不准方向等问题?
如何应对数字化的诸多不确定性?例如技术的突破性变化、信息保护立法政策变化、数字平台因“守门人”职责继续垒高数据围墙而国家反垄断又在打破平台交互壁垒而对数据市场产生的综合影响,等等。
结合IT的发展历史和当前的数字化发展趋势,我们可以做如下总结:信息化是记录的无纸化,即信息的数字化,核心变化是效率提升;数字化是连接的在线化,即一切事物的数字化及数字化原生,核心变化是关系重构;进一步来说,数据化是数据的资产化与业务化,以实现数据驱动和新价值创造,而智能化可以实现规模化的数据价值挖掘。显然,我们可以认为信息化是数字化的早期阶段,而数据化是数字化发展的必然趋势。
数字经济将全面改变组织、商业、社会的未来,甚至改变宏观经济规律。巨大的潜能让全球都趋之若鹜。数据技术的快速发展、“新基建”的兴起、数字原生企业的扩张、全球的智能制造竞争、社会治理模式的转型、政府政策的引导和刺激,都让大家感觉到数字化时代会快速地全面来临。
要回答以上问题,我们需要对数字化发展规律进行分析和研究,对知识体系、最佳实践进行总结。本书的作者们在营销大数据服务、工业大数据、办公数字化、政府数字化治理领域有多年的从业经验,大家基于自身的实践、客户案例、行业观察、文献研究,建立了描述组织数字化发展规律的成熟度模型,并从模型的各个评价维度出发,梳理和归纳了相应工作领域的知识体系与技术方法,同时进一步结合具体实践案例,展示了对理论、方法、知识的实践应用。希望本书能够帮助读者全面了解数据应用工程,找到数字化落地的方法。
本书主要特点
本书既有模型理论又有丰富实践,是对具体数据实践的归纳和总结,是一本务实、落地的书。在基于实践进行规律总结时,本书不是仅仅简单地提出一点理论假说,而是进行深入研究,构建了完整的数字化方法论,并提供了具有广泛行业应用基础的成熟度理论背景,努力做到理论基础扎实,模型系统、知识体系完整,实践案例翔实,从而帮助大家从数据利用角度理解数字化发展规律、了解数据相关工作的知识与技能体系、熟悉发现数据价值的最佳实践,为组织开展数字化发展工作提供系统的指导和借鉴。
本书读者对象
本书是关于数字化理论、方法、知识和实践的,主要适合以下几类读者阅读:
组织数字化发展的决策者、为组织数字化转型提供咨询与解决方案服务的从业者、各行业组织内部数据相关岗位的从业者等;
对数据治理、数据分析、数据产品、数据工程、数据咨询等数据相关工作感兴趣的初学者;
大数据、数据分析相关专业的师生。
如何阅读本书
本书一共9章,分为行业分析、理论方法、知识体系、实践案例四个部分。行业分析部分介绍了数据时代的数字化趋势大背景;理论方法部分提供了数字化的方法论——数据应用成熟度模型,能够指导组织有效应对数字科技发展;知识体系部分完整地介绍了数字化涉及的数据治理、数据工程、数据技术的知识和技能体系;实践案例部分介绍了四个数据实践案例,阐述在不同领域如何开展数据治理、数据工程、数据应用的工作。
行业分析部分为第1章,从数字经济作用、技术发展、政策趋势、市场竞争等方面系统地总结了数字化发展的背景、趋势、政策、存在的问题,并引出解决以上问题需要掌握的理论与方法需求。
理论方法部分包含第2、3章。数字经济中数据是生产要素,所以数据管理及处理能力和数据利用水平,是一个组织数字化水平的体现。本部分基于成熟度模型的基础理论与模型构建方法,建立了一个完整的数据应用成熟度模型,并通过该模型描述了组织在数据利用方面的数字化发展规律。
第2章介绍了在各领域(特别是信息领域)普及的成熟度模型的理论基础、构建方法,并对技术创新、技术应用、组织能力建设三个领域的典型成熟度模型进行了分析和总结,是第3章提出的数据应用成熟度模型的理论根源和构建基础,特别是数据领域流行的DMM、DCMM、DSMM等描述某一维度数据能力的成熟度模型,属于第3章数据应用成熟度模型的互补模型。
第3章详细介绍了数据应用成熟度模型框架,说明了模型评估的维度内容及级别要求,并以过程模型的过程描述方法对数据应用成熟度模型的数据工程、数据治理两个核心能力过程维度进行了详细分解,以展示组织如何优化数据相关的过程,持续提升组织的数据能力。这是一个开放模型,组织可以参考建立适合自己实际情况的具体实施模型。
知识体系部分包括第4、5章,分别详细归纳了数据治理与管理知识、各类大数据技术及流行的开源组件知识。通过阅读这两章,读者可以了解数据相关工作需要掌握的知识体系,并在此基础上进一步按图索骥,对自己感兴趣的知识与技能领域进行深入学习。
实践案例部分包括第6~9章,介绍了四个实践案例,每个案例都非常详细,能够帮助大家了解数据能力建设与数据价值挖掘的关键细节。
宏观决策者可以重点阅读第1章和第3章,了解数字化的趋势和数字化发展规律;具体的数字化规划者可以重点阅读第2章和第3章,以掌握可指导数字化的方法论,并在运用数据应用成熟度模型时把握成熟度方法的核心理念;初学者可以重点阅读第4章和第5章,掌握入门的基础知识体系。实践案例部分适合各类读者阅读。
致谢
本书的核心理论方法来源于很多人的实践。在撰写本书的过程中,我们得到了大家的大力支持和无私帮助,在这里要十分感谢孙强、刘海军、周婷、张小艳、卢健、张自玉、田金周、李伟强、王丽、刘红欣、刘大伟、韩广利、李瑞杰、田娇娇、马冬、肖冉、张学敏、李国祥、史忠贤、刘晨、金秋香、何兴权、刘小红、吴西庆勇、程薛柯、徐双、张晓宇、张雪渊、刘金龙、李瑞欣等朋友的支持和指导。
感谢机械工业出版社华章分社的杨福川老师和李艺编辑,没有他们的督促、鼓励与指导,本书不会这么快与大家见面,感谢他们对书稿内容的审校和提炼,使本书内容更加扎实、引证有据。本书成书时间较长,感谢老师们的耐心等待。
本书第1~8章由钟大伟、高铎、王鹏完成,第9章的实践案例由宋超完成。
希望本书能够为数据领域的从业者提供一些有价值的参考,并引发一些思考,也希望大家能够积极反馈。在数字时代中,我们愿与大家共同成长。

专家评论

本书对数据应用的方法进行了系统剖析,全方位、多角度将DT能力进行演绎和升华,总结了新时代的大数据应用方法论。
——戚铭尧 清华大学深圳国际研究生院物流与交通学部副教授/物流数字化专家

本书是一本十分出色专业著作,内容针对组织数字化主题,从行业背景、理论方法、知识介绍到案例说明,十分系统全面。作者以其专业、严谨的精神,做到了分析有深度、方法有创见、论点有依据、论证有逻辑、案例有干货。
——李志强 Intel平台安全产品总监

近10年最有魅力的行业就是大数据,DT时代、DMP、CDP、数据中台等都是因为大数据才成为企业数字化的热门话题。本书从参与者视角和数据工程视角讲大数据,既有方法论,又有工程实践,值得一读。
——翟战强 易华录资深副总裁

当下中国数字化进程如火如荼,推出这本书,时机正好,赶上了市场的需求。
——阎志涛 快用云创始人

没有数据的企业如何整理数据?有数据的企业如何管理数据?已经用数据的企业如何更高效使用数据?本书系统化做了梳理,以案例的方式帮助大家理解和掌握。
——Li Xiang Meta数据科学家

上架指导

计算机/大数据

封底文字

4位作者都是大数据领域的资深专家,各有所长,又非常互补,既能深入客户现场做好服务,又能站在行业视角进行总结,是实战派。
——李建刚 考拉FM副总裁
本书的开创性在于对数字化模型方法论的描述没有仅停留在概念层面,而是基于扎实可靠的理论和科学严谨的方法,构建了完整、详细、可实际操作的数据应用成熟度模型,并对模型的各个维度进行了贴近实践的总结和分析,填补了数字化方法论领域的空白。
——刘虎 顺丰丰图数字政府运营总经理
钟博士领衔撰写此书,是质量的保证。钟博士在汽车导航、无人驾驶、数据治理领域有超过20年的职业经验,是国内少数一直深耕于一线的技术专家。
——马德锋 滴滴智慧交通资深解决方案工程师
本书作者都有丰富的数字化实践经验,不仅提出了独特的完整方法论,能够帮助组织持续提升数据能力、有效开发数据价值,而且通过丰富、翔实的案例展示了方法论的应用,是数字化组织从业者难得的指导书。
——易文斌 联想研究院供应链方案架构师
以前认为把大数据引入公司就能解决大部分问题,本书告诉我们事实并非如此。每个企业的数据水平不同,适用的方法论不同,本书对大数据能力分层并给出了针对性的工程建议,对推进企业数字化很有借鉴意义。
——赵洪波 货拉拉地图数据高级架构师
本书针对企业数字化转型面临的挑战,在行业最佳实践的基础上归纳出数字化成熟度模型,能够帮助组织打造数据生产力。 
——王兆强 天干株式会社CTO

作者简介

钟大伟 高铎 王鹏 宋超 著:作者简介
钟大伟
中科院博士,资深大数据专家,拥有15年技术开发和管理经验,一直从事数据处理、大数据研发和数据治理相关的工作。从地图数据处理到大数据处理,带领过多个数据研发团队、数据分析团队、数据治理团队,拥有丰富的数据工程经验。掌握数据生产管理方法,熟悉数据产品设计,对数据治理理论有深入全面的研究。在数据资产管理、生命周期管理、元数据管理、数据质量管理、数据安全合规管理等方面有丰富的实践经验。
高铎
某头部互联网公司资深专家,拥有10余年数据营销、数据治理和数据应用领域工作经验。曾任职TalkingData、百度等公司,参与产品规划、渠道运营、技术管理、销售管理、解决方案等不同类型工作。多次在乌镇世界互联网大会、全球移动互联网大会(GMIC)、中国国际数码互动娱乐展览会(ChinaJoy)等大会作为演讲嘉宾;曾担任国内数个年度营销奖项(如金网奖、金鼠标、艾菲奖、MMA、灵犀奖等)评审嘉宾;参与主办过4届中国年度移动应用风云榜。有5项国家公开授予的LBS相关专利,发表EI索引AI相关论文4篇。
王鹏
人工智能和大数据领域的资深专家,有超过15年的数据应用和实践经验。现在就职于百度,担任百度工业大数据&工业互联网产品负责人,曾就职于高德、四维图新、TalkingData,从事数据治理、数据产品相关工作。在大数据和人工智能领域有深厚的积淀,擅长通过数据挖掘业务机会,有丰富的数据治理和GIS领域数据经验,对于数据在营销、风控、工业、政府等多个领域应用经验丰富。
宋超
现就职于河南省自然资源电子政务中心,拥有10余年自然资源数据管理经验。在自然资源大数据应用领域积累深厚,精通自然资源管理业务、业务流程重组以及模型搭建技术。先后参与10余项省级以上科研项目研究,近年来获省部级、省级科技进步奖等多项奖励,发表核心科技期刊论文多篇。

图书目录

赞誉
前言
第一部分 行业分析
第1章 数字化时代的变革与挑战 2
1.1 数字经济与生产变革 2
1.1.1 从农业经济到数字经济,从土地到数据 3
1.1.2 从规模化生产到个性化定制生产,从IT到DT 8
1.2 数字化时代的变革动能 10
1.2.1 技术发展创造变革 11
1.2.2 “新基建”提速变革 14
1.2.3 商业竞争驱动变革 16
1.2.4 社会治理需要变革 20
1.2.5 政府政策引导变革 22
1.3 数字化变革中的不确定性与挑战 25
1.3.1 环境不确定性 25
1.3.2 数字化变革的挑战 30
1.4 本章小结 37
第二部分 理论方法
第2章 技术变革与组织应用技术的规律 40
2.1 组织面对技术变革的三大挑战 40
2.1.1 新技术不断涌现,技术选择的挑战 41
2.1.2 创新风险很高,技术应用发展规划的挑战 45
2.1.3 发展常遇瓶颈,持续提升的挑战 47
2.2 事物发展的“第一性原理” 48
2.2.1 成熟度 48
2.2.2 成熟度模型 49
2.2.3 成熟度模型分类 51
2.3 技术创新规律与成熟度评估 56
2.3.1 技术发展生命周期规律 56
2.3.2 基于就绪水平的技术研发成熟度评估 57
2.3.3 考虑宣传期望的技术发展成熟度曲线 59
2.4 组织技术应用的发展规律与成熟度评估 61
2.4.1 指导早期信息化规划的诺兰成长阶段模型 62
2.4.2 诺兰模型在网络时代与智能时代的扩展 63
2.5 组织技术应用的能力建设规律与成熟度评估 65
2.5.1 从质量方法发展来的能力成熟度模型 65
2.5.2 能力成熟度模型的基础原理 68
2.5.3 软件领域广泛应用的能力成熟度模型 73
2.5.4 数据领域广泛应用的能力成熟度模型 75
2.6 本章小结 81
第3章 数据应用成熟度模型 82
3.1 模型开发背景 82
3.2 数据应用成熟度模型框架 86
3.2.1 模型框架说明 86
3.2.2 模型阶段与维度说明 87
3.3 数据应用成熟度模型评估 88
3.3.1 发展评估—数据应用维度 88
3.3.2 能力评估—数据工程维度 92
3.3.3 能力评估—数据治理维度 94
3.3.4 数据应用成熟度综合评估 96
3.4 数据应用成熟度模型的运用 101
3.4.1 模型运用流程 101
3.4.2 成熟度进阶建议和措施 102
3.5 数据工程过程 104
3.5.1 数据工程过程概述 105
3.5.2 数据理解过程 108
3.5.3 数据设计过程 111
3.5.4 数据处理过程—数据开发 114
3.5.5 数据处理过程—数据分析与数据科学建模 124
3.5.6 数据部署过程 129
3.5.7 数据运营过程 131
3.5.8 数据工程支持过程 133
3.6 数据治理过程?? 134
3.6.1 数据治理维度概述 134
3.6.2 宏观决策域 135
3.6.3 核心治理域—基本治理过程 137
3.6.4 核心治理域—综合治理过程 141
3.7 本章小结 143
第三部分 知识体系
第4章 数据治理与管理 146
4.1 元数据管理 147
4.1.1 元数据概述 147
4.1.2 元数据定义 147
4.1.3 元数据分类 148
4.1.4 元数据管理详解 152
4.2 数据质量管理 154
4.2.1 数据质量概述 154
4.2.2 数据质量问题 156
4.2.3 数据质量测量与评价 159
4.2.4 数据质量问题的解决方法 170
4.2.5 如何做好数据质量管理 173
4.3 数据安全管理 175
4.3.1 数据安全的内容与特点 175
4.3.2 数据安全管理流程 179
4.3.3 数据合规要求的法规体系 181
4.3.4 数据安全的基础合规要求 183
4.3.5 个人信息处理的专门合规要求 186
4.3.6 数据安全管理的技术和方法 196
4.4 本章小结 207
第5章 大数据技术详解 208
5.1 大数据技术的方法和流行开源组件 208
5.1.1 大数据的4V特性与技术挑战 208
5.1.2 大数据技术的主要方法 209
5.1.3 大数据技术的流行开源组件 211
5.2 大数据系统架构 212
5.2.1 MPP数据库架构 212
5.2.2 Hadoop体系的架构 215
5.2.3 两种架构的对比 218
5.2.4 存储与计算分离及云化的未来架构 220
5.3 大数据存储技术 221
5.3.1 分布式文件存储系统 222
5.3.2 分布式数据库系统 225
5.3.3 分布式消息传递系统 232
5.4 大数据计算技术 234
5.4.1 离线批处理 234
5.4.2 实时流处理 236
5.5 大数据分析技术 239
5.5.1 OLAP技术介绍 239
5.5.2 实时OLAP系统的两种架构模型 240
5.5.3 OLAP相关技术分类 241
5.5.4 OLAP技术典型流行产品示例 242
5.6 数据科学技术 244
5.6.1 机器学习的基础概念 244
5.6.2 有监督机器学习算法 250
5.6.3 无监督机器学习算法 260
5.7 本章小结 264
第四部分 实践案例
第6章 数据工程与治理案例——移动大数据的数据处理实践 266
6.1 统一的大数据工程与治理架构 266
6.2 数据仓库设计 268
6.2.1 数据模型架构设计 269
6.2.2 数据管理规范设计 270
6.2.3 数据规格设计 276
6.3 大数据日志收集技术 278
6.3.1 Web日志收集技术 278
6.3.2 移动端日志收集技术 280
6.3.3 埋点技术与埋点实现 283
6.4 数据处理设计 291
6.4.1 数据处理技术架构设计 291
6.4.2 数据处理流程设计 293
6.5 数据科学建模 295
6.5.1 数据科学建模工程流程示例 295
6.5.2 面向数据安全的Embedding数据特征提取方法与应用实例 300
6.5.3 基于移动设备行为数据的人口属性性别标签预测模型迭代实例 304
6.6 数据治理 309
6.6.1 数据治理平台的目标 309
6.6.2 数据治理平台的功能架构 310
6.6.3 元数据管理 314
6.6.4 血缘查询与告警 317
6.6.5 数据资产统计 318
6.6.6 其他功能模块示例 322
6.7 本章小结 325
第7章 数据工程过程案例——企业CDP建设中的数据工程实践 326
7.1 CDP平台的数据源梳理 328
7.1.1 数据源梳理过程的输入和输出 329
7.1.2 了解客户的业务及流程 330
7.1.3 了解客户的系统 330
7.1.4 了解客户的数据 331
7.2 CDP平台的标签体系及其口径梳理 333
7.2.1 标签体系及其口径梳理过程的输入和输出 333
7.2.2 标签体系内容说明 334
7.2.3 标签体系梳理 336
7.2.4 标签口径梳理 339
7.3 CDP平台的数据同步接口定义 341
7.3.1 数据同步接口定义过程的输入和输出 341
7.3.2 关于ETL和ELT 342
7.3.3 数据同步接口定义 342
7.4 CDP平台的数据模型设计 345
7.4.1 关于数据模型设计过程的输入与输出 345
7.4.2 数据模型设计 346
7.4.3 数据模型的应用 351
7.5 CDP平台的ETL设计 352
7.5.1 ETL设计过程的输入和输出 353
7.5.2 ETL设计 353
7.6 CDP平台的ETL开发 357
7.6.1 ETL开发过程的输入和输出 357
7.6.2 ETL开发流程 358
7.7 CDP平台的数据运维 359
7.7.1 运维过程的输入与输出 359
7.7.2 运维工作内容 360
7.8 本章小结 362
第8章 数据应用案例——大数据统计分析与个性化营销 363
8.1 统计级大数据应用——移动应用统计分析系统 363
8.1.1 业务背景 364
8.1.2 产品技术设计 367
8.1.3 具体实现示例与说明 379
8.2 个体级大数据应用——营销数据管理平台 382
8.2.1 产品背景 382
8.2.2 产品设计 382
8.2.3 具体实现示例 391
8.3 本章小结 392
第9章 数据应用案例——基于空间大数据的土地资源数字化精准监管 393
9.1 案例背景 393
9.2 数据处理过程 394
9.3 数字化的土地执法监管应用 398
9.4 本章小结 401
附录
附录A 成熟度模型的构建方法 404
附录B 数据应用成熟度模型设计说明 408
附录C 数据合规要求的法规文件汇总 411

教学资源推荐
作者: Brian W.Kernigham
作者: [美]罗伯特·W. 塞巴斯塔(Robert W. Sebesta) 著
作者: 邱李华 郭志强 曹青
作者: (英)Roger Garside, John Mariani
参考读物推荐
作者: 杨开元 著
作者: 杜文 编著
作者: (美)Joshua Bloch