首页>参考读物>计算机科学与技术>数据库

数据自助服务实践指南:数据开放与洞察提效
作者 : [美]桑迪普·乌坦坎达尼(Sandeep Uttamchandani) 著
译者 : 吴瑞诚 熊畅 王晓倩 译
出版日期 : 2022-04-29
ISBN : 978-7-111-70385-3
定价 : 99.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 227
开本 : 16
原书名 : The Self-Service Data Roadmap 
原出版社: O'Reilly Media, Inc.
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书主要介绍数据洞察及其四个阶段,第1部分为自助服务数据发现,包括元数据目录服务、搜索服务、特征存储服务、数据迁移服务、点击流跟踪服务。第二部分 为自助服务数据准备包括数据湖管理服务、数据整理服务、数据权限治理服务。第三部分为自助服务数据构建,包括、数据虚拟化服务、模型训练服务、持续集成服务、A/B测试服务。第四部分为自助服务数据实施,包括查询优化服务、管道编排服务、模型部署服务、质量监控服务、成本管理服务。通过学习本书,数据工程师、数据科学家和团队经理将学习如何构建一个自助数据科学平台,帮助你的组织中的任何人从数据中提取见解。

图书特色

图书前言

排版约定
本书中使用以下排版约定:
斜体(Italic)
表示新的术语、URL、电子邮件地址、文件名和文件扩展名。
等宽字体(Constant width)
用于程序清单,以及段落中的程序元素,例如变量名、函数名、数据库、数据类型、环境变量、语句以及关键字。
等宽粗体(Constant width bold)
表示应由用户直接输入的命令或其他文本。
等宽斜体(Constant width italic)
表示应由用户提供的值或由上下文确定的值替换的文本。
该图示表示提示或建议。
该图示表示一般性说明。
该图示表示警告或注意。
示例代码
可以从https://oreil.ly/ssdr-book下载补充材料(示例代码、练习、勘误等)。
这里的代码是为了帮助你更好地理解本书的内容。通常,可以在程序或文档中使用本书中的代码,而不需要联系O’Reilly获得许可,除非需要大段地复制代码。例如,使用本书中所提供的几个代码片段来编写一个程序不需要得到我们的许可,但销售或发布O’Reilly的示例代码则需要获得许可。引用本书的示例代码来回答问题也不需要许可,将本书中的很大一部分示例代码放到自己的产品文档中则需要获得许可。
非常欢迎读者使用本书中的代码,希望(但不强制)注明出处。注明出处时包含书名、作者、出版社和ISBN,例如:
The Self-Service Data Roadmap,作者Sandeep Uttamchandani,由O’Reilly出版,书号978-1-492-07525-7
如果读者觉得对示例代码的使用超出了上面所给出的许可范围,欢迎通过permissions@oreilly.com联系我们。
O’Reilly在线学习平台(O’Reilly Online Learning)
40多年来,O’Reilly Media致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。
我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。
如何联系我们
对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商。
美国:
O’Reilly Media,Inc.
1005 Gravenstein Highway North
Sebastopol,CA 95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
要询问技术问题或对本书提出建议,请发送电子邮件至bookquestions@oreilly.com。
本书配套网站https://oreil.ly/ssdr上列出了勘误表、示例以及其他信息。
关于书籍、课程、会议和新闻的更多信息,请访问我们的网站http://www.oreilly.com。
我们在Facebook上的地址:http://facebook.com/oreilly
我们在Twitter上的地址:http://twitter.com/oreillymedia
我们在YouTube上的地址:http://www.youtube.com/oreillymedia

上架指导

计算机/大数据

封底文字

无数据驱动的洞察是当今所有行业的关键竞争优势。从原始数据中提取洞察往往需要几天或几周时间,大多数组织无法足够快地扩大数据科学团队以跟上需要转换的数据量的增长。那么如何解决这一问题呢?答案是实现数据自助服务。
通过本书,数据工程师、数据科学家和团队经理将学习如何构建自助数据平台,以帮助组织从数据中提取洞察。作者在书中提供了一个记分卡,用于跟踪并解决在数据发现、转换、处理和生产过程中增加洞察耗时的瓶颈问题。
本书弥合了数据科学家与数据工程师之间的鸿沟——数据科学家被工程现实所束缚,而数据工程师对自助服务的工作方式一无所知。
通过学习本书,你将能够:
? 构建自助服务门户以支持数据发现、数据质量、数据沿袭和数据治理。
? 使用开源技术为每个自助服务功能选择合适的方法。
? 为数据的发现、准备、构建、实施定制自助服务。
? 实现数据开放与洞察提效的功能。
? 扩展自助服务门户,从而为组织内的大量用户提供支持。
“ 本书介绍的概念全面,内容丰富,令我印象深刻。本书将极其复杂的问题分解为可解决的问题碎片。”
——Shivnath Babu
Unravel Data Systems的联合
创始人兼首席技术官,
杜克大学计算机科学兼职教授
“ 本书为数据管理从业者提供了全面的概述,值得推荐。”
——Jennifer Yang
数据和风险管理主管
Sandeep Uttamchandani博士是Unravel Data Systems的工程副总裁兼首席数据官。他在构建数据产品以及管理用于分析和机器学习的大型数据平台方面拥有近20年的经验。此前,他是Intuit的QuickBooks产品线的首席数据架构师和数据平台负责人。

译者序

我从事大数据开发工作已有10余年,如果以工程视角从底层数据接入到上层数据应用来看,我过往的工作内容涵盖了数据接入、离线/实时数据仓库建设、数据ETL、数据挖掘(个性推荐、风控方向)、数据分析、数据可视化等完整数据链路的开发,并得以实践落地,促使公司业务高效开展。其间多次燃起过把这些心得和经验落成文字的念头,也尝试过多次对外技术分享,但这些技术分享都是从细分层面或者工程技术实践来展开讲解的,一直没能找到一条主线把这些内容串起来,所以这个念头迟迟没有落地。
直到好友万学凡突然问我是否有兴趣翻译一本有关大数据实践方面的书(即本书),在了解大概内容后,我与擅长数据分析、数据运营、专业翻译的好友熊畅和王晓倩一起接下了本书的翻译工作。经过近半年的翻译和校对,我们终于完成了本书的翻译。
本书作者担任Unravel Data Systems的工程副总裁兼首席数据官,在构建企业数据产品、商业分析与机器学习应用方面有近20年的经验。本书基于“洞察耗时”记分卡方法展开,也就是说,为数据平台的当前状态定义记分卡,从源数据到洞察的过程包括发现、准备、构建、实施这四个关键步骤,对这四个关键步骤中各个环节的耗时进行度量,最后列出完整的路线积分卡,并从中识别洞察过程中的痛点,优化这些痛点,实现每个指标的自助服务,最终达到洞察提效的目的。书中每一章都专注于一个指标,并涵盖自动化水平不断提高的模式。书中没有推荐太多当前流行的技术组件或者很快会过时的特定技术,而是关注实现模式,提供了一些现有技术最佳实践的案例。
本书极具指导价值,致力于把数据用户和数据工程师的观点结合在一起,读后必大有所获。
我与本书的另两位译者熊畅和王晓倩一起克服了日常工作的压力,同心协力完成了本书的翻译工作。
感谢我们的家人,他们的理解和支持使我们得以心无旁骛地翻译本书。同时感谢机械工业出版社华章分社的编辑李忠明,他的耐心解答让我们在翻译过程中少走了很多弯路,也感谢负责本书审校工作的编辑们,他们极大地提高了本书的质量。

吴瑞诚
2021年12月于武汉

图书目录

前言1
第1章 数据介绍5
1.1 从原始数据到洞察6
1.2 定义洞察耗时记分卡13
1.3 建立数据自助服务路线图17
第一部分 数据发现自助服务
第2章 元数据目录服务21
2.1 路线图22
2.2 最小化解释耗时23
2.3 定义需求26
2.4 实现模式28
2.5 总结32
第3章 搜索服务33
3.1 路线图33
3.2 最小化搜索耗时34
3.3 定义需求36
3.4 实现模式38
3.5 总结45
第4章 特征存储服务46
4.1 路线图47
4.2 最小化特征处理耗时48
4.3 定义需求49
4.4 实现模式51
4.5 总结55
第5章 数据迁移服务56
5.1 路线图56
5.2 最小化数据可用性耗时57
5.3 定义需求58
5.4 实现模式62
5.5 总结68
第6章 点击流跟踪服务69
6.1 路线图70
6.2 最小化点击指标耗时71
6.3 定义需求73
6.4 实现模式75
6.5 总结79
第二部分 数据准备自助服务
第7章 数据湖管理服务83
7.1 路线图84
7.2 最小化数据湖管理耗时86
7.3 实现模式91
7.4 总结94
第8章 数据整理服务95
8.1 路线图96
8.2 最小化数据整理耗时97
8.3 定义需求98
8.4 实现模式98
8.5总结100
第9章 数据权限治理服务101
9.1 路线图102
9.2 最小化合规耗时103
9.3 定义需求104
9.4 实现模式107
9.5总结111
第三部分 数据构建自助服务
第10章 数据虚拟化服务115
10.1 路线图116
10.2 最小化查询耗时116
10.3 定义需求117
10.4 实现模式119
10.5 总结124
第11章 数据转换服务125
11.1 路线图125
11.2 最小化转换耗时126
11.3 定义需求127
11.4 实现模式128
11.5总结133
第12章 模型训练服务134
12.1 路线图135
12.2 最小化训练耗时136
12.3 定义需求138
12.4实现模式140
12.5 总结144
第13章 持续集成服务145
13.1 路线图146
13.2 最小化集成耗时147
13.3 定义需求148
13.4 实现模式149
13.5 总结152
第14章 A/B测试服务153
14.1 路线图155
14.2 最小化A/B测试耗时156
14.3 实现模式158
14.4 总结160
第四部分 数据实施自助服务
第15章 查询优化服务163
15.1 路线图164
15.2 最小化优化耗时165
15.3 定义需求167
15.4 实现模式168
15.5 总结173
第16章 管道编排服务174
16.1 路线图175
16.2 最小化编排耗时176
16.3 定义需求177
16.4 实现模式179
16.5总结183
第17章 模型部署服务184
17.1 路线图184
17.2 最小化部署耗时185
17.3 定义需求186
17.4 实现模式189
17.5 总结193
第18章 质量可观测性服务194
18.1 路线图195
18.2 最小化洞察质量耗时196
18.3 定义需求198
18.4 实现模式199
18.5 总结204
第19章 成本管理服务205
19.1 路线图206
19.2 最小化优化成本耗时207
19.3 定义需求208
19.4 实现模式209
19.5 总结213

教学资源推荐
作者: (美)Abraham Silberschatz 耶鲁大学 (美)Henry F. Korth利哈伊大学 (印)S. Sudarshan印度理工学院 著
作者: 郭晓平 朱鸣华 著
作者: 何玉洁 张俊超
作者: 试题研究编写组
参考读物推荐
作者: Douglas Scherer William Gaynor,Jr. Arlene Valentinsen Xerxes Cursetjee
作者: 孙风栋 王澜 郭晓惠 著
作者: [美]Kevin Loney,George Koch
作者: (印)普拉莫德 J. 塞得拉吉(Pramod J Sadalage), (美)马丁·福勒(Martin Fowler)著