首页>参考读物>计算机科学与技术>综合

高效使用Greenplum:入门、进阶与数据中台
作者 : 王春波 著
出版日期 : 2021-12-03
ISBN : 978-7-111-69649-0
定价 : 109.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 388
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

内容简介
这不仅是一本从原理到使用、从入门到进阶讲解Greenplum的著作,而且是一本指导企业用更省钱、更高效地方式使用Greenplum构建企业级数据仓库和数据中台的著作。
作者在数据架构和数据仓库一线工作10余年,积累了丰富的项目经验,他用浅显易懂的语言、贴近生产环境的案例、丰富的示意图例写作了本书,能帮助读者快速掌握具有实战价值的知识。
具体地,阅读本书你将收获如下内容:
?掌握数据仓库技术的发展历程和发展方向;
?理解MPP架构的架构特点和实现逻辑;
?Greenplum数据库的安装和基本操作;
?Greenplum数据库的工作原理;
?SQL语句从入门到开发实战;
?Greenplum数据库ETL相关功能的具体用途;
?机器学习、文本处理、图计算、GIS等的入门知识;
?掌握Greenplum数据库的运维和监控要点;
?全面掌握Greenplum数据库的性能优化;
?数据中台的理念和建设路径;
?数据中台从接口到智能化应用的项目实战;
?零售行业数据中台的项目实战案例。

图书特色

本书是春波一线实践经验的积累和沉淀,内容覆盖了Greenplum从入门到深入应用,再到运维监控和性能调优的各个方面。此外,对数据中台的各个要素也进行了详细的讲解,用案例和图文并茂的方式阐述了基于Greenplum的数据中台建设。
——曹正炎 上海汉得信息技术股份有限公司数据研发中心总经理


本书对Greenplum的技术特点、适用场景、常见问题等都做了非常详尽的阐述。难能可贵的是,作者结合项目实践,对如何利用Greenplum数据库解决分析需求、服务业务创新、发挥数据价值也给出了实用高效的经验分享。对于初学者,本书可以帮助其快速成长为Greenplum专业人才;对于有经验的从业人员,本书也是难得的查漏补缺、总结经验的工具书。
——杨宏武 上海启高信息科技有限公司联合创始人兼CTO 


本书通过讲背景、说架构、述功能、举案例的方式,由浅入深地层层剖析了Greenplum的架构原理和功能组件,并通过实战项目讲述了Greenplum适用的各项应用场景。
——黎文惠 润智科技有限公司大数据架构师


市面上关于Hive和Spark的书非常多,关于Greenplum和数据中台结合的数据却没有,本书填补了这一空白。很多中小企业其实并不需要一套架构复杂的Hadoop平台,Greenplum集群才是他们的最佳选择。
——苏丹 成都慧择网络技术有限公司数据产品经理

图书前言

为什么要写这本书
2012年我步入企业数据分析领域,一度聚焦于银行业管理会计系统。管理会计系统是银行业最重要的数据分析与应用系统。在上线管理会计系统之前,银行业只能通过简单的统计报表应对各种业务统计需求。管理会计系统帮助银行实现了经营数据的汇总整合、数据质量的提升、精细化管理的转变,一跃成为银行业最核心的数据应用系统。
银行业的管理会计系统通常构建在数据仓库之上,是一个面向应用的数据集市,虽然整体架构和数据仓库类似,但是系统的数据容量略小。早期的管理会计系统都是基于Oracle、DB2、SQL Server实现的。2017年年底,我第一次接触到了大数据平台,参与了银行业第一个基于Hadoop平台的管理会计系统项目建设。
身为传统数据库开发工程师,我在Oracle和DB2数据库上积累的经验在Hive上完全无用武之地。在完成Hive数据分析项目的同时,我一边恶补Hadoop的相关知识,一边深入理解Hive执行过程和执行原理,终于在项目后期掌握了Hive数据仓库的优化策略和调优参数。尽管已经有了Hive的优化经验,我仍然很难认可Hive的数据仓库领导者地位。即使后面用到了Tez、Hive on Spark等更加快速的查询引擎,脚本式的开发过程和大表关联的性能瓶颈,仍然让我对Hive很不满意。
直到有一天,我发现了Greenplum数据库,才知道分布式数据库其实还有更好的选择。MPP架构作为传统数据库架构设计的“正统继承者”,既满足了大数据量查询的性能要求,又解决了SQL语言的兼容性问题。
正是基于Greenplum数据库带给我的惊喜,我才特别想将使用经验分享给大家,从而推动更多企业使用Greenplum数据库,让它们用更省钱、更快捷的方式实现企业级数据仓库和数据中台。
虽然现在ClickHouse和Doris正在崛起,新一代的架构可能会超越Greenplum数据库,但是Greenplum数据库胜在生态成熟、技术稳定,完全可以满足大部分中小企业的数据分析需求。
Greenplum曾经在阿里巴巴作为Oracle集群的替代产品,成为数据仓库的核心数据库(虽然后来被自研产品换掉,但是阿里巴巴当时的数据体量是很多公司未来10年都不可能达到的),而且这些年来,Greenplum数据库技术更加成熟,生态更为完善,性能也得到了大幅提高。
阿里云推出的云原生数据仓库AnalyticDB for PostgreSQL正是基于Greenplum的改进版本。百度云、京东云也陆续推出了基于Greenplum的云上数据仓库平台,腾讯云和华为云则主推自家研发的同类产品(腾讯TBase和华为GaussDB)。这说明各大云厂商都看好MPP架构数据库在OLAP领域的应用趋势。这些数据仓库平台都是基于PostgreSQL研发的,并且都参考了Greenplum的架构体系。因此,深入研究Greenplum可以达到触类旁通的作用。从主推以Hive为核心的大数据平台到回归Greenplum生态,说明云厂商的产品定位在发生转变。对于广大中小型企业,Greenplum才是最适合它们的数据库产品。
读者对象
本书适合以下读者。
商业智能分析领域的工程师。Greenplum作为一款简单易用、性能卓越的OLAP分析数据库,非常适合作为数据分析的底层数据库。通过阅读本书,读者可以快速掌握Greenplum的使用,并可以从其他环境抽取数据到Greenplum进行数据分析,进一步提升工作效率。
数据分析领域的ETL工程师。MPP数据库的原理是数据分析领域的ETL工程师必须掌握的技术知识点。通过本书,读者不仅可以学习并掌握MPP架构的开源数据库,以及PostgreSQL和Greenplum数据库语法,还可以基于Greenplum构建完整的数据仓库、数据中台系统。
系统架构师。OLAP数据库选型一直是系统架构领域的难点,通过本书,读者可以全面认识Greenplum数据库的优点和缺点,从而务实地在Hadoop和Greenplum中做出明智的选择。此外,Greenplum会大幅降低开发成本,提高开发效率,提升企业的信息服务水平。
计算机专业的高校学生。如今,很多高校都开设了数据库和大数据相关的课程,然而Hadoop的复杂性和不稳定性让入门者胆怯,基于PostgreSQL的MPP数据库Greenplum会是这部分读者最好的选择。
本书特色
本书结合数据中台的建设,从建设思路、接口实战、建模实战到数据中台管理和应用,全方位解读基于Greenplum数据库实现数据中台的过程,并辅之以零售行业数据中台的案例,深入剖析数据中台建设的全过程,帮助读者掌握数据中台的实战要领。
在行文方面,本书尽可能使用浅显易懂的语言,并通过大量的演示案例来引导读者深入学习。在关键环节,本着“有图有真相”的原则,配有大量的截图和示意图帮助读者加深对知识的理解。
如何阅读本书
本书内容分为4部分。
第一部分 大数据平台概述(第1章):主要从应用的角度介绍了大数据技术的发展历程,帮助读者了解时代背景,把握大数据技术的发展方向。
第二部分 Greenplum入门(第2~4章):简单介绍Greenplum数据库的基本原理、安装与部署、入门操作,帮助读者认识Greenplum数据库。没有任何数据库应用经验的读者可以认真学习这部分内容。
第三部分 Greenplum应用(第5~11章):着重讲解了Greenplum数据库的部分高级应用功能,包括SQL语法、ETL工具箱、运维管理与监控、性能优化以及外部生态。
第四部分 数据中台实战(第12~17章):通过对数据中台建设过程进行全面解读和深入实战讲解,帮助读者认识数据中台的全流程。
勘误和支持
由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。读者可发送邮件至524427858@qq.com或关注我的公众号“数据中台研习社”与我沟通交流。
致谢
在本书完稿之际,我要感谢启高科技联合创始人兼总经理赵书贤对我工作的指导,是赵总的高瞻远瞩使项目一次又一次拨云见日,变为书中一个个精彩案例。
感谢卡宾服饰CIO陈培兰,是陈总的耐心讲解使我能深入了解零售需求,也是陈总的高要求让我一次又一次突破了Greenplum的性能瓶颈。
感谢项目经理张海静,是她带领我们的团队圆满完成了项目目标。
感谢黎文惠、乔一洺、杨宏武、赵正炎的现场支持,感谢伍晓威、任启强、苏丹、杨健、田红飞、张宇、莫耀权、佘文、焦立岩等同事的配合,感谢客户方郭天琦、王欣芳、黄健等人给予的大力支持。正是大家的精诚合作,才促成了项目的成功,才有了超出客户期望的满意度。也正是这份超出预期的成功,才促使我来编写本书,与大家分享Greenplum数据库。
感谢我的夫人杨慧的大力支持,是她承担了带娃的重任;感谢我的前同事苏丹,她的鼓励和督促使我坚持到现在;感谢杨福川和韩蕊编辑在写作过程中的耐心辅导。
最后还要特别感谢《超级演说家》第二季总冠军刘媛媛,是她的喜马拉雅节目《刘媛媛的晚安电台》带我走出了30岁的焦虑,开始了本书的写作历程。
感谢所有给过我帮助和启发的朋友、亲人,谢谢你们,是你们成就了今天的我!

王春波
2021年9月于厦门

上架指导

计算机\数据库

封底文字

本书是春波一线实践经验的积累和沉淀,内容覆盖了Greenplum从入门到深入应用,再到运维监控和性能调优的各个方面。此外,对数据中台的各个要素也进行了详细的讲解,用案例和图文并茂的方式阐述了基于Greenplum的数据中台建设。
——曹正炎 上海汉得信息技术股份有限公司数据研发中心总经理

本书对Greenplum的技术特点、适用场景、常见问题等都做了非常详尽的阐述。难能可贵的是,作者结合项目实践,对如何利用Greenplum数据库解决分析需求、服务业务创新、发挥数据价值也给出了实用高效的经验分享。对于初学者,本书可以帮助其快速成长为Greenplum专业人才;对于有经验的从业人员,本书也是难得的查漏补缺、总结经验的工具书。
——杨宏武 上海启高信息科技有限公司联合创始人兼CTO 

本书通过讲背景、说架构、述功能、举案例的方式,由浅入深地层层剖析了Greenplum的架构原理和功能组件,并通过实战项目讲述了Greenplum适用的各项应用场景。
——黎文惠 润智科技有限公司大数据架构师

市面上关于Hive和Spark的书非常多,关于Greenplum和数据中台结合的数据却没有,本书填补了这一空白。很多中小企业其实并不需要一套架构复杂的Hadoop平台,Greenplum集群才是他们的最佳选择。
——苏丹 成都慧择网络技术有限公司数据产品经理

作者简介

王春波 著:作者介绍
王春波
资深架构师和数据仓库专家,现任上海启高信息科技有限公司大数据架构师,Apache Doris和openGauss贡献者,Greenplum中文社区参与者。
具有十多年的数据仓库、数据集市、数据中台项目实战经验,对大数据主流技术架构、产品选型与解决方案有深入研究,尤其擅长用优雅的SQL实现复杂的逻辑。
常年奔波在各个项目交付现场,曾成功主导过中国邮政储蓄银行、南海农商银行、广东省联社、前海微众银行、广东南粤银行等多家银行的管理会计项目,以及卡宾、安踏、特步等多家零售鞋服企业的数据中台项目。
公众号“数据中台研习社”运营者。

图书目录

序一
序二
序三
前言
第一部分 大数据平台概述
第1章 大数据平台技术的演进2
1.1 关系型数据库2
1.1.1 数据库发展历程2
1.1.2 关系型数据库独霸天下4
1.1.3 结构化查询语言SQL4
1.1.4 列存储的兴起5
1.2 Hadoop生态系统7
1.2.1 Hadoop概述7
1.2.2 Hadoop生态圈7
1.2.3 Hadoop的优缺点9
1.3 NoSQL的瓶颈和SQL数据库的回归10
1.3.1 NoSQL产品的发展10
1.3.2 NoSQL的共性11
1.3.3 SQL数据库的回归12
1.4 MPP架构的兴起14
1.4.1 什么是MPP架构14
1.4.2 MPP架构的蓬勃发展15
1.4.3 MPP数据库代表—TBase17
1.4.4 浅谈HTAP19
第二部分 Greenplum入门
第2章 Greenplum概述24
2.1 Greenplum的前世今生24
2.2 Greenplum数据库架构27
2.3 Greenplum数据库的特点28
2.4 Greenplum新特性及展望30
2.5 Greenplum的优势32
第3章 Greenplum的安装与部署35
3.1 Greenplum数据库安装过程35
3.1.1 准备工作35
3.1.2 安装Master节点39
3.1.3 复制安装包到其他节点41
3.1.4 初始化Greenplum数据库42
3.2 安装GPCC43
3.3 Greenplum访问接口46
3.3.1 CLI46
3.3.2 JDBC47
3.3.3 ODBC48
3.4 Greenplum数据库常用命令48
3.4.1 启动和停止48
3.4.2 修改参数49
3.4.3 其他常用命令51
3.5 Greenplum性能测试52
第4章 Greenplum使用入门54
4.1 数据类型详解54
4.1.1 基本数据类型54
4.1.2 特殊数据类型56
4.1.3 组合数据类型60
4.2 数据表的基本使用62
4.2.1 表对象定义62
4.2.2 表的基本操作63
4.2.3 数据的基本操作64
4.3 数据表的高级应用65
4.3.1 数据表的存储特性69
4.3.2 分区表详解72
4.3.3 外部表76
4.4 数据库函数79
4.4.1 数学函数79
4.4.2 三角函数列表80
4.4.3 字符串函数和操作符80
4.4.4 类型转换相关函数82
4.4.5 自定义函数83
4.5 数据库的其他对象85
4.5.1 视图85
4.5.2 索引85
4.5.3 序列87
第三部分 Greenplum应用
第5章 Greenplum查询详解90
5.1 SQL语法92
5.1.1 简单SQL语法92
5.1.2 WITH子句特性95
5.1.3 IN语句和EXISTS语句98
5.1.4 MERGE子句的实现100
5.2 JOIN操作101
5.3 分析函数的妙用106
5.4 高级函数精选110
第6章 ETL工具箱114
6.1 数据加载王者GPLoad114
6.1.1 GPLoad简介114
6.1.2 GPLoad配置详解116
6.1.3 GPLoad实战118
6.2 自定义存储过程120
6.2.1 存储过程介绍 120
6.2.2 存储过程应用模板121
6.2.3 存储过程精选案例122
6.3 PXF插件131
6.3.1 PXF简介131
6.3.2 安装PXF132
6.3.3 PXF实战135
6.4 DBLink136
6.4.1 DBLink简介136
6.4.2 安装DBLink137
6.4.3 DBlink实战139
6.5 拉链表142
第7章 Greenplum高级应用147
7.1 开放的编程接口147
7.1.1 PL/Python148
7.1.2 PL/R150
7.2 MADlib机器学习库153
7.2.1 安装MADlib154
7.2.2 线性回归案例157
7.2.3 关联规则案例158
7.2.4 朴素贝叶斯分类案例159
7.3 半结构化数据分析164
7.4 地理空间数据分析166
7.5 图计算应用168
第8章 Greenplum运维管理和监控172
8.1 数据库管理172
8.1.1 创建和管理数据库172
8.1.2 创建和管理模式173
8.1.3 创建和管理表空间175
8.1.4 创建和管理用户178
8.1.5 创建和管理资源队列180
8.2 可视化监控页面—GPCC183
8.3 管理好帮手—gp_toolkit185
8.4 Greenplum备份和恢复187
8.5 在线扩容工具GPExpand189
8.5.1 Greenplum扩容实战189
8.5.2 扩容原理分析191
8.6 锁机制192
8.6.1 锁管理概述192
8.6.2 普通锁数据结构192
第9章 Greenplum性能优化197
9.1 系统级优化197
9.1.1 操作系统选择197
9.1.2 硬件资源配置198
9.1.3 磁盘读写199
9.1.4 节点之间的网络带宽202
9.1.5 系统参数202
9.2 数据库级优化204
9.2.1 数据库参数配置204
9.2.2 资源队列206
9.3 表级优化206
9.3.1 建表参数207
9.3.2 表的优化208
9.4 执行计划和查询优化209
9.4.1 查看执行计划210
9.4.2 数据扫描方式210
9.4.3 分布式执行方式213
9.4.4 两种聚合方式214
9.4.5 关联分类214
9.4.6 优化器的选择216
9.4.7 其他关键术语217
第10章 Greenplum与开源组件220
10.1 Kettle220
10.2 DataX224
10.3 HDFS、Hive和HBase228
10.4 Spark230
10.5 Kafka235
10.6 Flink238
第11章 Greenplum与BI应用244
11.1 Tableau244
11.1.1 Tableau连接Greenplum245
11.1.2 Tableau最佳实践要点245
11.2 永洪BI248
11.3 帆软BI250
11.4 DataV253
11.5 Quick BI253
第四部分 数据中台实战
第12章 数据中台建设思路256
12.1 为什么要搭建数据中台256
12.2 什么是数据中台258
12.3 如何搭建数据中台259
12.3.1 数据资产盘点和规划259
12.3.2 数据应用规划与设计260
12.3.3 数据平台选型与建设261
12.3.4 数据应用设计与实现262
12.3.5 组织架构调整与流程变革262
12.4 数据中台怎么选型263
12.4.1 数据仓库选型263
12.4.2 ETL工具选型265
12.4.3 调度平台选型266
12.4.4 BI工具选型268
第13章 接口数据同步270
13.1 全量接口同步270
13.2 增量接口同步276
13.3 流式数据同步281
13.4 日志流数据同步283
第14章 数据建模285
14.1 数据建模思想285
14.1.1 Inmon企业信息化工厂286
14.1.2 Kimball的维度数据仓库287
14.1.3 两种建模体系的对比288
14.2 数据分层设计288
14.2.1 操作数据存储层289
14.2.2 数据仓库层290
14.2.3 数据集市层292
14.3 数据分层实战案例293
14.3.1 ODS层293
14.3.2 DWD层293
14.3.3 DWB层297
14.3.4 DWS层299
14.3.5 ADS层307
14.4 数据中台命名规范311
14.4.1 数据库表命名312
14.4.2 数据库字段命名312
14.4.3 脚本命名规范313
第15章 数据中台主要配套功能314
15.1 数据权限管理314
15.2 数据补录319
15.3 BI门户320
15.4 元数据管理323
15.5 指标管理324
第16章 数据中台数据应用328
16.1 商业智能328
16.2 自助分析平台331
16.3 数据服务332
16.4 标签平台335
16.5 推荐系统338
第17章 基于Greenplum的数据中台实践案例342
17.1 项目背景342
17.2 项目需求343
17.3 项目技术实现344
17.3.1 系统架构344
17.3.2 系统ETL分层345
17.3.3 系统调度任务346
17.4 智能数据应用347
17.4.1 自助分析应用348
17.4.2 固定报表349
17.4.3 可视化大屏350
17.4.4 钉钉数据服务351
17.5 典型技术方案分享352
17.5.1 准实时需求实现方案352
17.5.2 数据库优化方案353
17.5.3 数据权限控制方案355
17.5.4 历史数据离线存储方案358
17.5.5 系统备份方案358
17.6 典型业务方案分享359
17.6.1 零售指标同期分析359
17.6.2 零售指标节假日对比分析361
17.6.3 在库库存362
17.6.4 在途库存363
17.6.5 售罄率365
17.6.6 齐码率368
17.7 项目总结370

教学资源推荐
作者: 黄宜华 主编 苗凯翔 副主编
作者: (澳)Leszek A.Maciaszek    著         Macquarie大学
作者: (美)W. Bruce Croft,Donald Metzler, Trevor Strohman 著
参考读物推荐
作者: 赵仁乾,田建中,叶本华,常国珍 著
作者: [美]威廉·斯托林斯(William Stallings)著