首页>参考读物>计算机科学与技术>软件与程序设计

大数据与机器学习:实践方法与行业案例
作者 : 陈春宝 阙子扬 钟飞 著
丛书名 : 大数据技术丛书
出版日期 : 2017-02-08
ISBN : 978-7-111-55680-0
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 309
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书从企业实践出发,内容上覆盖数据、平台、分析和应用等企业内数据流转的主要环节。布局上,按照数据篇、分析篇和应用篇分别撰写。
数据篇包括3章,立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的分布和处理逻辑,以便为分析快速的准备素材。第1章“数据平台”,从数据的基本形态入手,介绍企业中数据的来源和表现形态,让读者先对数据有一个整体的认识,随后讲述了不同的数据平台,并基于实际应用经验,提出了数据平台建设中的经验原则,这些均是从实践中总结出来的方法;第2章“数据体系”,提出了“数据闭环”理念,并详细介绍了数据闭环的构成,以及构建数据闭环所涉及的技术,其中的数据缓冲区是作者从大量实际场景中提炼出来的实践方法;第3章“打造数据闭环”,详细讲述了构建数据闭环的具体实现方式,包括规则的定义、数据库的设计和程序的多线程实现。
分析篇包括8章,选取企业实际案例,介绍最常用的数据挖掘与机器学习算法,以业务场景为导向展示数据分析过程和技巧。第4章“数据预处理”介绍变量设计、衍生、降维等分析建模环节最为必要的预处理方法;第5章“聚类分析,简单易用的客户细分方法”,结合客户细分这一营销和客户关系管理的基础,介绍Kmeans、谱系聚类算法以及如何区分共性和个性规律;第6章“关联规则挖掘助力交叉销售”,结合交叉销售这一客户提升领域最通用的营销技术,介绍Apriori算法及其在识别产品加载机会中的应用;第7章“应用社会网络分析构建客户关系图谱”,介绍当前大数据领域广泛应用的社会关系网络算法,选取供应链识别和风险防范两个案例,介绍相关关系的重要性;第8章“基于线性回归的客户价值预测”和第9章“Logistic回归,客户行为预测的利器”,介绍大数据分析的圣杯——预测模型,分别选取客户价值分层管理(数值预测)和信贷产品精准营销(响应率预测)两个案例,详细介绍预测模型的构建过程及应用要点,可帮助读者开发全自动的建模产品;第10章“用决策树识别欺诈风险”,介绍目前大数据征信领域较为常用的分类器算法;第11章“数据可视化,是分析更是设计”,分享数据演示之道及可视化技巧,赋予数据以美和洞察力。
应用篇包括4章,选取当前主流的四个应用场景,介绍如何实现数据驱动,让数据“自动”流转于各个环节。第12章“标签系统”讲述了一个数据密集型的底层应用系统,定义了标签系统的层次结构和更新规则,讲述了标签系统的设计原则,并基于这些原则提供了实现方案;第13章“数据自助营销平台”,讲述了基于标签系统构建出来的一个数据“上层应用”,从方法论入手,逐步深入讲解数据营销平台的设计理念,读者可以基于本章的设计实现一套自己的数据营销平台;第14章“基于Mahout的个性化推荐系统”,介绍了Mahout的使用方式,然后基于具体性能测试,验证了Mahout在规模和效率方面的表现,为读者提供可用于实践的经验参考;第15章“图计算和社会网络”,在第7章基础上利用开源的Spark Graphx图计算引擎和Neo4j图数据库,详细介绍了一个“吃货”社会网络的处理,这也是当前互联网公司最炙手可热的应用领域。

图书特色

从数据、基础平台、分析方法、行业应用4个维度,以场景化方式讲解数据从获取、预处理、挖掘、建模、结论分析与展现到系统应用的流程,以及机器学习的重要技术
三位金融领域的大数据专家近10年行业实战经验总结,包含大量行业解决方案和案例,并公开源代码

DT时代,大数据挖掘与分析将成为关系国计民生的新型技术,为各行各业带来新的发展动力。本书立足企业实践,对大数据平台、分析建模与系统应用等数据科学的各个方面做了系统全面的介绍,兼具理论与实战,对从事大数据分析的专业人员和企业信息系统建设工作者都很有参考价值。
—— 谢华美 中国人民银行征信中心数据部负责人,数据分析专家

关于大数据技术和理论的书很多,但怎么应用数据解决现实的业务问题,恐怕最能给出答案的还是实际的数据从业者。三位作者基于近十年的从业经验,结合案例介绍数据挖掘在企业的实施过程,对企业人员能够提供直接帮助,也可帮助在校学生拓展视野,这些将让本书从同类书中脱颖而出。
—— 王丽亚 上海交通大学工业工程系教授,博士生导师

如何从数据中提炼尽可能多的信息和知识,驱动商业模式变革进而创造新的市场竞争力,正是数据挖掘与分析技术的核心价值。本书从企业实战角度,介绍数据从线下分析到线上应用的具体过程,值得业务部门和数据分析部门借鉴。
—— 陈治龙 浦发银行拉萨分行信息科技部总经理

任何一家希望长久发展的公司都必须重视数据的获取、治理和运用,通过数据挖掘、机器学习、人工智能等算法从数据中攫取新的洞察力,创新商业模式、优化业务流程或打造新的核心竞争力。本书内容覆盖企业内大数据流转的主要环节,并通过翔实的案例介绍常用数据挖掘、机器学习等算法及其建模过程,对企业来说是一本最佳的实践操作指导手册。
—— 冯炯 嘉银(你我贷)副总裁,前阿里资深技术专家

“大众创业、万众创新”,经济增长点在改变,金融也在持续改革,获取更全面的客户数据,掌握从海量数据中挖掘知识宝藏、攫取洞察力的技术,是各类企业开拓金融新业态的关键。作者依托多年业务经验和专业知识,介绍了大量数据科学和分析技术的实际应用。对于那些力图将大数据转化为经营决策动力的企业,本书是最适合的操作指引。
—— 冯超 泛合金融咖啡联合创始人/甲骨文(中国)大数据资深顾问

陈春宝 上海交通大学工业工程博士,经济学硕士。在银行、信用卡、医药与电信等行业拥有近10年数据挖掘分析与SAS建模经验,现就职于商业银行,在数据挖掘、机器学习和业务咨询方面有着独到的见解。工作跨大数据、营销、风险、运营等多个领域,擅长诊断各类业务问题,应用商业和数据分析手段获得创新性的解决方案,并帮助业务部门落地。曾经担任MSA咨询顾问、交通银行信用卡中心数据分析经理、上海交通大学工程硕士企业导师。在SCI&EI索引期刊发表论文10余篇。

阙子扬 哈尔滨工业大学计算机硕士。在银行、信用卡、金融服务行业拥有9年系统开发和数据应用经验。现任某金融服务公司创新产品条线研发部经理,负责大数据产品创新和系统开发工作。先后任职于中国平安、交通银行信用卡中心、招商银行信用卡中心。对数据平台建设和数据系统开发应用有深刻理解,主导完成的标签系统、数据自助营销平台等项目取得了显著效果,使业务人员的营销效率由数周简化为数小时。

钟飞 华东师范大学统计学硕士。有近十年数据分析与建模经验,专注于信用卡、电子商务等行业的风控、运营与营销领域。现就职于某知名金融服务集团有限公司,负责电子商务平台风险策略分析工作。曾任eBay大中华区及交通银行信用卡中心数据分析师。能灵活运用主流数据分析工具,精通SAS、SQL、SPSS、R等。生活中爱好跑步,参加过多次半程马拉松,也造就了个人踏实、坚韧、靠谱的品性。

三位资深大数据专家近10年经验总结,多位银行、互联网金融与Fintech公司大咖联袂推荐。本书立足商业实践,结合典型业务场景,详细阐述数据从获取、预处理、挖掘、建模、结论分析与展现到系统应用的整个流程。就完整性而言,覆盖数据、平台、分析和应用等企业内数据流转的主要环节;就内容而言,抛弃了理论与公式的堆积以及小明式的人造案例,选取大量翔实的案例展现数据从线下分析到线上应用的企业实战过程;就写作手法而言,力求兼顾实用主义和理论深度,用浅显的语言介绍复杂的分析应用过程,从实战角度诠释理论技术和算法的具体应用;就布局而言,按照数据与平台篇、分析篇和应用篇分别撰写。
数据与平台篇(第1~3章)立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的产生、存储、处理到分析、应用的闭环流转过程,有助于数据工程师站在应用角度了解数据治理方法和重点:数据架构师可从中找到构建数据平台的指导思想和产品选型建议。
分析篇(第4~11章)选取企业实际案例,阐述数据是如何解决业务问题并产生价值的,帮助数据分析师掌握常用的数据挖掘与机器学习算法以及可视化技巧,从中找到分析灵感。
应用篇(第12~15章)选取标签系统、自助营销、个性化推荐和社会关系网络等当前最热门的大数据应用案例,介绍数据分析结论和模型的应用部署,帮助业务运营专家和管理者了解如何构建数据驱动的应用,让数据“自动”流转于各个环节。

图书前言

不畏浮云遮望眼,只缘身在最高层。
—王安石《登飞来峰》
数据科学家 = 统计学家 + 程序员 + 讲故事的人 + 艺术家
—Shlomo Aragmon
本书的创作初衷
大数据方面的书籍可谓琳琅满目,有的讲解理论,有的介绍方法,有的传播理念。但是,大数据从业人员(如数据工程师、数据分析师、业务分析师、算法设计师等)应该掌握哪些知识与技能,如何应用数据解决现实的业务问题呢?恐怕最能给出答案的还是实际的数据从业者。为此,三位作者基于近10年的数据分析与应用经验,融合各自在商业银行、互联网金融和电商领域的切身体验,寓理论于实战,选取多个详实的案例,站在企业实际应用的角度介绍数据分析应用过程并公布源代码,并最终形成本书。本书对于读者开展数据分析工作能够提供直接帮助,为有志于在大数据领域发展的读者启航。
本书特点
本书有三大特点。其一,内容全面,覆盖大数据生态中的数据、基础平台、分析方法和应用四个领域,对数据应用从业务需求、数据准备、数据分析、挖掘建模、演示报告、成果应用等全流程进行了详细阐述;其二,以业务场景为主线,精选银行和互联网方面最具代表性的案例,站在数据消费者和分析师的角度,身临其境地介绍了数据如何产生价值,寓理论于实战,让读者能知其所以然;其三,写作手法上遵循大道至简原则,用浅显的语言介绍复杂的数据分析应用过程,归纳数据分析师乃至数据科学家应该修炼的要点,既关注技术细节,又不拖泥带水,能为读者提供直接帮助。
本书定位
本书既可作为数据分析与商业分析人员的入门指引和案头工具,亦可为统计学、计算机科学、市场营销等专业研究生拓宽视野。
源代码下载
对书中源代码感兴趣的读者,可与作者联系(邮箱:64346837@qq.com)。

上架指导

计算机\程序设计

封底文字

DT时代,大数据挖掘与分析将成为关系国计民生的新型技术,为各行各业带来新的发展动力。本书立足企业实践,对大数据平台、分析建模与系统应用等数据科学的各个方面做了系统全面的介绍,兼具理论与实战,对从事大数据分析的专业人员和企业信息系统建设工作者都很有参考价值。
——谢华美,中国人民银行征信中心数据部负责人,数据分析专家

关于大数据技术和理论的书很多,但怎么应用数据解决现实的业务问题,恐怕最能给出答案的还是实际的数据从业者。三位作者基于近十年的从业经验,结合案例介绍数据挖掘在企业的实施过程,对企业人员能够提供直接帮助,也可帮助在校学生拓展视野,这些将让本书从同类书中脱颖而出。
——王丽亚,上海交通大学工业工程系教授、博士生导师

如何从数据中提炼尽可能多的信息和知识,驱动商业模式变革进而创造新的市场竞争力,正是数据挖掘与分析技术的核心价值。本书从企业实战角度,介绍数据从线下分析到线上应用的具体过程,值得业务部门和数据分析部门借鉴。
——陈治龙,浦发银行拉萨分行信息科技部总经理

任何一家希望长久发展的公司都必须重视数据的获取、治理和运用,通过数据挖掘、机器学习、人工智能等算法从数据中攫取新的洞察力,创新商业模式、优化业务流程或打造新的核心竞争力。本书内容覆盖企业内大数据流转的主要环节,并通过翔实的案例介绍常用数据挖掘、机器学习等方法及其建模过程,对企业来说是一本最佳的实践操作指导手册。
——冯炯,嘉银(你我贷)副总裁,前阿里资深技术专家

“大众创业、万众创新”,经济增长点在改变,金融也在持续改革,获取更全面的客户数据,掌握从海量数据中挖掘知识宝藏、攫取洞察力的技术,是各类企业开拓金融新业态的关键。作者依托多年业务经验和专业知识,介绍了大量数据科学和分析技术的实际应用,对于那些力图将大数据转化为经营决策动力的企业,本书是最适合的操作指引。
——冯超,泛合金融咖啡联合创始人/甲骨文(中国)大数据资深顾问

作者简介

陈春宝 阙子扬 钟飞 著:暂无简介

图书目录

前言
第一部分 数据与平台篇
第1章 数据与数据平台 3
1.1 数据的基本形态 4
1.1.1 数据环境与数据形态 4
1.1.2 生产数据 5
1.1.3 原始数据 5
1.1.4 分析数据 6
1.2 数据平台 7
1.2.1 数据仓库平台 9
1.2.2 大数据平台 13
1.2.3 MPP数据库 22
1.2.4 NoSQL数据库 23
1.3 应用系统 24
1.4 本章小结 25
第2章 数据体系 26
2.1 数据闭环 27
2.2 数据缓冲区 28
2.2.1 系统解耦 29
2.2.2 批量导出 31
2.2.3 FTP传输 40
2.2.4 批量导入 42
2.3 ETL 49
2.3.1 ETL工具 50
2.3.2 ETL作业 52
2.4 作业调度 56
2.5 监控和预警 56
2.5.1 使用监控工具进行监控 57
2.5.2 使用BI工具进行监控 57
2.6 本章小结 57
第3章 实战:打造数据闭环 59
3.1 数据缓冲区的基本规则 60
3.1.1 文件存储规则 61
3.1.2 文件命名规则 61
3.1.3 文件清理规则 62
3.2 自动加载的流程 62
3.2.1 扫描文件 63
3.2.2 下载文件 64
3.2.3 解压文件 65
3.2.4 加载文件 65
3.3 自动加载程序的数据库设计 66
3.3.1 数据文件信息表 67
3.3.2 数据文件状态表 68
3.3.3 加载配置信息表 69
3.3.4 数据缓冲区信息表 70
3.3.5 目标服务器表 70
3.4 自动加载程序的多线程实现 71
3.4.1 ScanFiles 72
3.4.2 DownLoadAndUnZip 75
3.4.3 LoadToHive 77
3.4.4 LoadToOracle 78
3.4.5 自动加载程序的部署架构 79
3.4.6 程序的维护和优化 80
3.5 本章小结 80
第二部分 分 析 篇
第4章 数据预处理 83
4.1 数据表的预处理 84
4.2 变量的预处理 85
4.2.1 缺失值的处理 85
4.2.2 极值的处理 90
4.3 变量的设计 91
4.3.1 暴力衍生 91
4.3.2 交叉升维 92
4.4 变量筛选 95
4.4.1 筛选显著变量 95
4.4.2 剔除共线性 96
4.5 本章小结 100
第5章 聚类,简单易用的客户细分方法 101
5.1 从客户细分说起 102
5.1.1 为什么要做客户细分 102
5.1.2 怎么做客户细分 103
5.1.3 聚类分析,无监督的客户细分方法 107
5.2 谱系聚类 107
5.2.1 基本步骤 107
5.2.2 案例:公司客户差异化服务 110
5.2.3 谱系聚类方法的题外话 115
5.3 K-means算法 116
5.3.1 基本步骤 116
5.3.2 案例:电商卖家细分 117
5.3.3 K-means算法的题外话 121
5.4 本章小结 121
第6章 关联规则挖掘,发现产品
加载和交叉销售机会 122
6.1 销售的真谛:让客户买得更多 123
6.1.1 案例:电商的生意经 123
6.1.2 案例:富国银行的“商店”经营模式 124
6.1.3 案例总结 125
6.2 交叉销售 126
6.2.1 为什么要做交叉销售 126
6.2.2 怎么做交叉销售 126
6.3 关联规则挖掘,发现交叉销售机会 128
6.3.1 Apriori算法 129
6.3.2 Apriori算法的主要指标 129
6.3.3 Apriori算法的基本步骤 131
6.4 案例:信用卡产品交叉销售 131
6.4.1 准备数据 132
6.4.2 SAS实现 132
6.4.3 结果分析 133
6.4.4 序列关联分析 136
6.4.5 结果应用 137
6.5 本章小结 138
第7章 社交网络分析,从“关系”
的角度分析问题 139
7.1 先看几张美轮美奂的图片 140
7.2 社交网络分析方法 142
7.2.1 定义 142
7.2.2 应用场景 142
7.2.3 网络识别算法 143
7.3 案例:电商通过订单数据识别供应链 144
7.3.1 供应链及供应链金融 144
7.3.2 识别核心企业及其上下游关系 144
7.3.3 分析结果的业务应用 149
7.4 案例:P2P投资风险防范 151
7.4.1 案例背景 151
7.4.2 防范方法 152
7.5 本章小结 153
第8章 线性回归,预测客户价值 155
8.1 数值预测 156
8.2 回归与拟合 157
8.2.1 回归就是拟合 157
8.2.2 在Excel中添加趋势线预测 158
8.3 案例:信用卡客户价值预测 159
8.3.1 确定预测目标 159
8.3.2 准备建模数据 161
8.3.3 模型拟合 163
8.3.4 模型评估 165
8.4 基于客户价值分层的业务策略 167
8.5 本章小结 167
第9章 Logistic回归,精准营销的
主要支撑算法 169
9.1 大数据时代的精准营销 170
9.1.1 精准营销 170
9.1.2 基于大数据的精准营销模式 171
9.1.3 如何做到精准 172
9.2 Logistic回归算法介绍 173
9.2.1 算法原理 173
9.2.2 关键步骤 174
9.3 案例:信用卡消费信贷产品的精准营销 176
9.3.1 案例背景 176
9.3.2 数据准备 176
9.3.3 数据预处理 180
9.3.4 建模 182
9.3.5 模型评估 185
9.4 预测模型的应用与评估 189
9.5 本章小结 189
第10章 决策树类算法,反欺诈
模型“专家” 191
10.1 决策树,重要的分类器 191
10.2 决策树的关键思想 192
10.2.1 理财客户画像案例背景 192
10.2.2 关键思想一:递归划分 194
10.2.3 关键思想二:剪枝 197
10.3 案例:电商盗卡交易风险识别 198
10.3.1 案例背景 198
10.3.2 以SAS实现 199
10.3.3 以Clementine实现 201
10.3.4 以R实现 204
10.4 随机森林 208
10.5 本章小结 209
第11章 数据可视化,是分析更是
设计 210
11.1 数据演示之道 210
11.1.1 好“色”之图 211
11.1.2 版式有形 212
11.1.3 数据发声 214
11.2 个性化地图 215
11.2.1 案例背景:存款增长率指标展示 215
11.2.2 获取地理位置的经纬度数据 216
11.2.3 定制地图背景和图标 217
11.2.4 生成地图 220
11.3 文本分析 222
11.3.1 案例:电商的客户评价分析 222
11.3.2 分词 223
11.3.3 词云制作 224
11.3.4 情感分析 225
11.4 本章小结 227
第三部分 应 用 篇
第12章 标签系统 231
12.1 认识标签系统 231
12.2 标签系统的设计 233
12.2.1 标签系统的层次结构 233
12.2.2 标签系统的更新规则 233
12.2.3 机器学习模型转化为标签 235
12.3 标签系统的实现 236
12.3.1 标签映射表 237
12.3.2 标签系统的前端实现 238
12.3.3 标签系统的数据后端实现 238
12.3.4 标签系统的在线接口实现 242
12.4 本章小结 242
第13章 数据自助营销平台 244
13.1 数据自助营销平台的价值所在 245
13.1.1 自动化营销,提升工作效率 245
13.1.2 降低营销成本,提升用户体验 247
13.1.3 个性化营销,提升响应率 248
13.1.4 统一管理,便于效果追踪 249
13.2 数据自助营销平台的实现原则 249
13.2.1 数据营销活动的节点 249
13.2.2 数据自助营销平台的基础:标签系统 251
13.2.3 数据自助营销平台的批量任务 252
13.2.4 实时数据营销 254
13.3 数据自助营销平台的场景实例 254
13.3.1 客户生命周期管理 254
13.3.2 用卡激励计划 257
13.4 本章小结 260
第14章 基于Mahout的个性化推荐系统 261
14.1 Mahout的推荐引擎 262
14.1.1 Mahout的安装配置 262
14.1.2 Mahout的使用方式 263
14.1.3 协同过滤算法 264
14.1.4 Mahout的推荐引擎 265
14.2 规模与效率 268
14.2.1 Mahout推荐算法的适用范围 268
14.2.2 通过分布式解决规模和效率的问题 270
14.3 实现一个推荐系统 275
14.3.1 系统框架 275
14.3.2 推荐系统的刷新 276
14.3.3 部署一个可用的推荐系统 276
14.4 本章小结 280
第15章 图计算与社会网络 281
15.1 社会网络和属性图 282
15.2 Spark GraphX与Neo4j 283
15.2.1 Scala编程语言 284
15.2.2 Cypher查询语言 285
15.3 使用Spark GraphX和Neo4j处理社会网络 286
15.3.1 背景说明 286
15.3.2 数据准备 286
15.3.3 Spark GraphX处理原始网络 287
15.3.4 Neo4j交互式查询分析 291
15.3.5 更多的应用场景 295
15.4 本章小结 296

教学资源推荐
作者: [英]克里斯?布里顿(Chris Britton) 著
作者: 尹宝林
作者: [美]梁勇(Y. Daniel Liang) 著
作者: [美] 丹尼尔·卡斯沃姆(Daniel Kusswurm) 著
参考读物推荐