首页>参考读物>计算机科学与技术>软件与程序设计

Python大数据分析与机器学习商业案例实战
作者 : 王宇韬 钱妍竹 著
出版日期 : 2020-05-19
ISBN : 978-7-111-65471-1
定价 : 99.80元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 392
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

大数据分析与机器学习技术已成为各行各业实现数字化变革的关键驱动力。本书以功能强大且较易上手的Python语言为编程环境,全面讲解了大数据分析与机器学习技术的商业应用实战。
全书共16章,讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA(主成分分析)模型、聚类与分群模型(KMeans与DBSCAN算法)、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型的原理和代码实现,每种模型都配有一到两个典型案例,涵盖金融、营销、医疗、社会科学、企业办公与管理等多个领域。
本书适合具备一定数学知识和编程基础、希望快速在工作中应用大数据分析与机器学习技术的读者阅读,也适合Python编程爱好者或对大数据分析与机器学习技术感兴趣的读者参考。

图书特色

金融数据风控 股票量化交易 商品智能推荐 用户情感分析
详细讲解多个行业中的大数据分析技术 全面揭秘机器学习在商业中的应用实战

图书前言

在这个信息爆炸的时代,如何高效处理数据并利用数据推动决策显得尤为重要,这便是人们通常所说的“大数据分析”。与大数据分析相伴而生的机器学习(Machine Learning),有些人可能会感到陌生,然而说到战胜了众多人类围棋高手的智能机器人AlphaGo,想必大多数人都有所耳闻。AlphaGo背后的原理支撑就是机器学习,它通过模拟人类的学习行为,不停地分析海量的围棋数据,发现数据背后的规律,从而在已有条件下做出最为理性的决断,这个过程充满了机器美学。
大数据分析和机器学习面对的数据浩如烟海,原始的纸笔演算根本无力应对,幸运的是,飞速发展的信息技术为我们建造了一个“武器库”—从Excel、MATLAB等专业的应用软件,到Java、R、Python等程序设计语言,大大降低了大数据分析和机器学习的实现门槛,推动着这些先进技术在各行各业生根发芽。
Python是大数据分析和机器学习“武器库”中的一把“利刃”,其功能强大且简单易上手。本书就是一本专注于利用Python编程实现大数据分析与机器学习商业应用的实战型教程,讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA(主成分分析)模型、聚类与分群模型(KMeans与DBSCAN算法)、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型,每种模型都配有一到两个典型案例,涵盖了多个行业的应用场景,如金融领域的大数据风控、量化金融交易,产品营销领域的产品智能定价与智能推荐、用户评论情感分析、客户精准营销与流失预警,医疗领域的疾病预测与关联规则分析,社会科学领域的收入预测、人脸识别,企业办公与管理领域的手写文字识别、员工离职预测等。
有的读者可能会在感慨机器学习之强大的同时发出疑问:机器学习这么厉害,我能学会吗?其实机器学习并不复杂,尤其是Python中的编程实现更加方便,你甚至无须完全了解模型的数学原理,便能用几行代码搭建出一个简单的模型,相信读者在阅读完3~5章之后就能体会到Python的数据分析之美。当然,知其然更要知其所以然,本书还会以简单易懂的方式讲解各个机器学习模型的数学原理,读者只需具备高中数学以上的基础便能理解。
为方便读者学习,本书所有案例均提供配套的素材文件、数据文件和源代码文件,并且附赠Python基础知识的电子书和教学视频,具体的获取方法见“如何获取学习资源”中的说明。
由于编者水平有限,本书难免有不足之处,恳请广大读者批评指正,除了扫描封底及勒口中的二维码关注公众号以外,也可加入QQ群930872583与我们交流。

编者
2020年3月

上架指导

计算机/程序设计/Python

封底文字

科技进步为人类提高生产效率、拓宽生活边界提供了前所未有的先进工具,激发出个体需求的大爆发。综合运用多种金融工具以及多种科技途径,创新思路,跨界融合,是走泛信托之路的重要手段。本书深入浅出,通俗易懂,理论与实战并重,揭示了人工智能背后的奥秘,是各行业大数据分析领域的一本高质量的参考书。
—华能贵诚信托有限公司董事长  田军
德国诗人施特凡·格奥尔格认为“词语破碎处,无物存在”。在传统认知中,碎片化的信息无助于理解事物的本质。然而信息技术的飞速进步颠覆了人们认识世界的方式。掌握了Python,就能够将纷繁复杂、支离破碎的海量信息按照我们希望呈现的方式输出,从而精确解构或还原那些被隐藏的规律。Python 不仅仅是时髦的工具,更是一种新的思维方式。
—北京大学经济学院副院长  张亚光
大数据分析和机器学习是当下非常热门的技术领域,也是被多国政府及资本市场热捧的“新基建”的一个重要组成部分,但由于其技术门槛较高,想学习的朋友们往往不知从何下手。本书作者拨云见日,通过10 多个实战案例,用Python 作为基础编程语言,将机器学习的模型原理和使用方法进行代码级剖析,非常适合对机器学习感兴趣的朋友们快速入门。
—亚洲基础设施投资银行电子创新部经理  邵周
深入浅出,通俗易懂,数学理论与Python 实战并重,是大数据分析领域的一本高质量的参考书,精练的代码体现了Python 的“简约”之美,优雅的公式描绘了算法的“深邃”之道。大数据时代开启金融新局面,机器学习引领行业新趋势。“AI+ 金融”,带领读者成为新技术领域商业化变现领跑者。
—西南财经大学金融学院院长  赵静梅

图书目录

前言
如何获取学习资源
第1章 Python与数据科学
1.1 大数据分析与机器学习概述 13
1.1.1 大数据分析与机器学习的应用领域 13
1.1.2 机器学习的基本概念 14
1.1.3 Python在数据科学中的作用 16
1.2 Python编程环境部署与基本操作 16
1.2.1 Python的安装 16
1.2.2 Pycharm的安装与设置 18
1.2.3 Jupyter Notebook的使用 22
1.3 Python基础知识概要 28
第2章 数据分析利器:NumPy、pandas与Matplotlib库
2.1 NumPy库基础 29
2.1.1 NumPy库与数组 29
2.1.2 数组与列表的区别 30
2.1.3 创建数组的几种方式 31
2.2 pandas库基础 33
2.2.1 二维数据表格DataFrame的创建 33
2.2.2 Excel工作簿等文件的读取和写入 38
2.2.3 数据的选取与处理 41
2.2.4 数据表拼接 47
2.3 Matplotlib库基础 51
2.3.1 基本图表绘制 51
2.3.2 数据可视化常用技巧 56
2.4 案例实战:股票数据读取与K线图绘制 61
2.4.1 初步尝试:股票数据读取与可视化 62
2.4.2 进阶实战:股票K线图绘制 65
第3章 线性回归模型
3.1 一元线性回归 73
3.1.1 一元线性回归的数学原理 73
3.1.2 一元线性回归的代码实现 75
3.1.3 案例实战:不同行业工龄与薪水的线性回归模型 77
3.2 线性回归模型评估 83
3.2.1 模型评估的编程实现 83
3.2.2 模型评估的数学原理 84
3.3 多元线性回归 87
3.3.1 多元线性回归的数学原理和代码实现 87
3.3.2 案例实战:客户价值预测模型 88
第4章 逻辑回归模型
4.1 逻辑回归模型的算法原理 92
4.1.1 逻辑回归模型的数学原理 92
4.1.2 逻辑回归模型的代码实现 94
4.1.3 逻辑回归模型的深入理解 95
4.2 案例实战:客户流失预警模型 98
4.2.1 案例背景 98
4.2.2 数据读取与变量划分 98
4.2.3 模型的搭建与使用 99
4.3 模型评估方法:ROC曲线与KS曲线 104
4.3.1 ROC曲线的基本原理 105
4.3.2 案例实战:用ROC曲线评估客户流失预警模型 108
4.3.3 KS曲线的基本原理 111
4.3.4 案例实战:用KS曲线评估客户流失预警模型 112
第5章 决策树模型
5.1 决策树模型的基本原理 115
5.1.1 决策树模型简介 115
5.1.2 决策树模型的建树依据 116
5.1.3 决策树模型的代码实现 119
5.2 案例实战:员工离职预测模型 123
5.2.1 模型搭建 123
5.2.2 模型预测及评估 126
5.2.3 决策树模型可视化呈现及决策树要点理解 131
5.3 参数调优:K折交叉验证与GridSearch网格搜索 138
5.3.1 K折交叉验证 138
5.3.2 GridSearch网格搜索 139
第6章 朴素贝叶斯模型
6.1 朴素贝叶斯模型的算法原理 145
6.1.1 一维特征变量下的贝叶斯模型 145
6.1.2 二维特征变量下的贝叶斯模型 146
6.1.3 n维特征变量下的贝叶斯模型 147
6.1.4 朴素贝叶斯模型的简单代码实现 147
6.2 案例实战:肿瘤预测模型 148
6.2.1 案例背景 148
6.2.2 数据读取与划分 148
6.2.3 模型的搭建与使用 149
第7章 K近邻算法
7.1 K近邻算法的原理和代码实现 152
7.1.1 K近邻算法的基本原理 152
7.1.2 K近邻算法的计算步骤 153
7.1.3 K近邻算法的代码实现 155
7.2 案例实战:手写数字识别模型 157
7.2.1 案例背景 157
7.2.2 手写数字识别的原理 157
7.2.3 手写数字识别的代码实现 159
7.3 图像识别原理详解 162
第8章 随机森林模型
8.1 随机森林模型的原理和代码实现 166
8.1.1 集成模型简介 166
8.1.2 随机森林模型的基本原理 167
8.1.3 随机森林模型的代码实现 168
8.2 案例实战:股票涨跌预测模型 170
8.2.1 股票基本数据获取 170
8.2.2 股票衍生变量生成 173
8.2.3 多因子模型搭建 181
8.2.4 模型使用与评估 184
8.2.5 参数调优 186
8.2.6 收益回测曲线绘制 188
第9章 AdaBoost与GBDT模型
9.1 AdaBoost算法原理 190
9.1.1 AdaBoost算法的核心思想 190
9.1.2 AdaBoost算法的数学原理概述 191
9.1.3 AdaBoost算法的数学原理举例 194
9.1.4 AdaBoost算法的简单代码实现 200
9.2 AdaBoost算法案例实战:信用卡精准营销模型 201
9.2.1 案例背景 201
9.2.2 模型搭建 201
9.2.3 模型预测及评估 202
9.2.4 模型参数介绍 205
9.3 GBDT算法原理 206
9.3.1 GBDT算法的核心思想 206
9.3.2 GBDT算法的数学原理概述 208
9.3.3 GBDT算法的数学原理举例 208
9.3.4 GBDT算法的简单代码实现 213
9.4 GBDT算法案例实战:产品定价模型 214
9.4.1 案例背景 214
9.4.2 模型搭建 214
9.4.3 模型预测及评估 217
9.4.4 模型参数介绍 219
第10章 机器学习神器:XGBoost与LightGBM算法
10.1 XGBoost算法原理 223
10.1.1 XGBoost算法的核心思想 224
10.1.2 XGBoost算法的数学原理概述 224
10.1.3 XGBoost算法的简单代码实现 225
10.2 XGBoost算法案例实战1:金融反欺诈模型 226
10.2.1 案例背景 226
10.2.2 模型搭建 226
10.2.3 模型预测及评估 228
10.2.4 模型参数调优 230
10.3 XGBoost算法案例实战2:信用评分卡模型 233
10.3.1 案例背景 233
10.3.2 多元线性回归模型 234
10.3.3 GBDT回归模型 235
10.3.4 XGBoost回归模型 237
10.4 LightGBM算法原理 241
10.4.1 LightGBM算法的核心思想 241
10.4.2 LightGBM算法的数学原理概述 241
10.4.3 LightGBM算法的简单代码实现 244
10.5 LightGBM算法案例实战1:客户违约预测模型 245
10.5.1 案例背景 245
10.5.2 模型搭建 245
10.5.3 模型预测及评估 247
10.5.4 模型参数调优 249
10.6 LightGBM算法案例实战2:广告收益回归预测模型 251
10.6.1 案例背景 251
10.6.2 模型搭建 251
10.6.3 模型预测及评估 253
10.6.4 模型参数调优 254
第11章 特征工程之数据预处理
11.1 非数值类型数据处理 256
11.1.1 Get_dummies哑变量处理 256
11.1.2 Label Encoding编号处理 259
11.2 重复值、缺失值及异常值处理 261
11.2.1 重复值处理 261
11.2.2 缺失值处理 262
11.2.3 异常值处理 265
11.3 数据标准化 268
11.3.1 min-max标准化 268
11.3.2 Z-score标准化 269
11.4 数据分箱 270
11.5 特征筛选:WOE值与IV值 272
11.5.1 WOE值的定义与计算 272
11.5.2 IV值的定义与计算 275
11.5.3 WOE值与IV值的代码实现 276
11.5.4 案例实战:客户流失预警模型的IV值计算 281
11.6 多重共线性的分析与处理 283
11.6.1 多重共线性的定义 283
11.6.2 多重共线性的分析与检验 284
11.7 过采样和欠采样 287
11.7.1 过采样 287
11.7.2 欠采样 290
第12章 数据降维之PCA
12.1 数据降维 292
12.1.1 PCA的基本原理 292
12.1.2 PCA的代码实现 295
12.2 案例实战:人脸识别模型 299
12.2.1 案例背景 299
12.2.2 人脸数据读取、处理与变量提取 299
12.2.3 数据划分与降维 304
12.2.4 模型的搭建与使用 306
12.3 人脸识别外部接口调用 308
12.3.1 baidu-aip库安装 308
12.3.2 调用接口进行人脸识别和打分 308
第13章 数据聚类与分群分析
13.1 KMeans算法 314
13.1.1 KMeans算法的基本原理 314
13.1.2 KMeans算法的代码实现 315
13.1.3 案例实战:银行客户分群模型 318
13.2 DBSCAN算法 321
13.2.1 DBSCAN算法的基本原理 322
13.2.2 DBSCAN算法的代码实现 323
13.2.3 KMeans算法与DBSCAN算法的对比 326
13.3 案例实战:新闻聚类分群模型 327
13.3.1 案例背景 327
13.3.2 文本数据的读取与处理 327
13.3.3 模型的搭建与使用 335
13.3.4 模型优化 337
第14章 智能推荐系统
14.1 智能推荐系统的基本原理 348
14.1.1 智能推荐系统的应用场景 348
14.1.2 智能推荐系统的基础:协同过滤算法 348
14.2 计算相似度的常用方法 349
14.2.1 欧氏距离 350
14.2.2 余弦相似度 351
14.2.3 皮尔逊相关系数 352
14.3 案例实战:电影智能推荐系统 354
14.3.1 案例背景 354
14.3.2 数据读取与处理 354
14.3.3 系统搭建 358
第15章 关联分析:Apriori算法
15.1 关联分析的基本概念和Apriori算法 363
15.1.1 关联分析的基本概念 363
15.1.2 Apriori算法的数学演示 364
15.1.3 Apriori算法的代码实现 368
15.2 案例实战:病症关联规则分析 374
15.2.1 案例背景 374
15.2.2 数据读取与处理 374
15.2.3 关联规则分析 376
第16章 深度学习初窥之神经网络模型
16.1 深度学习基础:神经网络模型 380
16.1.1 神经网络模型的基本原理 380
16.1.2 神经网络模型的简单代码实现 383
16.2 案例实战:用户评论情感分析模型 385
16.2.1 案例背景 385
16.2.2 数据读取、中文分词、文本向量化 385
16.2.3 神经网络模型的搭建与使用 389

教学资源推荐
作者: 周庆国 崔向平 郅朋 编著
作者: Alfred V.Aho, Ravi Sethi, Jeffrey D.Ullman
作者: 化志章 揭安全 钟林辉 编著
参考读物推荐