首页>参考读物>计算机科学与技术>软件与程序设计

Python金融大数据风控建模实战:基于机器学习
作者 : 王青天 孔越 编著
出版日期 : 2020-05-28
ISBN : 978-7-111-65579-4
定价 : 119.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 376
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书的定位是一本Python金融大数据风控建模的入门级读物。全书包括4篇:背景篇旨在由浅入深地引领读者走进金融科技领域,了解智能风控,系统、全面地认识评分卡;基础篇围绕评分卡构建的全流程,向读者一一讲述每个环节的理论知识,随之进行代码实践,帮助读者获得从0至1构建评分卡模型的工程能力;进阶篇旨在从建模中可能遇到问题出发,提供一些问题解决或模型提升的思路,使建立的评分卡具有更好的业务适应及预测能力;实战篇结合真实信贷场景的数据集,带领读者完成从数据分析至评分卡生成的各个流程,旨在让读者体验真实场景,具备评分卡实战能力,亦可作为读者实际工作中构建评分卡的参考。本书适合有一定Python语言基础的金融风控相关技术人员阅读,也适合想要了解人工智能如何在金融场景应用的开发及业务人员。另外,也适合专业培训机构的学员和相关专业的学生。

图书特色

结合机器学习算法,以真实数据为基础进行信用评分卡模型构建,带领读者零门槛学习金融领域风险控制。立足业务场景,深入剖析金融大数据风控建模的全流程,详解算法原理,系统梳理不同算法的异同与应用场景

图书前言

  自2016年以来,金融科技(Fintech)开始风靡国内外金融行业,备受关注。Fintech基于大数据、云计算和人工智能等一系列创新技术,全面应用于支付清算、借贷融资、财富管理、零售银行、保险、交易结算六大金融领域,是金融业未来的主流趋势。Fintech以数据和技术为核心驱动力,正在改变金融行业的生态格局。
  Fintech在技术上带来的创新,对金融领域的业务模式、应用和产品产生了深刻的甚至颠覆性的影响。人工智能呼啸而来,催生了智能投顾、智能客服和智能风控等行业的发展。本书聚焦智能风控,结合人工智能技术解决金融行业最核心的问题——风险控制。进行风险控制的关键在于解决信息不对称性,信用评分卡模型是解决这一问题的关键策略。尤其是在金融领域积累了大量数据的前提下,为了充分发挥人工智能的优势,评分卡模型正在逐渐成为信用审核等环节的必要且倚重的手段,其发展前景不可估量。
  纵观国内,智能风控领域的图书以信贷理论和业务指导类书籍居多,鲜有能帮助技术人员将业务需求落地实现的工程代码类书籍。本书旨在填补这一空缺,结合真实信贷数据,配合代码实践,引领读者从0至1地构建评分卡模型。
  本书采用Python语言进行代码实战。Python在各行各业的应用越来越普及,从云端到客户端,再到物联网终端,Python应用无处不在。更为重要的是,Python语言是人工智能的首选编程语言,本书聚焦的智能风控领域,正是人工智能对金融数据的应用场景,对此,Python具有无可比拟的优势。关于Python语言实践和人工智能算法理论与实践的书籍颇为丰富,而结合信贷领域场景的算法应用类图书却比较稀缺,本书的出版将会改变这一现状。本书的核心内容包括算法理论与Python代码实践,旨在在构建评分卡的全流程内,先进行算法理论讲解,然后再进行代码实践,全面提升读者构建评分卡的理论造诣和工程能力。
本书特色
  1. 深入剖析业务背景,易学易用
  本书覆盖了大量的业务知识,并力争以对比的方式展现不同业务需求下的建模差异。
* 介绍风控建模流程;
* 以全生命周期为主线介绍不同模型的特点;
* 对建模过程中的每一步都力求给出原因、思考思路和解决办法。
  2. 简明介绍机器学习的建模思想,覆盖广泛
  本书力争以简明的语言阐述算法原理,并借助少量的公式推导让读者理解算法的实质,广泛覆盖大部分常用算法,梳理并对比不同算法族类的异同。
* 详细介绍机器学习体系,并以整个建模流程为主线展开介绍;
* 重点阐明算法思想,弱化繁杂的公式推导;
* 力争以算法族为基础,比较同一问题的不同解决方法;
* 由浅入深,从基本建模流程开始逐步介绍建模过程,进阶部分还介绍大量的复杂模型以提升建模效果。
  3. 全程使用Python 3编程语言,通用、方便
  本书用Python语言完成评分卡模型的代码编写,易学易用。
* 评分卡实战章节的最后都会给出Python代码,方便读者学习和开发;
* 算法部分以scikit-learn包为基础,对算法的关键参数力争给出详细说明,方便读者调参;
* 不同章节采用同一组实验数据,方便读者对比不同算法的实战效果;
* 给出详细充足的代码注释,以方便读者理解。
  4. 真实数据建模,注重实战
  本书最后一章以真实的数据为基础展示了完整的建模流程,注重提升读者从理论到实践的动手能力。
* 以真实的数据为例,复现建模过程;
* 阐明建模过程中需要注意的问题与处理方法;
* 给出代码,实现从0到1的全流程代码实战。
本书内容
  本书是一本Python金融大数据风控建模的入门级读物,全书共19章,分为4篇。
  第1篇 智能风控背景(第1~3章)
  本篇引领读者走进金融科技领域,了解智能风控,系统、全面地认识评分卡。其中,第1章介绍金融科技的概念、发展史和相关新兴科技,简述智能风控的重要性、评分卡的类型和通用建模流程;第2章介绍机器学习的概念与分类及其与数学的关系;第3章介绍4种常用评分卡模型的开发流程,明确模型开发需要经历的不同阶段。
  第2篇 评分卡理论与实战基础(第4~11章)
  本篇围绕构建评分卡的全流程,以“理论+代码实践”的形式对构建评分卡模型的必要环节进行讲解,帮助读者获得从0到1构建评分卡模型的工程能力。其中,第4章介绍数据集成、清洗与预处理;第5章介绍变量编码;第6章介绍变量分箱;第7章介绍变量选择;第8章介绍经典的Logistic回归模型;第9章介绍模型评估;第10章介绍评分卡分数转化;第11章介绍模型在线监控。
  第3篇 评分卡理论与实战进阶(第12~18章)
  本篇从数据层、特征层和模型层三个维度为读者提供一些解决实际问题或提升模型效果的思路,使构建的评分卡具有更好的业务适应能力及预测能力。其中,第12章从数据层的维度介绍样本不均衡处理的策略,旨在从建模最前端(数据源头)寻找提升评分卡模型效果的方法;第13章从特征层的维度介绍显式的特征交叉、半显式的特征生成、隐式的特征交叉方法,用以提高特征工程的效率;第14~18章从模型层的维度介绍更多比经典Logistic回归模型更为复杂的机器学习模型,以便从提高模型的预测能力和扩大模型的容量的角度提升评分卡模型的性能。
  第4篇 Lending Club数据集实战(第19章)
  本篇以Lending Club数据集作为处理对象,带领读者体验处理真实信贷数据的完整流程,包括数据的获取与预处理、特征工程、模型构建与评估、评分卡生成。本篇可带领读者实际演练真实工作场景中评分卡模型的构建过程,从而让他们在整个流程中把对业务的理解、机器学习技术及代码编写能力结合起来,形成自己的模型开发体系。
本书配套资源获取方式
  本书涉及的源代码文件和Demo需要读者自行下载。请在华章网站www.hzbook.com上搜索到本书,然后单击“资料下载”按钮,即可在本书页面上找到“配书资源”下载链接。
本书读者对象
* 有一定Python语言基础的金融科技从业人员;
* 用Python语言开发风控模型的技术人员;
* 对风控建模感兴趣的业务人员;
* 想转行到风控建模领域的技术人员;
* 对机器学习算法感兴趣,正在寻找算法应用场景的人员;
* 喜欢编程的自学人员;
* 金融或者计算机等相关专业的学生;
* 相关培训机构的学员。
本书阅读建议
* 本书假定读者已经具有一定的Python编码能力。若你完全没有Python语言基础,建议同步阅读一本讲解Python语言编程的图书,推荐张頔所著的《Python编程从0到1》一书。
* 以练带学。学习编码的最好方式就是练,请你跟随书中的代码多加练习,以加强对知识的吸收与巩固。
* 业务至上。本书讲解的评分卡最终的服务对象是业务,因此需要结合业务场景,在深入理解业务需求的前提下思考构建不同模型时遇到的问题与处理方法。
* 万变不离其宗。不要只停留在算法应用的表面做一个机械的“调参者”,而应注重深入学习算法原理及不同算法的使用范围,并适当理解数学推导过程,以加深对相关知识的理解,让调参环节更加有的放矢。
* 知识网络化。多对比理解不同框架的算法原理,以及同一框架下各种算法的异同,使相关知识成为一个网络,这样你对知识的理解才会更为透彻。
* 正式阅读本书前,请读者首先阅读本书附录B中的相关内容,以了解本书所使用的Python版本、集成开发环境及相关的Python包。
本书作者
  本书由王青天和孔越合作编写。本书能得以顺利出版,要感谢胡周杰的引荐!还要感谢在写作和出版过程中给予作者大量指导和帮助的各位编辑!
  由于作者水平所限,加之写作时间较为仓促,书中可能还存在一些疏漏和不足之处,敬请各位读者批评与指正。联系邮箱:htw202018@163.com或hzbook2017@163.com。
  最后祝阅读快乐!

上架指导

计算机/程序设计/Python

封底文字

内容简介:

本书是一本基于Python语言的金融大数据风控建模入门读物。书中结合人工智能领域流行的机器学习算法进行信用评分卡模型构建,从而解决金融领域最为核心的风险控制问题。
本书共19章,分为4篇。第1篇“智能风控背景”,旨在由浅入深地引领读者走进金融科技领域,带领他们了解智能风控的相关知识,并全面、系统地认识评分卡;第2篇“评分卡理论与实战基础”,围绕评分卡构建的完整流程,向读者一一讲述每个环节的理论知识,并进行代码实践,帮助读者获得从0到1构建评分卡模型的工程能力;第3篇“评分卡理论与实战进阶”,旨在从建模中可能遇到的问题出发,提供一些解决问题或提升模型效果的思路,使建立的评分卡具有更好的业务适应能力及预测能力;第4篇“Lending Club数据集实战”,结合真实信贷场景的数据集,带领读者完成从数据分析到评分卡生成的各个流程,旨在让读者体验真实的场景,掌握评分卡实战技能,同时为读者在实际工作中构建评分卡提供参考。
本书适合有一定Python语言基础的金融风控从业人员阅读,也适合想要学习人工智能如何应用于金融场景中的开发人员及业务人员阅读。另外,金融、计算机等相关专业的学生,以及金融科技从业人员及相关培训学员也可将本书作为教材或者兴趣读物阅读。

图书目录

前言
第1篇 智能风控背景
第1章 金融科技介绍 2
1.1 金融科技的前世今生 2
1.2 金融科技正深刻地改变和塑造着金融业态 4
1.3 新兴科技不断强化金融科技的应用能力 5
1.4 金融风险控制面临着前所未有的挑战 7
1.5 智能风控和评分卡 8
1.6 评分卡模型的开发流程 11
第2章 机器学习介绍 17
2.1 机器学习的概念 17
2.2 机器学习的分类 17
2.2.1 有监督学习 18
2.2.2 无监督学习 18
2.2.3 强化学习 19
2.3 机器学习与人工智能的关系 20
2.4 机器学习与数学的关系 20
2.5 机器学习与深度学习 22
第3章 评分卡模型介绍 25
3.1 申请评分卡 25
3.1.1 数据获取 26
3.1.2 好坏样本定义 26
3.1.3 观察期与表现期确定 29
3.1.4 样本分层 32
3.1.5 数据清洗与预处理 33
3.1.6 特征工程 33
3.1.7 模型训练与优化 35
3.2 行为评分卡 36
3.2.1 数据获取 37
3.2.2 时间窗口 37
3.2.3 特征工程 38
3.3 催收评分卡 40
3.3.1 催收评分卡分类 40
3.3.2 催收策略 41
3.4 反欺诈模型 42
3.4.1 欺诈风险与信用风险比较 42
3.4.2 欺诈模型好坏样本定义 43
3.4.3 欺诈主体分析 44
3.4.4 反欺诈方法介绍 44
第2篇 评分卡理论与实战基础
第4章 数据清洗与预处理 48
4.1 数据集成 49
4.2 数据清洗 50
4.3 探索性数据分析 52
4.4 Python代码实践 54
4.4.1 数据集成 54
4.4.2 数据清洗 58
4.4.3 探索性数据分析 61
第5章 变量编码方法 66
5.1 无监督编码 66
5.1.1 One-hot编码 66
5.1.2 Dummy variable编码 68
5.1.3 Label编码 69
5.2 有监督编码 70
5.2.1 WOE编码 70
5.2.2 WOE编码与One-hot编码比较 73
5.3 Python代码实践 75
5.3.1 One-hot编码 76
5.3.2 Dummy variable编码 80
5.3.3 Label编码 82
5.3.4 WOE编码 85
第6章 变量分箱方法 89
6.1 变量分箱流程 91
6.2 最优Chi-merge卡方分箱方法 92
6.3 Best-KS分箱方法 94
6.4 最优IV分箱方法 95
6.5 基于树的最优分箱方法 95
6.6 Python代码实践 98
6.6.1 最优Chi-merge分箱 98
6.6.2 最优IV分箱 106
6.6.3 基于树的分箱 107
第7章 变量选择 109
7.1 过滤法变量选择 109
7.2 包装法变量选择 112
7.3 嵌入法变量选择 113
7.4 Python代码实践 115
7.4.1 过滤法变量选择 115
7.4.2 包装法变量选择 118
7.4.3 嵌入法变量选择 120
第8章 Logistic回归模型 123
8.1 Logistic回归模型原理 123
8.2 过拟合与欠拟合 128
8.3 Python代码实践 130
第9章 模型的评估指标 136
9.1 正负样本的选择 137
9.2 标准评估指标 139
9.3 概率密度评估指标 141
9.4 概率分布评估指标 144
9.5 Python代码实践 153
第10章 评分卡分数转化 157
10.1 由概率到分数的转换 157
10.2 变量的分值计算 159
10.3 评分卡性能评估 161
10.4 Python代码实践 163
第11章 模型在线监控 169
11.1 稳定性监控 169
11.2 单调性监控 172
11.3 性能监控指标 173
11.4 Python代码实践 174
第3篇 评分卡理论与实战进阶
第12章 样本不均衡处理 180
12.1 数据层下采样样本不均衡的处理方法 181
12.1.1 随机下采样方法 181
12.1.2 样本邻域选择的下采样方法 182
12.1.3 样本邻域清理的下采样方法 184
12.1.4 Bagging集成的下采样方法 185
12.1.5 Boosting集成的下采样方法 187
12.2 数据层上采样样本不均衡的处理方法 188
12.2.1 随机上采样方法 188
12.2.2 SMOTE样本生成方法 189
12.2.3 Borderline-SMOTE样本生成方法 190
12.3 算法层样本不均衡的处理方法 190
12.4 模型评估层样本不均衡的处理方法 191
12.5 Python代码实践 191
12.5.1 数据层下采样样本不均衡处理代码实现 192
12.5.2 数据层上采样样本不均衡处理代码实现 201
第13章 特征工程进阶 206
13.1 数据层特征工程 206
13.2 算法层特征工程 211
13.2.1 基于树模型的特征生成 211
13.2.2 FM特征交叉 215
13.3 Python代码实践 219
13.3.1 数据层特征工程代码实现 219
13.3.2 算法层特征工程代码实现 222
第14章 决策树模型 229
14.1 决策树模型的原理 229
14.2 决策树学习 229
14.3 决策树与过拟合 234
14.4 Python代码实践 236
第15章 神经网络模型 241
15.1 神经元模型 241
15.2 神经网络的网络结构 242
15.3 神经网络的学习策略 247
15.4 Python代码实践 253
第16章 支持向量机模型 257
16.1 感知器模型 257
16.1.1 感知器模型的原理 257
16.1.2 感知器与支持向量机模型 260
16.2 线性可分支持向量机 261
16.3 线性支持向量机 267
16.4 非线性支持向量机 272
16.5 感知器相关模型比较 278
16.6 Python代码实践 280
16.6.1 线性支持向量机模型代码实现 280
16.6.2 非线性支持向量机模型代码实现 282
第17章 集成学习 286
17.1 Bagging与Boosting对比 286
17.2 Random Forest模型原理 288
17.3 Adaboost模型原理 289
17.4 GBDT模型原理 292
17.5 Xgboost模型原理 297
17.6 Python代码实践 304
17.6.1 Random Forest模型 304
17.6.2 Adaboost模型 308
17.6.3 GBDT模型 310
17.6.4 Xgboost模型 313
第18章 模型融合 317
18.1 Blending方法原理 317
18.2 Stacking方法原理 320
18.3 Python代码实践 322
18.3.1 Blending模型融合代码实现 322
18.3.2 Stacking模型融合代码实现 325
第4篇 Lending Club数据集实战
第19章 完整的模型开发实现 330
19.1 数据源介绍 330
19.2 数据的获取与预处理 331
19.2.1 数据准备 331
19.2.2 好坏样本定义 334
19.2.3 数据清洗与预处理 335
19.3 特征工程 341
19.3.1 简单的特征工程 341
19.3.2 变量分箱与编码 342
19.3.3 变量选择 348
19.4 模型构建与评估 351
19.4.1 模型构建与优化 351
19.4.2 模型评估 352
19.5 评分卡生成 353
附录A 主要符号表 357
附录B 开发环境简介 358
参考文献 362

教学资源推荐
作者: [美]布莱恩· W.克尼汉(Brian W. Kernighan),丹尼斯· M.里奇(Dennis M.Ritchie) 著
作者: 史涯晴 贺汛 编著
参考读物推荐
作者: 吴仲治 编著
作者: 【美】米兰·斯特瓦诺维奇(Milan Stevanovic) 著