参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 240

开本 : 16

原书名 : 无

原出版社: 无

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

内容介绍
本书基于Python全面介绍了机器学习在信贷风控领域的应用与实践，从原理、算法与工程实践3个维度全面展开，包含21种实用算法和26个解决方案。
作者是智能风控、人工智能和算法领域的资深专家，曾在多加知名金融科技企业从事风控算法方面的研究与实践，经验丰富，本书得到了风控领域9位专家的高度评价。
全书一共8章，每个章节都由问题、算法、案例三部分组成，具有系统性和实战性。
第1-2章讲解了信贷业务的基础知识以及常用的规则引擎、信用评估引擎的建模方法。
第3章以项目冷启动为背景，讲解了风控领域应用广泛的迁移学习方法。
第4-5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。
第6章阐述了无监督的异常识别算法，该算法常用于数据清洗与冷启动项目，是反欺诈引擎中常用的个体欺诈检测方法。
第7章分享了一些经作者实践证明效果较好的模型优化方法，并对模型融合的思路进行了较为详细的介绍。
第8章重点讲解了知识图谱相关的复杂网络基础知识及网络表示学习方法，其中的社区发现算法常用于团伙欺诈检测。此外，本章中的部分方法对信用评估模型的优化也有很大帮助。

图书特色

风控、AI、算法领域的资深专家撰写，10位专家联袂推荐

图书前言

为什么要写这本书
风控是机器学习新兴的应用场景之一，该应用场景特点非常明显：
第一，负样本占比极少，是不均衡学习（Imbalance Learning）的典型应用之一。有标签样本的稀缺，使得半监督和无监督算法在风控场景下大放异彩。
第二，业务对模型解释性要求偏高。同时业务对时效性也有一定要求，所以在实际建模中需要权衡模型复杂度与精度，并且适当优化算法内核。
第三，业务模型多样。每一个模型都和业务目标有着非常紧密的联系，因此每一个从业者都需要对业务和模型有很好的理解，从而为业务定制合适的模型。
第四，风控数据源丰富。围绕人展开的数据皆可用，而数据的多样性带来的是新兴技术的井喷，结构化数据、图像、文本等多个领域的方法都在风控领域有一定应用。
风控的子方向有很多，如信贷平台的贷款欺诈检测、社交平台的垃圾内容检测、媒体平台的流量作弊检测等。各个方向的场景大多具有相似的特点，虽然因数据源不同，实际应用中的算法选择略有差异，但整体的算法应用策略一致。在各场景中，信贷业务经过简化后相对容易理解，并且数据多元，包括结构化数据、时间序列数据、文本数据等。读者在了解基本的信贷概念后，就可以快速展开对机器学习相关内容的学习了。
笔者研读市面上智能风控相关的学习资料时发现，入门资料非常丰富，而专门介绍风控领域机器学习技术的进阶资料几乎没有，因此决心写一本构建风控领域机器学习体系的书，且希望原理与实践并重，帮助入门后的从业者进一步学习提高。本书围绕信贷风控展开，重点介绍欺诈检测的机器学习方法。
读者对象
本书主要面向从事风险控制工作的广大分析师、建模师、算法工程师，也适合对传统信用评分卡有初步认识的在校学生，以及对机器学习在风控领域应用感兴趣的读者。
本书特色
与市面上许多风控建模相关的图书不同，本书主要使用机器学习方法进行信用管理，而不是使用传统的统计分析手段与逻辑回归评分卡的内容。有关构建信贷评分卡的内容，本书最后的参考文献中所列的书籍已经讲解得非常透彻了，因此传统评分卡在本书中仅以对比机器学习评分卡的形式出现。对于信贷领域的基础概念，本书不作过多展开，只对本书中涉及的部分加以解释。
本书初稿的篇幅是目前的两倍以上，详细介绍了风控领域每一个场景的算法原理及业务逻辑，但经与专业人士反复探讨，笔者最终决定将与参考文献中所列图书重合度较高的内容去掉，而将笔墨集中在解决问题相关的算法及实际应用上。
本书的大部分章节都由问题、算法、案例三部分组成。期望读者通过对本书的阅读，可以更快、更好地解决实际问题，而非纸上谈兵。本书中的案例大多为业内尚未普及的前沿案例，希望能够对读者有所启发。
本书中有大量公式和代码，为提高可读性，特邀请资深设计师毛鑫宇老师为本书手绘素材及插图，希望在保证内容丰富、严谨、实用的同时，让读者感受到读书的乐趣。
如何阅读这本书
本书是一本专注于介绍机器学习算法在风控领域的应用的书籍，具有很强的实践性。全书共8章，包含21种实用算法与26种解决方案。
第1～2章讲解了信贷业务的基础知识及常用的规则引擎、信用评估引擎的建模方法。
第3章围绕迁移学习展开，并以项目冷启动为背景进行介绍。迁移学习在风控领域的应用非常广泛。
第4～5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。在实际应用中，迁移学习可以为这两种场景带来很多帮助。
第6章重点讲解了无监督的异常识别算法。该方法常用于数据清洗与冷启动项目，是反欺诈引擎中常用的个体欺诈检测方法。
第7章分享了一些经笔者实践证明效果较好的模型优化方法，并对模型融合的思路进行了较为详细的介绍。
第8章重点介绍了知识图谱相关的复杂网络基础知识及网络表示学习方法，其中的社区发现算法常用于团伙欺诈检测。除团伙欺诈检测外，第8章所涉及的部分方法对信用评估模型的优化也有很大帮助。
本书更多是为读者提供一些实践经验以及深入挖掘的方向，读者可以在本书基础上进行深入研究与实践。笔者认为阅读一本书应分为两大阶段：第一阶段将书“由厚读薄”，抽象出主体知识与脉络架构，形成自己的思维体系；第二阶段将书“由薄读厚”，将抽象的思维体系与书本内容进行交叉验证，发现其中的细节，并加以引申。切勿在第一阶段结束后就自以为掌握了核心思想而不再有进取之心。希望读者在阅读本书时能多思考、多总结、勤于实践，最终实现学以致用。
本书的内容结构如下图所示。
勘误与支持
写作本书时虽力求完美，但由于作者水平有限，错误和疏漏之处在所难免，在此，期望得到各领域专家和广大读者的批评指正。如果你有关于本书的建议或意见，欢迎发送邮件至yfc@hzbook.com。

本书内容结构
致谢
感谢机械工业出版社华章分社策划编辑杨福川老师、责任编辑罗词亮老师，以及本书的封面、插画、素材设计者毛鑫宇老师。以上各位为本书花费了大量的时间和精力，并在本书的创作过程中提出了宝贵的修改建议，特此感谢。
感谢赵越老师（知乎ID：微调），其开发维护的PyOD库为异常检测方法的实际应用提供了极大便利。感谢公众号“人工智能爱好者社区”负责人邬书豪兄、公众号“风控圈子”负责人孙耀武兄对本书的大力支持，以及梁官雪老师、周立烽老师等数十位好友在日常交流、工作中对我的指导。
感谢参与本书出版的全部工作人员的付出以及各位同事、朋友为本书带来的灵感。

上架指导

计算机\人工智能

封底文字

风控是金融和交易类业务的核心环节，此领域缺乏逻辑实证主义体系下的整体框架。本书在这方面做出了非常有价值的总结，它会帮助风控人员快速建立起合理的思考方式和扎实的方法论。
——刘鹏科大讯飞副总裁，《计算广告》作者
本书主要关注金融科技在信贷领域的创新应用，算法原理与工程实践并重，在理论与现实之间架起了一座坚实的桥梁。
——李志勇西南财经大学金融学院信用管理系主任/《信用评分工具》等书译者
本书可读性强，漫画风格；实战性强，每个知识点都有案例；技术和算法在风控领域也比较超前，如生成对抗网络、迁移学习等。阅读过程像是给自己的风控体系做诊断，在确认病因后，本书还提供了药方。
——黄莹历任微软解决方案专家/DataVisor资深风控顾问
对于初学者而言，书的易读性很重要，这本书的最大特点是内容表达形式丰富多样。还给出了大量源代码，让读者很容易上手实践。
——闫光某四大风险咨询高级总监/信息安全专家
本书全面讲解了机器学习算法在风控和反欺诈领域的应用，读者既能学习机器学习算法，又能理解智能风控在业务中的具体应用。
——艾辉　融360高级技术经理/前饿了么高级技术经理
将书中的迁移学习、模型融合、图卷积神经网络等新知识点与自身的策略知识与业务经验相结合，建立客群分层衍生变量、融合模型等，模型性能会有较大提升，值得大家反复阅读。
——周立烽　前阿里系禧云、腾讯系微盟风控总监
本书最大的特点是对多种新兴检测方法的覆盖，它很好地平衡了理论性与工程性的比例，并提供了全面的实例代码，值得从业者和研究者反复阅读。
——赵越卡内基梅隆大学在读博士/PyOD作者
作者基于丰富的从业经验，结合详实的案例，为读者提供了风控模型策略开发的全流程方案。
——谢士晨中银富登高级数据分析经理/R和Python包ScoreCard作者
如果你正在从事或者希望从事数据分析、风控建模、算法工程类工作，相信此书不会让你失望。
——翟锟华亿嘉科技风控总监
全书以案例驱动，案例多来自一线业务，有非常强的业务指向性，所提供的方案与代码也有非常强的实操性。
——范晓锋阿里巴巴本地生活资深总监

作者简介

梅子行著：作者介绍
梅子行
资深风控技术专家、AI技术专家和算法专家，现就职于满帮科技，负责机器学习在风控领域的算法优化。历任多家知名金融科技公司的风控算法研究员、数据挖掘工程师。
师承Experian、Discover等企业的资深风控专家，擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法，热衷于数据挖掘以及算法的跨领域优化实践。
公众号与知乎专栏：“大数据风控与机器学习”。

推荐序

梅子行先生是我的好友，很荣幸受邀为梅先生的这本力作撰写推荐序。同时，得知本书即将由机械工业出版社出版，在此对本书的面世表示衷心祝贺。
风险性是包括信贷业务在内的金融活动的根本属性，风险管理是金融行业的核心与基石。根据我个人的理解，从方法的演进历程而言，风险管理大致经历以下三个阶段：
第一阶段是“纯人脑的风险管理”。由于可获得的数据很少，可运用的分析技术稀缺，这一阶段的风险管理完全依赖于从业者的经验累积和主观判断。
第二阶段是“人脑+电脑的风险管理”。由于累积了一定量的数据，出现了数据表格（如Excel）和统计分析工具，计算机开始在风险管理中发挥一定的作用。
第三阶段是“智能风险管理”，这也是目前正在经历并将长期处于的阶段。由于拥有了海量的数据，加之包括机器学习、深度学习在内的人工智能技术逐步普及，风险管理正在变得更加精确、高效。
梅先生的这本书以当前流行的机器学习模型作为技术线，以信贷业务的风险管控作为场景图，以线带面勾勒出了信贷领域智能风控的最佳实践，可谓是一本贴合当前智能风险管理业务需要的佳作。
本书以Python作为实现智能风险管理的编程语言，而我个人也十分推崇运用Python分析金融、管控风险。我想借此机会，回答一下被众多金融从业者问及的一个普遍性问题：“为什么金融领域如此偏爱Python？”我的回答包括以下三点：
第一，Python是开放的（Python is open）。Python不仅免费而且还是开源的，同样金融也是海纳百川、兼收并蓄的，Python与金融的“碰撞”必将创造出一个更加开放与包容的金融科技世界。
第二，Python是强大的（Python is powerful）。Python拥有大量第三方模块和工具包，便于开展各类科学数据分析与可视化工作，即使在机器学习、深度学习等前沿的人工智能领域，Python的工具包也发挥着不可替代的作用。而如今在整个金融行业数字化、智能化转型的关键阶段，强大的Python将助力金融业的转型。
第三，Python是简洁的（Python is simple）。Python的语法结构与代码的简洁性，使得无论是缺乏计算机编程经验的新手，还是熟练驾驭C++、Java、R等语言的编程老手，对Python都比较容易上手。而简洁性这一点也恰恰是当前金融业不断追求的，自从2008年全球金融危机以来，金融领域的一个典型特征就是金融产品的交易结构和规则日趋简洁。
那么，广大读者如何才能通过本书真正掌握智能风控技术呢？在这里我想借用三句宋词来阐述学习本书的三部曲。
第一部曲是“昨夜西风凋碧树，独上高楼，望尽天涯路”。（晏殊《蝶恋花》）对于广大读者而言，首先必须设定明确的学习目标，制订合理的学习计划和时间表，充分做好学习的长远规划和顶层设计。
第二部曲是“衣带渐宽终不悔，为伊消得人憔悴”。（柳永《蝶恋花》）由于智能风控既包括风险管理又包含人工智能，内容多、技术要求高，因此学习的过程绝不会轻松，更不可能是一日之功，而需要坚定自己的理想与信念，持之以恒地付出与努力。
第三部曲是“众里寻他千百度，蓦然回首，那人却在灯火阑珊处”。（辛弃疾《青玉案·元夕》）虽然包括机器学习在内的人工智能技术很强大，但是它所能发挥的作用大小与运用场景密不可分，在大量的运用场景中，风险管理可以说是最佳的运用场景之一。广大读者在学习本书时需要结合风险管理的理论和实践，因为只有这样才能让人工智能助力我们的学习。
金融科技时代已经来临，人工智能正创造着风险管理的无限可能！热切期盼梅先生的这本书能够成为广大金融从业者尤其是风险管理从业者的必备工具书。

斯文
经济学博士、CPA、CFA、FRM
微信公众号“风控博士沙龙”负责人
热门书《基于Python的金融分析与风险管理》作者

图书目录

推荐序
前言
第1章　风控建模与规则挖掘　/ 1
1.1　信贷与风险　/ 1
1.1.1　信贷业务与互联网金融风控体系　/ 1
1.1.2　信贷风险与控制　/ 4
1.2　工业建模流程　/ 5
1.2.1　抽象业务　/ 6
1.2.2　定义标签　/ 6
1.2.3　样本选取　/ 7
1.2.4　特征工程与模型调优　/ 9
1.2.5　上线监控与评估报表　/ 10
1.3　规则挖掘方案　/ 13
1.4　本章小结　/ 20
第2章　集成模型评分卡　/ 21
2.1　特征工程解析　/ 21
2.1.1　特征与模型　/ 22
2.1.2　信用模型的特征　/ 22
2.2　特征衍生方案　/ 24
2.3　离散处理　/ 27
2.3.1　one-hot编码　/ 27
2.3.2　WOE编码　/ 28
2.4　迭代特征筛选方案　/ 33
2.5　自动化调参　/ 38
2.5.1　自动化调参策略　/ 38
2.5.2　参数搜索方案　/ 39
2.5.3　调参框架搭建　/ 40
2.6　递归特征删除方案　/ 43
2.7　评分卡制作　/ 44
2.7.1　逻辑回归评分卡　/ 45
2.7.2　集成模型的评分映射　/ 55
2.7.3　针对业务改写评价函数　/ 59
2.8　本章小结　/ 60
第3章　迁移学习与冷启动　/ 61
3.1　迁移学习基础　/ 61
3.1.1　应用场景　/ 62
3.1.2　概念介绍　/ 62
3.2　迁移学习方法论　/ 63
3.2.1　三类常见算法　/ 63
3.2.2　迁移的实现方法　/ 64
3.3　少量有标签样本的迁移方案　/ 65
3.3.1　TrAdaBoost模型　/ 65
3.3.2　跨场景迁移模型　/ 67
3.4　无标签样本迁移之JDA　/ 76
3.4.1　JDA模型　/ 76
3.4.2　模型应用　/ 79
3.5　无标签样本迁移之DTELM　/ 80
3.5.1　ELM模型　/ 81
3.5.2　DTELM模型　/ 82
3.5.3　模型应用　/ 84
3.6　迁移样本筛选方案　/ 88
3.6.1　背景介绍　/ 88
3.6.2　算法框架概览　/ 88
3.6.3　搭建融合框架　/ 89
3.7　本章小结　/ 93
第4章　幸存者偏差　/ 95
4.1　幸存者偏差的含义　/ 95
4.2　增量学习　/ 96
4.3　生成对抗网络　/ 97
4.3.1　GAN模型介绍　/ 98
4.3.2　GAN与幸存者偏差　/ 99
4.4　高斯混合模型　/ 100
4.4.1　GMM算法原理　/ 101
4.4.2　GMM简单应用　/ 103
4.4.3　GMM中的概率模型　/ 104
4.4.4　GMM样本生成　/ 107
4.5　信息准则　/ 110
4.5.1　赤池信息准则　/ 110
4.5.2　贝叶斯信息准则　/ 111
4.5.3　AIC与BIC比较　/ 111
4.6　本章小结　/ 112
第5章　不均衡学习　/ 113
5.1　样本不均衡　/ 113
5.2　代价敏感加权方案　/ 114
5.3　插值过采样方案　/ 115
5.3.1　SMOTE算法　/ 115
5.3.2　过采样算法实践　/ 116
5.4　半监督学习方案　/ 121
5.4.1　前提假设　/ 122
5.4.2　S3VM　/ 122
5.4.3　LP　/ 127
5.5　本章小结　/ 130
第6章　异常检测　/ 132
6.1　离群点与欺诈检测　/ 133
6.2　z-score检验　/ 134
6.3　LOF异常检测法　/ 134
6.3.1　原理与算法流程　/ 135
6.3.2　LOF样本清洗方案　/ 137
6.4　IF异常检测法　/ 139
6.4.1　原理与算法流程　/ 139
6.4.2　PreA模型与冷启动　/ 141
6.5　本章小结　/ 144
第7章　模型优化　/ 145
7.1　多损失函数分段预测　/ 145
7.1.1　两种损失函数　/ 146
7.1.2　融合流程　/ 146
7.2　树模型特征衍生　/ 149
7.2.1　GBDT离散化　/ 149
7.2.2　融合方案详解　/ 150
7.2.3　特征衍生细节　/ 151
7.2.4　案例　/ 151
7.3　时间序列建模　/ 160
7.3.1　RNN　/ 160
7.3.2　LSTM　/ 163
7.3.3　门控结构　/ 164
7.3.4　LSTM行为评分卡案例　/ 166
7.4　高维稀疏数据建模　/ 170
7.4.1　算法原理　/ 171
7.4.2　算法应用　/ 172
7.5　模型融合　/ 173
7.5.1　模型融合基础　/ 173
7.5.2　模型筛选　/ 174
7.5.3　业务应用方案　/ 181
7.6　本章小结　/ 183
第8章　知识图谱　/ 184
8.1　复杂网络基础　/ 184
8.2　中心度与相似性　/ 187
8.3　节点分类　/ 193
8.3.1　朴素节点分类　/ 193
8.3.2　邻节点加权投票　/ 195
8.3.3　一致性标签传播　/ 197
8.4　社区发现算法　/ 200
8.4.1　基础概念　/ 200
8.4.2　Girvan-Newman算法　/ 201
8.4.3　Louvain算法　/ 202
8.4.4　社区评估　/ 204
8.5　网络表示学习　/ 206
8.5.1　矩阵分解　/ 207
8.5.2　节点嵌入　/ 210
8.6　图卷积神经网络　/ 215
8.6.1　卷积神经网络　/ 215
8.6.2　傅里叶变换　/ 217
8.6.3　拉普拉斯算子　/ 219
8.6.4　GCN中的图卷积　/ 221
8.7　本章小结　/ 225
参考文献　/ 226