内容简介
这是一本以Python为工具,以商业实战为导向的数据科学家养成手册,从技术、业务、商业实战3个维度为有志成为数据科学家的读者提供了系统化的学习路径。3位作者是数据科学和金融领域的资深专家,不仅技术精湛、经验丰富,而且在本书的写作上也颇下功夫:首先,将数学和算法等复杂的技术用图形化的方式来展现,尽可能降低读者的理解难度;其次,本书不是一本教科书或案例集,而是针对数据科学家的能力模型提供系统化的解决方案。
全书一共19章,技术维度,内容依次围绕技术、业务和商业实战3个维度展开;业务维度,围绕宏观业务分析和微观客户分析展现了数据科学在市场研究、企业管理、客户画像与分析、精准营销、风险度量、流失预警等方面的知识点;实战维度,以案例的形式全面展现了著名咨询公司从事客户量化分析的方法论,为读者提供了标准的数据科学工作模板。
本书脚本请到作者的Github主页上下载(https://github.com/changgz/Pydsci)。
资深数据科学家和金融技术专家超过12年的数据科学工作经验总结
从技术、业务、商业实战3个维度为数据科学家的养成提供系统化学习路径
本书是一本集数据分析、数据挖掘、机器学习为一体,面向商业实战的养成式学习手册。为有志从事数据科学工作的读者提供系统化的学习路径,使读者掌握数据科学的理念、思路与分析步骤。
本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,而且都辅以图形进行形象地展现。本书将不同算法看作功能各异的工具,比如用于煮饭的闷锅、用于炒菜的炒锅,每种工具的操作方式都应该遵循相应的说明书,因此对于每种算法我们强调其假设、适用条件与商业数据分析主题的匹配。我们在实践教学中发现,业务经验丰富和有较好商业模式理解能力的学员,在掌握数据科学的技能方面具有明显的优势。这主要是因为这类学员有较强的思辨能力和分析能力,学习的目的性和质量意识较强,不只是简单地模仿和套用数学公式,所以本书也注重对读者思辩能力和分析能力的培养。
本书相当于Python的数据科学工具箱,专门提供了不同数据运用主题的操作框架。不同于一般泛泛而讲的运用案例,落地性强,便于读者实际运用。
本书不是一本教科书或案例集,而是一本提供数据挖掘路线图与解决方案的实战手册。2014年我们编写了一套使用SAS进行商业数据分析的书,得到了读者的认可。2016年我们同时启动了R和Python数据科学方面的写作工作。我们在Python上投入了数倍于R的精力,但是R的书如期问世,而本书却推迟了近一年,原因是Python目前还无法满足精细数据分析的要求。
在数据分析领域,如果说SAS是冲锋枪,那R就是手枪,Python就是匕首。打过CS的同学都知道,使用冲锋枪不需要枪法有多好,只要资金充足,新手都能得心应手。而使用手枪的必定是枪法很准的老手。出门使用匕首杀敌的,必定是神级选手。但是切记,不是使用匕首就是神级,只有使用匕首杀敌并活下来的才是。Python虽然语法优美,开发效率和执行效率均高,但是它是开发工程师的语言,不是面向分析师的,因此分析师要想需要造很多轮子。Python虽然目前方兴未艾,但是在数据科学领域的路还很漫长,投资于未来是艰苦而收益颇丰的。作为用好Python,一部由工作在一线的“文科”背景作者编写的数据科学图书,本书力图降低Python的学习难度,尝试提供不同分析主题的数据科学工作模板,满足亿万“文科生”的数字化转型需求。
读者对象
(1)大数据营销分析人员
营销是大数据落地项目最多的领域,也是数据科学活跃的重镇,数据分析能力将是衡量营销分析人员最重要的指标。可以说未来的每一位营销分析人员,都必须是数据科学工作者。
(2)顾客关系管理人员和数据产品经理
随着工业40时代的到来,标准化制造将逐步被定制化制造取代。因此对客户价值、客户满意度与客户忠诚度的分析将会愈加重要,这些都需要使用到本书中介绍的数据科学工具。
(3)风险管控人员
本书可以作为风险预测模型的工具箱使用。
(4)IT转型人员
在我们开设的数据科学课程中,将近1/3的学员从事IT工作,学员们表示本书内容对其转型提供了很大的帮助。
(5)大中院校学生
本书的内容面向实战,适合作为本硕阶段的参考书。
如何阅读本书
本书有三种阅读方式。
第一种方式:阅读完第1章之后,直接阅读第19章,以案例为导向,遇到不懂的知识点再翻阅之前的内容。这个方式适合在岗的初级数据工作者。
第二种方式:按照客户生命不同周期的数据分析主题,分别从本书中找到获客营销、信用评级、客户画像、精准营销、客户分群、交叉销售、流失预警等内容并逐一学习。这个方式适合市场营销方向的工作者和学生使用。
第三种方式:按照章节逐一阅读,按照知识点由易到难递进式学习。这个方式学习周期长,适合有教师带领学习时使用。
勘误和支持
除封面署名的作者外,参加本书编审和校对工作的还有:吴璐、曾珂、钱小菲。由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。另外有一些工作的点滴所获,也希望与读者第一时间分享,我们会不定时发布在作者的知乎页面https://wwwzhihucom/people/CoolFarmer/。 。书中的全部源文件除可以从华章网站参见华章网站wwwhzbookcom——编辑注。 下载外,还可以从知乎主页下载,我们也会将相应的功能更新及时发布出来。如果你有更多的宝贵意见,也欢迎发送邮件至guozhenchang@qqcom,期待能够得到你们的真挚反馈。
致谢
常国珍在此感谢硕、博期间的两位恩师——北大社会学系周云教授和北大光华管理学院姜国华教授,前者引领我进入社会科学的大门,后者指导我以价值投资的理念对待工作和生活,解决安身立命之本。同时感谢我家人的关心和理解,尤其感谢我的妻子杨巧巧女士,正是她的付出,才能让我安心写作。
赵仁乾在此感谢北京电信规划设计院的领导与同事,他们给予了我项目机会和经验传承,让我能够更快成长。感谢我的父母、妻子和孩子,正是在他们的关心和理解下,我才能专心于本书的写作。
张秋剑在此感谢星环的孙元浩、张月鹏先生给予我的机遇;感谢沃趣的陈栋、李建辉先生给予我的信任;感谢优网的马建功、孟慧智先生给予我的栽培;感谢上海师范大学的王笑梅、李建国老师给予我的教诲。感谢我的家人给予我的坚定支持,以及所有不能一一道谢的朋友们。
感谢机械工业出版社华章分社的编辑杨福川、张锡鹏为本书的出版付出的艰辛劳作。感谢上海市房屋土地资源信息中心的吴璐、第一车贷的曾珂为本书的修改提供的宝贵建议。
谨以此书献给和我们一样在摸索中继续前行的朋友们!
常国珍 赵仁乾 张秋剑
计算机\程序设计
随着全社会的数字化进程的加快,IT技术渗透到各行各业中,以往科技与业务的边界开始逐渐消融,数据科学将成为一个具有行业普适性的基础专业领域。在金融行业,将有超过50%以上的员工向数据科学领域转型,而从本书快速掌握Python的实战技能,无疑是最有效的捷径之一。
—— 王玲 华泰证券信息技术部总经理
人工智能成为国家战略后,我们需要更好的手段来重塑个人、商业和社会的未来图谱关系。人工智能将颠覆现有的商务模式,并将部分取代人类工作中程式化、重复性的工作。所以,我们的工作必须有足够的深度,让自己强大到不会轻易被机器撼动。Python是非常重要和流行的人工智能编程语言和技术,本书将告诉你如何用Python解决人工智能领域的各种问题,好读易懂,有趣有料,为你找到人生新的定位。
—— 姚远 普华永道管理咨询主管合伙人&首席数据科学家
功能强大、易于上手的Python俨然已经成为数据科学家必备的利器,本书就像一本武功秘籍,由浅入深,循序渐进,让有志于成为数据科学家的读者快速掌握数据分析技能。从基础到实战,从数据处理到建模,从编程到业务分析,脉络清晰,详而不繁,值得推荐。
—— 张磊 SAS软件中国有限公司首席数据科学家
从事咨询业多年,我深感各领域的业务人员都对数据科学兴趣盎然,但大多数人都觉得缺少合适的案头参考。本书对于机器学习的初学者来说,是很好的入门向导:它巧妙地连接了业务与数据,也连接了案例与通识,而Python又无疑是数据科学工具的未来方向。书中的内容循序渐进、由浅入深,每读完书中一章,读者都能真正掌握一种解决问题的方法,了解一个商业场景的实现。我会将此书推荐给想要亲自动手一试各类算法的业务精英。
—— 魏秋萍 毕马威大数据团队学科带头人
常国珍 赵仁乾 张秋剑 著:作者简介
常国珍
资深数据科学专家和金融技术专家。北京大学会计学博士,中国大数据产业生态联盟专家委员会委员。
2005年进入数据科学领域,先后在亚信、德勤等企业从事电信、金融行业数据挖掘工作,现就职于中银消费金融有限公司数据管理部。专注于消费金融领域的数据治理、客户智能与风险智能。
赵仁乾
资深数据科学家,在电信大数据和机器学习领域有丰富的实践经验。
现就职于北京电信规划设计院任高级经济师,负责通信、ICT项目工程与业务咨询,专注电信市场数据分析,重点研究方向包括离网用户挖掘、市场细分与精准营销、移动网络价值区域分析、大数据及人工智能运营规划等。
张秋剑
资深大数据专家和金融行业技术专家,上海师范大学计算机科学技术硕士。
现任星环科技金融事业部总监,大数据技术架构行业顾问专家,云析学院发起人,AICUG社区联合发起人,曾在IEEE等期刊发表多篇论文。目前主要为银行、证券和保险等行业客户提供大数据平台及人工智能平台的整体规划和项目建设等工作。
前言
第1章数据科学家的武器库
11数据科学的基本概念
12数理统计技术
121描述性统计分析
122统计推断与统计建模
13数据挖掘的技术与方法
14描述性数据挖掘算法示例
141聚类分析——客户细分
142关联规则分析
15预测性数据挖掘算法示例
151决策树
152KNN算法
153Logistic回归
154神经网络
155支持向量机
156集成学习
157预测类模型讲解
158预测类模型评估概述
第2章Python概述
21Python概述
211Python简介
212Python与数据科学
213Python2与Python3
22Anaconda Python的安装、使用
221下载与安装
222使用Jupyter Notebook
223使用Spyder
224使用conda或pip管理
第三方库
第3章数据科学的Python编程基础
31Python的基本数据类型
311字符串(str)
312浮点数和整数(float、int)
313布尔值(Bool:True/False)
314其他
32Python的基本数据结构
321列表(list)
322元组(tuple)
323集合(set)
324字典(dict)
33Python的程序控制
331三种基本的编程结构简介
332顺承结构
333分支结构
334循环结构
34Python的函数与模块
341Python的函数
342Python的模块
35Pandas读取结构化数据
351读取数据
352写出数据
第4章描述性统计分析与绘图
41描述性统计进行数据探索
411变量度量类型与分布类型
412分类变量的统计量
413连续变量的分布与集中趋势
414连续变量的离散程度
415数据分布的对称与高矮
42制作报表与统计制图
43制图的步骤
第5章数据整合和数据清洗
51数据整合
511行列操作
512条件查询
513横向连接
514纵向合并
515排序
516分组汇总
517拆分、堆叠列
518赋值与条件赋值
52数据清洗
521重复值处理
522缺失值处理
523噪声值处理
53RFM方法在客户行为分析上的运用
531行为特征提取的RFM方法论
532使用RFM方法计算变量
533数据整理与汇报
第6章数据科学的统计推断基础
61基本的统计学概念
611总体与样本
612统计量
613点估计、区间估计和中心极限定理
62假设检验与单样本t检验
621假设检验
622单样本t检验
63双样本t检验
64方差分析(分类变量和连续变量关系检验)
641单因素方差分析
642多因素方差分析
65相关分析(两连续变量关系检验)
651相关系数
652散点矩阵图
66卡方检验(二分类变量关系检验)
661列联表
662卡方检验
第7章客户价值预测:线性回归模型与诊断
71线性回归
711简单线性回归
712多元线性回归
713多元线性回归的变量筛选
72线性回归诊断
721残差分析
722强影响点分析
723多重共线性分析
724小结线性回归诊断
73正则化方法
731岭回归
732LASSO回归
第8章Logistic回归构建初始信用评级
81Logistic回归的相关关系分析
82Logistic回归模型及实现
821Logistic回归与发生比
822Logistic回归的基本原理
823在Python中实现Logistic回归
83Logistic回归的极大似然估计
831极大似然估计的概念
832Logistics回归的极大似然估计
84模型评估
841模型评估方法
842ROC曲线的概念
843在Python中实现ROC曲线
第9章使用决策树进行初始信用评级
91决策树概述
92决策树算法
921ID3建树算法原理
922C45建树算法原理
923CART建树算法原理
924决策树的剪枝
93在Python中实现决策树
931建模
932模型评估
933决策树的可视化
934参数搜索调优
第10章神经网络
101神经元模型
102单层感知器
103BP神经网络
104多层感知器的scikitlearn代码实现
第11章分类器入门:最近邻域与朴素贝叶斯
111KNN算法
1111KNN算法原理
1112在Python中实现KNN算法
112朴素贝叶斯分类
1121贝叶斯公式
1122朴素贝叶斯分类原理
1123朴素贝叶斯的参数估计
1124在Python中实现朴素贝叶斯
第12章高级分类器:支持向量机
121线性可分与线性不可分
122线性可分支持向量机
1221函数间隔和几何间隔
1222学习策略
1223对偶方法求解
1224线性可分支持向量机例题
123线性支持向量机与软间隔最大化
124非线性支持向量机与核函数
1241核函数
1242非线性支持向量机的学习
1243示例与Python实现
125使用支持向量机的案例
第13章连续变量的特征选择与转换
131方法概述
132主成分分析
1321主成分分析简介
1322主成分分析原理
1323主成分分析的运用
1324在Python中实现主成分分析
133基于主成分的冗余变量筛选
134因子分析
1341因子分析模型
1342因子分析算法
1343在Python中实现因子分析
第14章客户分群与聚类
141聚类算法概述
142聚类算法基本概念
1421变量标准化与分布形态转换
1422变量的维度分析
143聚类模型的评估
144层次聚类
1441层次聚类原理
1442层次聚类在Python中的实现
145基于划分的聚类
1451kmeans聚类原理
1452kmeans聚类的应用场景
1453在Python中实现kmeans聚类
146基于密度的聚类
1461详谈基于密度聚类
1462在Python中实现密度聚类
147案例:通信客户业务使用偏好聚类
1471保持原始变量分布形态进行聚类
1472对变量进行分布形态转换后聚类
第15章关联规则
151关联规则
1511关联规则的一些概念
1512Apriori算法原理
1513在Python中实现关联规则
152序列模式
1521序列模式简介与概念
1522序列模式算法
1523在Python中实现序列模式
第16章排序模型的不平衡分类处理
161不平衡分类概述
162欠采样法
1621随机欠采样法
1622Tomek Link法
163过采样法
1631随机过采样法
1632SMOTE法
164综合采样法
165在Python中实现不平衡分类处理
第17章集成学习
171集成学习概述
172Bagging
1721Bagging算法实现
1722随机森林
173Boosting
174偏差(Bias)、方差(Variance)与集成方法
1741偏差与方差
1742Bagging与Boosting的直观理解
第18章时间序列建模
181认识时间序列
182效应分解法时间序列分析
183平稳时间序列分析ARMA模型
1831平稳时间序列
1832ARMA模型
1833在Python中进行AR建模
184非平稳时间序列分析ARIMA模型
1841差分与ARIMA模型
1842在Python中进行ARIMA建模
185ARIMA方法建模总结
第19章商业数据挖掘案例
191个人贷款违约预测模型
1911数据介绍
1912业务分析
1913数据理解
1914数据整理
1915建立分析模型
1916模型运用
1917流程回顾
192慈善机构精准营销案例
1921构造营销响应模型
1922构造客户价值预测模型
1923制订营销策略
1924案例过程回顾与不足
193旅游企业客户洞察案例
1931案例说明
1932数据预处理
1933使用kmeans聚类建模
1934对各个簇的特征进行描述
194个人3C产品精准营销案例
1941案例说明
1942数据预处理
1943建模
1944模型评估
1945下一步建议
附录A 数据说明
参考文献