首页>参考读物>计算机科学与技术>软件与程序设计

Python数据科学:技术详解与商业实践
作者 : 常国珍 赵仁乾 张秋剑 著
出版日期 : 2018-07-03
ISBN : 978-7-111-60309-2
定价 : 99.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 434
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

内容简介
这是一本以Python为工具,以商业实战为导向的数据科学家养成手册,从技术、业务、商业实战3个维度为有志成为数据科学家的读者提供了系统化的学习路径。3位作者是数据科学和金融领域的资深专家,不仅技术精湛、经验丰富,而且在本书的写作上也颇下功夫:首先,将数学和算法等复杂的技术用图形化的方式来展现,尽可能降低读者的理解难度;其次,本书不是一本教科书或案例集,而是针对数据科学家的能力模型提供系统化的解决方案。
全书一共19章,技术维度,内容依次围绕技术、业务和商业实战3个维度展开;业务维度,围绕宏观业务分析和微观客户分析展现了数据科学在市场研究、企业管理、客户画像与分析、精准营销、风险度量、流失预警等方面的知识点;实战维度,以案例的形式全面展现了著名咨询公司从事客户量化分析的方法论,为读者提供了标准的数据科学工作模板。
本书脚本请到作者的Github主页上下载(https://github.com/changgz/Pydsci)。

图书特色

资深数据科学家和金融技术专家超过12年的数据科学工作经验总结
从技术、业务、商业实战3个维度为数据科学家的养成提供系统化学习路径

图书前言

本书是一本集数据分析、数据挖掘、机器学习为一体,面向商业实战的养成式学习手册。为有志从事数据科学工作的读者提供系统化的学习路径,使读者掌握数据科学的理念、思路与分析步骤。
本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,而且都辅以图形进行形象地展现。本书将不同算法看作功能各异的工具,比如用于煮饭的闷锅、用于炒菜的炒锅,每种工具的操作方式都应该遵循相应的说明书,因此对于每种算法我们强调其假设、适用条件与商业数据分析主题的匹配。我们在实践教学中发现,业务经验丰富和有较好商业模式理解能力的学员,在掌握数据科学的技能方面具有明显的优势。这主要是因为这类学员有较强的思辨能力和分析能力,学习的目的性和质量意识较强,不只是简单地模仿和套用数学公式,所以本书也注重对读者思辩能力和分析能力的培养。
本书相当于Python的数据科学工具箱,专门提供了不同数据运用主题的操作框架。不同于一般泛泛而讲的运用案例,落地性强,便于读者实际运用。
本书不是一本教科书或案例集,而是一本提供数据挖掘路线图与解决方案的实战手册。2014年我们编写了一套使用SAS进行商业数据分析的书,得到了读者的认可。2016年我们同时启动了R和Python数据科学方面的写作工作。我们在Python上投入了数倍于R的精力,但是R的书如期问世,而本书却推迟了近一年,原因是Python目前还无法满足精细数据分析的要求。
在数据分析领域,如果说SAS是冲锋枪,那R就是手枪,Python就是匕首。打过CS的同学都知道,使用冲锋枪不需要枪法有多好,只要资金充足,新手都能得心应手。而使用手枪的必定是枪法很准的老手。出门使用匕首杀敌的,必定是神级选手。但是切记,不是使用匕首就是神级,只有使用匕首杀敌并活下来的才是。Python虽然语法优美,开发效率和执行效率均高,但是它是开发工程师的语言,不是面向分析师的,因此分析师要想需要造很多轮子。Python虽然目前方兴未艾,但是在数据科学领域的路还很漫长,投资于未来是艰苦而收益颇丰的。作为用好Python,一部由工作在一线的“文科”背景作者编写的数据科学图书,本书力图降低Python的学习难度,尝试提供不同分析主题的数据科学工作模板,满足亿万“文科生”的数字化转型需求。
读者对象
(1)大数据营销分析人员
营销是大数据落地项目最多的领域,也是数据科学活跃的重镇,数据分析能力将是衡量营销分析人员最重要的指标。可以说未来的每一位营销分析人员,都必须是数据科学工作者。
(2)顾客关系管理人员和数据产品经理
随着工业40时代的到来,标准化制造将逐步被定制化制造取代。因此对客户价值、客户满意度与客户忠诚度的分析将会愈加重要,这些都需要使用到本书中介绍的数据科学工具。
(3)风险管控人员
本书可以作为风险预测模型的工具箱使用。
(4)IT转型人员
在我们开设的数据科学课程中,将近1/3的学员从事IT工作,学员们表示本书内容对其转型提供了很大的帮助。
(5)大中院校学生
本书的内容面向实战,适合作为本硕阶段的参考书。
如何阅读本书
本书有三种阅读方式。
第一种方式:阅读完第1章之后,直接阅读第19章,以案例为导向,遇到不懂的知识点再翻阅之前的内容。这个方式适合在岗的初级数据工作者。
第二种方式:按照客户生命不同周期的数据分析主题,分别从本书中找到获客营销、信用评级、客户画像、精准营销、客户分群、交叉销售、流失预警等内容并逐一学习。这个方式适合市场营销方向的工作者和学生使用。
第三种方式:按照章节逐一阅读,按照知识点由易到难递进式学习。这个方式学习周期长,适合有教师带领学习时使用。
勘误和支持
除封面署名的作者外,参加本书编审和校对工作的还有:吴璐、曾珂、钱小菲。由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。另外有一些工作的点滴所获,也希望与读者第一时间分享,我们会不定时发布在作者的知乎页面https://wwwzhihucom/people/CoolFarmer/。 。书中的全部源文件除可以从华章网站参见华章网站wwwhzbookcom——编辑注。 下载外,还可以从知乎主页下载,我们也会将相应的功能更新及时发布出来。如果你有更多的宝贵意见,也欢迎发送邮件至guozhenchang@qqcom,期待能够得到你们的真挚反馈。
致谢
常国珍在此感谢硕、博期间的两位恩师——北大社会学系周云教授和北大光华管理学院姜国华教授,前者引领我进入社会科学的大门,后者指导我以价值投资的理念对待工作和生活,解决安身立命之本。同时感谢我家人的关心和理解,尤其感谢我的妻子杨巧巧女士,正是她的付出,才能让我安心写作。
赵仁乾在此感谢北京电信规划设计院的领导与同事,他们给予了我项目机会和经验传承,让我能够更快成长。感谢我的父母、妻子和孩子,正是在他们的关心和理解下,我才能专心于本书的写作。
张秋剑在此感谢星环的孙元浩、张月鹏先生给予我的机遇;感谢沃趣的陈栋、李建辉先生给予我的信任;感谢优网的马建功、孟慧智先生给予我的栽培;感谢上海师范大学的王笑梅、李建国老师给予我的教诲。感谢我的家人给予我的坚定支持,以及所有不能一一道谢的朋友们。
感谢机械工业出版社华章分社的编辑杨福川、张锡鹏为本书的出版付出的艰辛劳作。感谢上海市房屋土地资源信息中心的吴璐、第一车贷的曾珂为本书的修改提供的宝贵建议。
谨以此书献给和我们一样在摸索中继续前行的朋友们!

常国珍 赵仁乾 张秋剑

上架指导

计算机\程序设计

封底文字

随着全社会的数字化进程的加快,IT技术渗透到各行各业中,以往科技与业务的边界开始逐渐消融,数据科学将成为一个具有行业普适性的基础专业领域。在金融行业,将有超过50%以上的员工向数据科学领域转型,而从本书快速掌握Python的实战技能,无疑是最有效的捷径之一。
—— 王玲 华泰证券信息技术部总经理
人工智能成为国家战略后,我们需要更好的手段来重塑个人、商业和社会的未来图谱关系。人工智能将颠覆现有的商务模式,并将部分取代人类工作中程式化、重复性的工作。所以,我们的工作必须有足够的深度,让自己强大到不会轻易被机器撼动。Python是非常重要和流行的人工智能编程语言和技术,本书将告诉你如何用Python解决人工智能领域的各种问题,好读易懂,有趣有料,为你找到人生新的定位。
—— 姚远 普华永道管理咨询主管合伙人&首席数据科学家
功能强大、易于上手的Python俨然已经成为数据科学家必备的利器,本书就像一本武功秘籍,由浅入深,循序渐进,让有志于成为数据科学家的读者快速掌握数据分析技能。从基础到实战,从数据处理到建模,从编程到业务分析,脉络清晰,详而不繁,值得推荐。
—— 张磊 SAS软件中国有限公司首席数据科学家
从事咨询业多年,我深感各领域的业务人员都对数据科学兴趣盎然,但大多数人都觉得缺少合适的案头参考。本书对于机器学习的初学者来说,是很好的入门向导:它巧妙地连接了业务与数据,也连接了案例与通识,而Python又无疑是数据科学工具的未来方向。书中的内容循序渐进、由浅入深,每读完书中一章,读者都能真正掌握一种解决问题的方法,了解一个商业场景的实现。我会将此书推荐给想要亲自动手一试各类算法的业务精英。
—— 魏秋萍 毕马威大数据团队学科带头人

作者简介

常国珍 赵仁乾 张秋剑 著:作者简介
常国珍
资深数据科学专家和金融技术专家。北京大学会计学博士,中国大数据产业生态联盟专家委员会委员。
2005年进入数据科学领域,先后在亚信、德勤等企业从事电信、金融行业数据挖掘工作,现就职于中银消费金融有限公司数据管理部。专注于消费金融领域的数据治理、客户智能与风险智能。
赵仁乾
资深数据科学家,在电信大数据和机器学习领域有丰富的实践经验。
现就职于北京电信规划设计院任高级经济师,负责通信、ICT项目工程与业务咨询,专注电信市场数据分析,重点研究方向包括离网用户挖掘、市场细分与精准营销、移动网络价值区域分析、大数据及人工智能运营规划等。
张秋剑
资深大数据专家和金融行业技术专家,上海师范大学计算机科学技术硕士。
现任星环科技金融事业部总监,大数据技术架构行业顾问专家,云析学院发起人,AICUG社区联合发起人,曾在IEEE等期刊发表多篇论文。目前主要为银行、证券和保险等行业客户提供大数据平台及人工智能平台的整体规划和项目建设等工作。

图书目录

前言
第1章数据科学家的武器库
11数据科学的基本概念
12数理统计技术
121描述性统计分析
122统计推断与统计建模
13数据挖掘的技术与方法
14描述性数据挖掘算法示例
141聚类分析——客户细分
142关联规则分析
15预测性数据挖掘算法示例
151决策树
152KNN算法
153Logistic回归
154神经网络
155支持向量机
156集成学习
157预测类模型讲解
158预测类模型评估概述
第2章Python概述
21Python概述
211Python简介
212Python与数据科学
213Python2与Python3
22Anaconda Python的安装、使用
221下载与安装
222使用Jupyter Notebook
223使用Spyder
224使用conda或pip管理
第三方库
第3章数据科学的Python编程基础
31Python的基本数据类型
311字符串(str)
312浮点数和整数(float、int)
313布尔值(Bool:True/False)
314其他
32Python的基本数据结构
321列表(list)
322元组(tuple)
323集合(set)
324字典(dict)
33Python的程序控制
331三种基本的编程结构简介
332顺承结构
333分支结构
334循环结构
34Python的函数与模块
341Python的函数
342Python的模块
35Pandas读取结构化数据
351读取数据
352写出数据
第4章描述性统计分析与绘图
41描述性统计进行数据探索
411变量度量类型与分布类型
412分类变量的统计量
413连续变量的分布与集中趋势
414连续变量的离散程度
415数据分布的对称与高矮
42制作报表与统计制图
43制图的步骤
第5章数据整合和数据清洗
51数据整合
511行列操作
512条件查询
513横向连接
514纵向合并
515排序
516分组汇总
517拆分、堆叠列
518赋值与条件赋值
52数据清洗
521重复值处理
522缺失值处理
523噪声值处理
53RFM方法在客户行为分析上的运用
531行为特征提取的RFM方法论
532使用RFM方法计算变量
533数据整理与汇报
第6章数据科学的统计推断基础
61基本的统计学概念
611总体与样本
612统计量
613点估计、区间估计和中心极限定理
62假设检验与单样本t检验
621假设检验
622单样本t检验
63双样本t检验
64方差分析(分类变量和连续变量关系检验)
641单因素方差分析
642多因素方差分析
65相关分析(两连续变量关系检验)
651相关系数
652散点矩阵图
66卡方检验(二分类变量关系检验)
661列联表
662卡方检验
第7章客户价值预测:线性回归模型与诊断
71线性回归
711简单线性回归
712多元线性回归
713多元线性回归的变量筛选
72线性回归诊断
721残差分析
722强影响点分析
723多重共线性分析
724小结线性回归诊断
73正则化方法
731岭回归
732LASSO回归
第8章Logistic回归构建初始信用评级
81Logistic回归的相关关系分析
82Logistic回归模型及实现
821Logistic回归与发生比
822Logistic回归的基本原理
823在Python中实现Logistic回归
83Logistic回归的极大似然估计
831极大似然估计的概念
832Logistics回归的极大似然估计
84模型评估
841模型评估方法
842ROC曲线的概念
843在Python中实现ROC曲线
第9章使用决策树进行初始信用评级
91决策树概述
92决策树算法
921ID3建树算法原理
922C45建树算法原理
923CART建树算法原理
924决策树的剪枝
93在Python中实现决策树
931建模
932模型评估
933决策树的可视化
934参数搜索调优
第10章神经网络
101神经元模型
102单层感知器
103BP神经网络
104多层感知器的scikitlearn代码实现
第11章分类器入门:最近邻域与朴素贝叶斯
111KNN算法
1111KNN算法原理
1112在Python中实现KNN算法
112朴素贝叶斯分类
1121贝叶斯公式
1122朴素贝叶斯分类原理
1123朴素贝叶斯的参数估计
1124在Python中实现朴素贝叶斯
第12章高级分类器:支持向量机
121线性可分与线性不可分
122线性可分支持向量机
1221函数间隔和几何间隔
1222学习策略
1223对偶方法求解
1224线性可分支持向量机例题
123线性支持向量机与软间隔最大化
124非线性支持向量机与核函数
1241核函数
1242非线性支持向量机的学习
1243示例与Python实现
125使用支持向量机的案例
第13章连续变量的特征选择与转换
131方法概述
132主成分分析
1321主成分分析简介
1322主成分分析原理
1323主成分分析的运用
1324在Python中实现主成分分析
133基于主成分的冗余变量筛选
134因子分析
1341因子分析模型
1342因子分析算法
1343在Python中实现因子分析
第14章客户分群与聚类
141聚类算法概述
142聚类算法基本概念
1421变量标准化与分布形态转换
1422变量的维度分析
143聚类模型的评估
144层次聚类
1441层次聚类原理
1442层次聚类在Python中的实现
145基于划分的聚类
1451kmeans聚类原理
1452kmeans聚类的应用场景
1453在Python中实现kmeans聚类
146基于密度的聚类
1461详谈基于密度聚类
1462在Python中实现密度聚类
147案例:通信客户业务使用偏好聚类
1471保持原始变量分布形态进行聚类
1472对变量进行分布形态转换后聚类
第15章关联规则
151关联规则
1511关联规则的一些概念
1512Apriori算法原理
1513在Python中实现关联规则
152序列模式
1521序列模式简介与概念
1522序列模式算法
1523在Python中实现序列模式
第16章排序模型的不平衡分类处理
161不平衡分类概述
162欠采样法
1621随机欠采样法
1622Tomek Link法
163过采样法
1631随机过采样法
1632SMOTE法
164综合采样法
165在Python中实现不平衡分类处理
第17章集成学习
171集成学习概述
172Bagging
1721Bagging算法实现
1722随机森林
173Boosting
174偏差(Bias)、方差(Variance)与集成方法
1741偏差与方差
1742Bagging与Boosting的直观理解
第18章时间序列建模
181认识时间序列
182效应分解法时间序列分析
183平稳时间序列分析ARMA模型
1831平稳时间序列
1832ARMA模型
1833在Python中进行AR建模
184非平稳时间序列分析ARIMA模型
1841差分与ARIMA模型
1842在Python中进行ARIMA建模
185ARIMA方法建模总结
第19章商业数据挖掘案例
191个人贷款违约预测模型
1911数据介绍
1912业务分析
1913数据理解
1914数据整理
1915建立分析模型
1916模型运用
1917流程回顾
192慈善机构精准营销案例
1921构造营销响应模型
1922构造客户价值预测模型
1923制订营销策略
1924案例过程回顾与不足
193旅游企业客户洞察案例
1931案例说明
1932数据预处理
1933使用kmeans聚类建模
1934对各个簇的特征进行描述
194个人3C产品精准营销案例
1941案例说明
1942数据预处理
1943建模
1944模型评估
1945下一步建议
附录A 数据说明
参考文献

教学资源推荐
作者: 钱晓捷 编著
作者: 严义 包健 周尉 编著
作者: 施霞萍 王瑾德 史建成 马可幸 编著
作者: [美] 劳拉·格雷泽(Laura Graesser) 龚辉伦(Wah Loon Keng) 著
参考读物推荐
作者: Andrew Koenig,Barbara E. Moo
作者: [英]大卫·格里菲思(David Griffiths),[英]道恩·格里菲思(Dawn Griffiths) 著
作者: (美)Dave Shreiner,Graham Sellers,John Kessenich,Bill Licea-Kane 著
作者: [希]安德烈亚斯·M.安东波罗斯(Andreas M. Antonopoulos) 著