本书介绍了总体预测建模过程,从数据预处理、数据分割和模型调优基础开始,然后直观地解释很多常见的、现代的回归技术和分类技术,总是强调对实际数据问题的说明和求解。从解决实际问题延伸到模型拟合,以及随之出现的主题,如处理类不平衡,选择预测因子等在实践中经常发生的问题。章后附有习题,供读者巩固所学。R包中还有数据可用。
关于预测分析和数据建模,网络上有各种各样的图书……根据关联性、流行性、线上排名以及为你的业务增值的能力,我们选出了《应用预测建模》……
— Timothy King Business Intelligence Solutions Review, solutions-review.com
我曾用这本书作为数据科学课程的辅助教材,因为数据科学需要涵盖处理数据、模型评估和机器学习方法等方面的内容,所以我使用了一系列不同的资料。如果下次我还教授数据科学课程,我将只用这本书,因为它包含了这个领域所有方面的内容。
— Louis Luangkesorn lugerpitt.blogspot.com
关于回归和分类模型的预测技术,这部著作提供了非常有用的实践课程……两位作者不仅是建模和预测领域公认的专家,也是R包开发者和统计方法领域公认的专家……对于在应用复杂统计技术时需要直接帮助的学生和实践者,这本书是非常有益的。
— Stan Lipovetsky Technometrics
这本关于数据分析的优秀图书广受好评,荣获2014年Ziegel奖,还被很多教师选为“数据科学”课程的教材。本书专注于预测建模的实际应用,介绍了从数据预处理到建模再到模型评估和选择的整个过程,以及背后的统计思想,涉及各种回归技术和分类技术。从解决实际问题延伸到模型拟合,以及随之出现的主题,如处理类不平衡、选择预测因子等在实践中经常出现的问题,作者意在为读者提供预测建模过程的指导,并结合开源软件R语言来求解实际问题,详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含了书中例题和习题使用的数据,以及用于重复书中每一章分析的R代码。
作者简介
马克斯·库恩(Max Kuhn)
康涅狄格州格罗顿市辉瑞全球研发非临床统计部主任,在制药和诊断行业已有近20年应用预测模型的经验,他还是很多R包的作者。
谢尔·约翰逊(Kjell Johnson)
博士,在药物研发和其他行业有近20年统计咨询和预测建模经验,曾任辉瑞全球研发统计部主任。
这是一本关于数据分析的书,专注于预测建模的实际应用。“预测建模”一词可能让人联想起诸如机器学习、模式识别和数据挖掘。事实上,这样的联想是很自然的,这些专业名词指代的方法是预测建模整体过程的一部分。但是预测建模所涵盖的范围远大于发现数据模式的工具和技术。应用预测建模定义了这样一个建立模型的过程,我们能理解和量化模型对未来即将看到的数据的预测准确度。本书的核心内容就是其中的整个过程。
本书意在为实践者提供预测建模过程的指导,读者可以从阅读中学到许多(建模)方法以及提高对许多常用的、现代的有效模型的认识。我们会介绍许多统计和数学技术,但在任何情况下我们描述技术细节的动机都是帮助读者理解模型的优缺点,而非(单纯)数理统计知识。我们极力避免复杂的公式,但是有少数例外。关于预测模型的理论知识,推荐这两本书,即Hastie等(2008)和Bishop (2006)。本书的读者需要有一些基本的统计学知识,包括方差、相关性、简单线性回归以及基本的统计假设检验(如p值和检验统计量)。
预测建模的过程本质上具有很强的应用实践性。但我们研究发现,很多文章、出版物不能让读者再现(他们的)建模结果,因为数据不公开,或读者无法使用相应软件,又或软件需付费。Buckheit和Donoho(1995)对传统学术界提出了相似的批评:
一篇发表于科学刊物上关于计算机科学的文章本身不是学术,仅是关于学术的广告。真正的学术是完整的软件开发环境和能够生成那些图的所有指令集。
因此,我们的目标是尽可能地具有实践应用性,让读者能在一定精度范围内重复本书的结果,且可以自然地将书中的预测建模方法应用到他们自己的数据上。再者,对于整个建模过程,我们使用R语言(Ihaka和Gentleman 1996; R Development Core Team 2010),这是一个用于数学和统计计算的免费软件。几乎所有例子中的数据集都可以在相应R包中找到。R包AppliedPredictiveModeling包含了书中使用的很多数据,以及可以用于再现书中每一章分析结果的R代码。
我们选择R作为计算引擎有如下几个原因。首先R是免费的(虽然也有商业版的R),可以在不同的操作系统上使用。其次,它在通用公共许可(General Public License)下发行(免费软件基金2007年6月),该许可阐明程序再次发布的规则。在此构架下,任何人可以任意检查、修改源程序。由于开源特性,很多预测模型已经由R包可以实现。再者R有进行预测建模的大量强大的功能。不熟悉R的读者可以在网上找到大量的入门教程(见附录)。
由于篇幅所限,本书没有涵盖广义加性模型、模型集成、网络模型、时间序列等内容。
本书还有一个配套网站:
http://appliedpredictivemodeling.com/
其中含有一些相关内容。
没有如下这些人的指导和帮助不会有本书的问世:Walter H Carter, Jim Garrett,Chris Gennings, Paul Harms, Chris Keefer, William Klinger, Daijin Ko, Rich Moore, David Neuhouser, David Potter, David Pyne, William Rayens, Arnold Stromberg和Thomas Vidmar。我们还要感谢Ross Quinlan对Cubist和 C50部分的帮助,他们帮我们修正了这两部分的一些描述。我们还要感谢Springer出版社的Marc Strauss和Hannah Bracken以及审阅者Vini Bonato、Thomas Miller、Ross Quinlan、Eric Siegel、Stan Young和一位匿名审阅者。最后我们要感谢家人的支持:Miranda Kuhn, Stefan Kuhn, Bobby Kuhn, Robert Kuhn, Karen Kuhn 和Mary Ann Kuhn; Warren和Kay Johnson,Valerie和Truman Johnson。
Max Kuhn
Kjell Johnson
数学\统计学
“关于预测分析和数据建模,网络上有各种各样的图书……根据关联性、流行性、线上排名以及为你的业务增值的能力,我们选出了以下10本书:(1)《应用预测建模》……”
—— Timothy King, Business Intelligence Solutions Review, solutions-review.com
“我曾用这本书作为‘数据科学’课程的辅助教材,因为‘数据科学’需要涵盖处理数据、模型评估和机器学习方法等方面的内容,所以我使用了一系列不同的资料。如果下次我还教授‘数据科学’课程,我将只用这本书,因为它包含了这个领域的所有方面内容。”
——Louis Luangkesorn, lugerpitt.blogspot.com
“关于回归和分类模型的预测技术,这部著作提供了非常有用的实践课程……两位作者不仅是建模和预测领域公认的专家,也是R包开发者和统计方法领域公认的专家……对于在应用复杂统计技术时需要直接帮助的学生和实践者,这本书是非常有益的。”
——Stan Lipovetsky, Technometrics
[美]马克斯·库恩(Max Kuhn) 谢尔·约翰逊(Kjell Johnson) 著:暂无简介
林荟 邱怡轩 马恩驰 肖楠 张尚轩 译:暂无简介
无需西装、领带、高脚杯和红唇,“数据科学家”本身就是21世纪“性感”的代名词!数据科学家在北美是高薪职业,相关人才成为各大科技公司争夺的对象。随着计算机技术的进步,数据科学成为热门话题,预测模型几乎能够用于你所能想到的任何一个领域。通过互联网上的海量数据加上如R、Python之类的开源工具,使得很多还是新手的数据分析从业者能够进行相对复杂的建模。数据建模分析竞赛平台Kaggle使企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型,最优建模者可以获得企业提供的奖金或面试机会。
数据科学是很多不同学科的结合体(统计学、计算机科学、人工智能等,基于其应用的领域还要求特定的行业知识),从业者的背景跨度很大。相关书籍有些注重应用而没有提供足够的理论说明,有些又过于偏重理论而让读者不知如何有效应用。本书很好地平衡了两者,与其他书不同的是,本书对应有一个R包,其中包含许多代码示例,极大地方便了读者使用书中介绍的模型。
除了可重复性外,在我看来,本书的最大优点是介绍了从数据预处理到建模再到模型评估选择的整个过程,以及背后的统计思想。统计研究的不是确定性而是不确定性。统计学界泰斗George EPBox有这样一句名言:
“本质上讲,所有模型都是错的,但有一些是有用的。”
这短短的一句话体现了很高的统计成熟度。记得博士期间,讲《高级应用统计》的教授说过:“这门课的主要目的不是教统计知识,而是提高你们的统计成熟度。”该教授讲课天马行空,一学期下来让我觉得不着边际,但这五个字我牢牢地记住了,并在之后从业过程中不断隔空回响,成为我的职业箴言。阅读本书不仅可以学习统计知识,更重要的是可以提高统计成熟度。预测模型不是万能的,每一个预测都带有不确定性,建模者不是提供了预测值就万事大吉,更重要的是尝试尽可能多的模型,通过严格的训练测试探究模型的不确定性并且选出最优模型。在实际应用中,对不确定性的理解越深,越能在风险和收益之中做出权衡,预测模型产生的实际影响就越大。理论和应用之间还有相当长一段路要走,本书就是连接这两点的一条路。
在负责杜邦先锋北美市场预测建模两年多来,本书给我很大的帮助。我相信无论你是数据分析的新手,还是数理统计的博士,本书都会让你受益匪浅。如果你打算从事预测建模的工作,本书绝对不容错过。
本书的翻译工作是由5人合作完成的。林荟翻译了书的第1~4,16,18、19章和第14章的后半部分。邱怡轩和肖楠共同翻译了第5~10章。马恩驰翻译了第11、15、17章,以及第14章的前半部分。张尚轩翻译了第12、13章。邱怡轩、肖楠和林荟负责审校。在翻译和校对过程中,我们对原书的一些明显错误做了修订,有的地方加上了译者注以帮助读者理解。机械工业出版社的明永玲编辑对该书的翻译工作给予了大力的支持和帮助。在此对所有为本书中文版问世做出努力的人表示感谢!
限于译者水平,书中难免有错误和不妥之处,恳请读者批评指正。
林荟
译者序
前言
第1章导论
11预测与解释
12预测模型的关键部分
13专业术语
14实例数据集和典型数据场景
15概述
16符号
第一部分一般策略
第2章预测建模过程简介
21案例分析:预测燃油效能
22主题
23总结
第3章数据预处理
31案例分析:高内涵筛选中的细胞分组
32单个预测变量数据变换
33多个预测变量数据变换
34处理缺失值
35移除预测变量
36增加预测变量
37区间化预测变量
38计算
习题
第4章过度拟合与模型调优
41过度拟合的问题
42模型调优
43数据分割
44重抽样技术
45案例分析:信用评分
46选择调优参数值
47数据划分建议
48不同模型间的选择
49计算
习题
第二部分回归模型
第5章衡量回归模型的效果
51模型效果的定量度量
52方差偏差的权衡
53计算
第6章线性回归及其扩展
61案例分析:定量构效关系建模
62线性回归
63偏最小二乘法
64惩罚模型
65计算
习题
第7章非线性回归模型
71神经网络
72多元自适应回归样条
73支持向量机
74K近邻
75计算
习题
第8章回归树与基于规则的模型
81简单回归树
82回归模型树
83基于规则的模型
84装袋树
85随机森林
86助推法
87Cubist
88计算
习题
第9章溶解度模型总结
第10章案例研究:混凝土混合物的抗压强度
101模型构建策略
102模型性能
103优化抗压强度
104计算
第三部分分类模型
第11章分类模型的效果度量
111类预测
112评估预测类
113评估类概率
114计算
第12章判别分析和其他线性分类模型
121案例分析:预测是否成功申请经费
122逻辑回归
123线性判别分析
124偏最小二乘判别分析
125惩罚模型
126最近收缩质心
127计算
习题
第13章非线性分类模型
131非线性判别分析
132神经网络
133灵活判别分析
134支持向量机
135K近邻
136朴素贝叶斯
137计算
习题
第14章分类树与基于规则的模型
141基本的分类树
142基于规则的模型
143装袋决策树
144随机森林
145助推法
146C50
147比较两种分类预测变量编码方式
148计算
习题
第15章经费申请模型的总结
第16章对严重类失衡的补救方法
161案例分析: 预测房车保险所有权
162类失衡的影响
163模型调优
164选择截点
165调整先验概率
166不等案例权重
167抽样方法
168成本敏感度训练
169计算
习题
第17章案例研究:作业调度
171数据切分和模型策略
172结果
173计算
第18章衡量预测变量重要性
181数值结果变量
182分类结果变量
183其他方法
184计算
习题
第19章特征选择介绍
191使用无信息预测变量的结果
192减少预测变量个数的方法
193绕封法
194过滤法
195选择偏差
196案例分析:预测认知损伤
197计算
习题
第20章影响模型表现的因素
201第Ⅲ类错误
202结果变量的测量误差
203预测变量的测量误差
204连续变量离散化
205模型预测何时是可信的
206大样本的影响
207计算
习题
附录
附录A各种模型的总结
附录BR语言介绍
附录C值得关注的网站
参考文献