首页>参考读物>计算机科学与技术>综合

统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
作者 : [美] 布鲁斯·拉特纳(Bruce Ratner) 著
译者 : 郑磊 刘子未 石仁达 郑扬洋 译
出版日期 : 2021-09-03
ISBN : 978-7-111-68994-2
定价 : 149.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 546
开本 : 16
原书名 : Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data, Third Edition
原出版社: Taylor & Francis -CRC Press
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书是一本区分统计数据挖掘和机器学习数据挖掘的图书。它创造性地汇编了数据挖掘技术,解决了对经典和现代统计方法框架的扩展,用于预测建模和大数据分析。SM-DM为数据挖掘领域新晋的数据科学家所面临的共同问题提供了适当的解决方案。它的展示侧重于数据科学家(通常被称为统计学家、数据采矿者和数据分析师)的需求,提供实用但又强大的、简单而又有洞察力的量化技术,其中大部分使用了新机器学习影响改进的“旧”统计方法。

图书特色

图书前言

第3版前言
大数据的预测分析法在本书第2版出版之后的四年来一直保持着稳定的热度。我之所以决定写作新版,不是因为第2版的成功,而是因为我收到的大量正面反馈(读者来信)。而且,重要的是,我需要分享解决问题的方法。这些问题还没有被人们普遍接受的、可靠的或者已知的解决方案。与上一版一样,约翰·图基(John Tukey)原则是推进统计学的发展以及提高灵活性、实用性、创新性和普遍性所必需的,是各章介绍的新分析法和建模方法论的试金石。
第3版的主要目标如下:
1)扩充核心内容,包括解决问题的策略和方法,它们来自顶级预测分析学术会议和统计建模研讨会,以及我对Statistics on the Table [1]的一些想法。
2)重新编辑现有章节,提高写作质量;修改结尾部分,使内容更紧凑。
3)提供本书推荐的分析方法和建模的统计子程序。我使用Base SAS和STAT/SAS。这些子程序也可以从 http://www.geniq.net/articles.html#section9下载,代码很容易转换成用户喜欢的其他语言。
在第2版的基础上,本书新增了13章,它们穿插在原来的章节中间,以最大限度地保证内容的连贯性。新章节如下:
第2章介绍统计学与数据科学。如果人们不留意,可能就会按下删除键,删掉统计学和统计学家,代之以科学和数据科学家。我讨论了近期出现的术语—数据科学是否意味着统计学是一个发展更快的领域的子集合,或者数据科学是否掩盖了当前的统计学应用状况。
第8章介绍一个市场份额估算模型,其独特之处是不采用常规的基于抽样调研的市场份额情境分析,而是采用主成分分析(PCA)作为估算一个真实案例的市场份额的基础。我提供了构建这个案例研究的市场份额模型的SAS子程序。
第11章介绍无抽样调研数据预测钱包份额。这种预测钱包份额(SOW)的日常方法需要抽样调研数据。由于抽样调研工作耗时多、成本高,而且会出现不可靠数据,所以通常不采用。我提供了一种不需要数据就能预测SOW的两步法。第一步定义一个准SOW并通过模拟法对总金额进行估算。第二步采用分数逻辑斯谛回归法预测SOW_q,巧妙地将普通的逻辑斯谛回归用于比例或比率不变的因变量。我给出了详细的案例分析和SAS子程序,读者会发现这种方法很有价值。
第19章提出了一种基于模型的潜在类别分析(LCA)聚类方法。这种细分的创新型策略包含在时间序列数据的应用之中。时间序列LCA模型是一种完全不同的方法,可以作为处理截面数据集中的时间序列数据的模板。这种LCA法可以替代目前流行的基于数据的启发式k均值法。我提供了SAS子程序,数据挖掘人员可以用来执行与演示类似的市场细分工作。我还提供了一种将时间序列数据合并到其他截面数据集中的独特方法。
随后是第20章。文献通常会介绍各种可以用来进行市场细分的聚类方法,而有关如何解读细分结果的文献却寥寥无几。这一章提供了一种理解客户细分的便捷方法。我用一个常见的简单例子说明新方法,以充分展示这种方法的威力。本章提供了执行这种新方法所用的SAS子程序,数据挖掘人员可以将这个有价值的统计技术收入工具箱。
第21章是第20章的扩展。本章的目的是提供一种理解统计回归模型的简单方法,即普通最小二乘法和逻辑斯谛回归(LR)模型。我用一个LR模型演示了这种方法,展示了这种方法的威力。这种方法含有补充信息,用于弥补一直以来人们需要依靠回归系数才能理解统计回归模型的不足。我提供了SAS子程序,可以作为其他统计方法的一个有价值的补充。
第23章介绍大数据建模,接在使用CHAID作为归因方法的章节之后。缺失的数据会警告统计学家:“除非你知道如何接纳我,否则你毫无胜算。”在大数据出现之前,用传统的基于数据的方法(完整案例分析)处理任何数据集都会出现问题。这些方法能否有效用于大数据分析令人怀疑。我提出了一个两步法,即先用完整的回应数据建模,然后用PCA对不完整的回应数据建模。这两个模型可以单独使用,也可以与具体任务目标结合使用。我提供了这种方法的SAS子程序,它会成为统计建模者的一个有用工具。
第24章高度融合了艺术、科学、数字和诗歌,它们都受到了埃及金字塔、达·芬奇和爱因斯坦的启发。这一章会引发你的思考。
第27章是对前一章的补充。营销人员使用十分位分析评估他们的回应模型相对于随机获得的回应的可预测优势。我定义了两种新指标,即回应模型十分位分析精确度和随机模型十分位精确度,可以让营销人员对回应模型的优缺点进行更深入的评估。我提供了构建这两种新指标的SAS子程序,这会成为市场营销统计学家的可靠工具。
第28章将评估回应模型的方法扩展到适当使用对照组(文献中使用诸如提升或净提升度模型这类名称),以替代第27章中讨论的随机模型。有关净提升度模型的文献有很多,有些相互矛盾而且容易引起混淆。我提供了另一种方法—T-C净提升度模型,这是一个简单、直观、可靠、易于实现和理解的模型,缓解了有关这个主题的文献之间的不相容情况。我提供了T-C净提升度模型的SAS子程序,统计学家可以用于建模,而不必购买昂贵的软件。
对于统计学家来说,当踏上数据处理旅程时,第34章会给他们提供有价值的内容。我用散文式的轻快笔法介绍了在分析数据集时该进行哪些步骤。我提供了12个步骤的子程序,供有兴趣的读者练手。
第43章有三个目标:第一,作为一个入门指南,它易读、简明且详尽,介绍文本挖掘中碰到的问题,以及如何进行基础的文本挖掘;第二,用小文本展示了文本挖掘示例,内容很有趣;第三,提供了SAS子程序TXTDM,有兴趣的读者可以用来进行文本挖掘。
第44章包括本书引用的部分子程序以及第2版删去的章节里的一些通用子程序。最后,我提供了一些我喜欢的几乎对所有分析都有帮助的子程序。
勘误表见http://www.geniq.net/articles.html#section9。
参考资料




第2版前言
本书很特别。这是至今唯一一本将统计数据挖掘和机器学习数据挖掘加以区分的书。在彻底认识到统计学在处理大数据方面的不足之前,我一直是一名传统的统计学家。现在,作为一名统计改革派,我不再受过去的统计学方法的束缚,有很多自由空间可供发挥。我在本书的第一部分整理了实用的统计数据挖掘技术。作为一个替代统计回归的机器学习模型,GenIQ模型引领了本书所有创新且有用的机器学习数据挖掘技术。
本书收集整理了一系列文章,提供了解决大数据预测性建模和分析中碰到的最常见问题的详细背景和具体方法。各章的共同主题是介绍每种方法及其在特定问题上的应用。为了帮助读者打下更坚实的基础,我花了大量篇幅讨论预测性建模和分析的基本方法。尽管这种综述以前也有人做过,但我提供了一个更详细的循序渐进的方法论,以便让这个领域的新手和专家都能从中获益。数据分析师的主要工作是预测和解释目标变量的结果,比如RESPONSE(回应)或PROFIT(利润)。目标变量要么是一个二值变量(例如RESPONSE),要么是一个连续变量(例如PROFIT)。除了一个例外,本书内容有意限制于依赖模型:目标变量通常是指方程的“左边”,而用来预测或解释的变量则在方程的“右边”。这与相关模型不区分左边和右边是不同的。我用了一整章介绍一种相关模型,该模型与一个依赖模型是有联系的。因为相关模型包含的数据分析工作是最少的,所以我想说的是,本书的出发点是实用。
所以,本书各章的组织方式如下。第1章介绍对我的职业生涯产生重大影响的两个因素:约翰·图基和个人计算机。个人计算机改变了统计学世界的一切。个人计算机可以轻松完成精确的计算,并且减轻统计学带来的计算负担—人们只需要提出正确的问题。不幸的是,个人计算机和统计学的结合将只具备最低程度统计学知识的通才变成了准统计学家,给了他们一种虚假的自信。
1962年,约翰·图基在一篇影响广泛的文章“The Future of Data Analysis”[1]里,预言了统计学的僵化会被打破。但是直到1977年Exploratory Data Analysis[2]出版,图基才将僵化的统计学带入一个新领域,人们称之为EDA(源自他那本杰作的名字的首字母)。EDA的核心就是现在的数据挖掘或统计数据挖掘(正式名称),这是一项需要大量数字、计算和图形检测的工作。
为了顺利过渡到更难懂的方法,第2章介绍相关系数。尽管如此,我还是要提到很多人不熟悉的一些知识,并介绍两种有用的变量评估方法。基于第2章介绍的平滑散点图的概念,我在第3章引入基于CHAID(卡方自动交互探测)的平滑散点图。与平滑散点图相比,新方法能给出成对变量评估中未掩盖关系的更可靠描述。
在第4章,我展示了校直数据的简单性和可取性对于好的建模的重要性。第5章介绍了对有序数据进行对称处理的方法,并且将其加入第4章讨论的简单性和可取性范式之中。
主成分分析法是1901年发明的降维方法,我在第6章将其作为一种面向多变量评估的数据挖掘方法加以介绍。在第7章,我将再次提到相关系数。我将讨论基于相关系数区间的两个变量的分布效应,然后提供一个计算调整后的相关系数的程序。
第8章介绍逻辑斯谛回归法,这是一种常见的分类技术,而在本书里,它是研究一个案例的工具,本章给出一个为投资产品建立回应模型的案例。通过这种方式,我介绍了一系列新的数据挖掘技术。第9章将介绍目标变量的连续回归法。在第8章和第9章讨论统计回归优点的基础上,我再次回顾了有关变量选择方法缺点的文献,在第10章重新提到了一个用来指定回归模型的著名的解决方案。第11章重点用CHAID作为数据挖掘工具解释逻辑斯谛回归模型。第12章重新关注回归系数,并且给出了其缺点导致的常见错误解释。第13章拓展了这个系数的概念,引入了平均相关系数,提供了一个评估各种预测模型和预测变量重要性的量化标准。
第14章展示了如何通过变量提高一个模型的预测能力。这需要建立一个交互变量,即两个或多个变量的乘积。为了测试这个交互变量的显著性,我采用了CHAID的一种不常见的用法作为一个我认为很有说服力的案例。在第15章,我继续创造性地使用一些著名的技术,同时采用逻辑斯谛回归和CHAID解决市场细分分类建模问题。在第16章,CHAID再次被用于一种不太常见的场合—作为填补缺失数据的一种方法。为了引入一个有趣的真实问题,我在第17章介绍了几种方法,以方便需要识别最佳客户的方法的市场营销人员使用,通过讨论形似刻画方法对预测性客户刻画方法的优点加以展示和拓展。
第18章讨论了营销人员如何评估一个模型的准确度,其中涉及模型评估的三个概念:传统十分位分析、精确度和可分性。第19章指出了十分位分析在应用中的缺点,并提供了一种称作自助法的新方法,用于测量市场营销模型的效力。
第20章介绍用于流行的逻辑斯谛回归模型的一种自助式验证方法的主要特征。第21章提供了一对图形或视图,其使用价值超过了常用的探索性分析手段。在这一章,我演示了视图迄今尚未被开发的在描述用于预测的最终模型的功能方面的潜力。
第22章结束本书对统计数据挖掘的介绍,并提供一种替代的数据挖掘指标,即预测贡献系数,用于对系数进行标准化处理。
在介绍了这些内容之后,我们开始学习新知识。
第1章介绍了机器学习数据挖掘的概念,并且将其定义为不包含EDA/统计元素的个人计算机学习,而第23章用一个度量说法“是否要拟合模型”引入了机器学习的GenIQ方法及有用的数据挖掘技巧。
第24章介绍了用数据定义模型的机器学习范式,这个方法对于大数据特别有效。之后展示了一个遗传逻辑斯谛回归优于统计逻辑斯谛回归的有代表性的例子,与前者不同的是,后者是用数据去拟合一个预先定义的模型。第25章简要地介绍了一个典型的数据挖掘概念:数据重用。数据重用是在构建GenIQ模型时在原数据集中引入新变量。数据复用的好处是明显的:原数据集因增加了新的预测性的全GenIQ数据挖掘变量而得到增强。
第26~28章讨论解决日常统计问题的带有GenIQ模型数据挖掘特点的方法。在统计学里,离群值是指位于整体数据之外的某个观察值。离群值是有问题的:统计回归模型对于离群值非常敏感,形成的预测回归模型会得出有问题的预测值。处理离群值的常规方法是“确定并剔除”它们。第26章介绍一种调整而不是剔除离群值的替代方法。第27章介绍一种解决过拟合这个老问题的新方法,展示了GenIQ模型如何识别过拟合的结构因素(复杂性),然后指出如何从数据集中删除那些造成复杂性的数据。第28章再次讨论了第4章和第9章的例子(校直数据的重要性),直接给出了解决方法,因为理解这个方法的知识还没有介绍,所以没有给出更多解释。而此时背景知识已经具备,所以出于完整性考虑,这一章详细讨论了那些方法。
第29章介绍的GenIQ方法是一个与统计学完全无关的机器学习模型。而且在第30章,GenIQ作为一种高效方法用于为一个模型找到最佳可能变量的子集合。由于GenIQ不包含任何系数——系数是预测的关键,第31章给出了一种计算准回归系数的方法,因而提供了一个可靠的无须假设的回归系数的替代方法。这种方法提供了评估和使用无系数模型的参考框架,让数据分析师可以自由地探索新思想,比如GenIQ方法。
参考资料

上架指导

计算机\数据挖掘

封底文字

我之所以购买这本书,是因为这本书将统计理论、实践和常识有机地融合在一起。单纯介绍统计理论的书有很多,能将统计理论与实践相结合的书也有一些,但是能将三者融合在一起进行介绍的书却很少。我对你感激不尽,布鲁斯!你很擅长吸收和陈述分析的基本原则。
——Sandra Hendren, 哈佛大学讲师
这本书是我在漫长的职业生涯中见过的最好的书。书中给出了很多有洞察力的数据挖掘方法和新颖的预测分析技术。无论是对于经验丰富的数据科学家还是初学者,本书都是一个宝贵的资源。这本书是我新的数据科学圣经,它条理清晰,内容丰富,包含很多历史注记。
——Jack Theurer, G. Theurer Assoc. Inc.董事长
当我用SPSS进行自动线性建模(ALM)时,这本书非常有帮助。它为未来ALM特性和改进提供了许多有见解的观点。这本书是对统计学、数据挖掘和机器学习方面文献的有益补充。
——Patrick Yan, 博士, 亚利桑那州立大学教授

本书创造性地汇编了数据挖掘技术,将统计数据挖掘和机器学习数据挖掘进行了区分,对经典和现代统计方法框架进行了扩展,以用于预测建模和大数据分析。本书为数据挖掘领域新晋的数据科学家所面临的共同问题提供了适当的解决方案,并侧重于数据科学家的需求,提供了实用且强大、简单而富有洞察力的量化技术,其中大部分使用了受新机器学习影响改进的“旧”统计方法。
在这本畅销书的新版里,作者大幅修改并重新组织章节内容,新增了一些富有创意且用途广泛的机器学习数据挖掘技术方面的内容。简单而有针对性的量化处理方法使得本书在数据挖掘图书领域别具一格。

本书特色
核心内容包括各种问题的解决策略和方法,这些成果来自顶级预测分析学术会议和统计建模研讨会。
新增了13章,内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力,以及一个无须精通自然语言处理就能使用的文本挖掘工具。
提供了能够轻松转换成其他语言的SAS子程序代码。

图书目录

第3版前言
第2版前言
致谢
关于作者
第1章 引论 1
1.1 个人计算机与统计学 1
1.2 统计学和数据分析 2
1.3 EDA简介 3
1.4 EDA范式 4
1.5 EDA的弱点 5
1.6 小数据和大数据 5
1.6.1 数据规模特征 6
1.6.2 数据规模:个人观点 7
1.7 数据挖掘范式 7
1.8 统计学和机器学习 8
1.9 统计数据挖掘 9
参考资料 9
第2章 数据处理相关学科:统计学和数据科学 11
2.1 引言 11
2.2 背景 11
2.3 统计学与数据科学的比较 12
2.4 讨论:统计学与数据科学的不同之处 18
2.5 本章小结 19
2.6 结语 19
参考资料 19
第3章 变量评估的两种基本数据挖掘方法 21
3.1 引言 21
3.2 相关系数 21
3.3 散点图 22
3.4 数据挖掘 24
3.4.1 示例3.1 24
3.4.2 示例3.2 24
3.5 平滑散点图 25
3.6 一般关联性检验 27
3.7 本章小结 28
参考资料 29
第4章 用于评估成对变量的基于CHAID的数据挖掘方法 30
4.1 引言 30
4.2 散点图 30
4.3 平滑散点图 31
4.4 CHAID入门 32
4.5 用更平滑的散点图进行基于CHAID的数据挖掘 33
4.6 本章小结 36
参考资料 37
第5章 校直数据的简单性和可取性对建模十分重要 38
5.1 引言 38
5.2 数据的直度和对称度 38
5.3 数据挖掘是高级概念 39
5.4 相关系数 39
5.5 (xx3,yy3)散点图 40
5.6 挖掘(xx3,yy3)关系 41
5.7 基于遗传算法的数据挖掘如何处理数据 43
5.8 校直多个变量 43
5.9 本章小结 44
参考资料 44
第6章 排序数据对称化:提高数据预测能力的统计数据挖掘方法 45
6.1 引言 45
6.2 量度范围 45
6.3 茎叶图 47
6.4 箱线图 47
6.5 排序数据对称处理方法的图示 47
6.5.1 示例1 48
6.5.2 示例2 50
6.6 本章小结 56
参考资料 56
第7章 主成分分析:多变量评估的统计数据挖掘方法 57
7.1 引言 57
7.2 EDA重新表述范式 57
7.3 关键点 58
7.4 PCA基础 58
7.5 示例详解 58
7.6 PCA的代数特征 59
7.7 一个不常见示例 60
7.7.1 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析 61
7.7.2 R_CD元素(X1,X2,X3,X4,X5,X6)主成分分析结果 61
7.8 用PCA构造准交互变量 62
7.9 本章小结 66
第8章 市场份额估算:一个特殊的数据挖掘案例 67
8.1 引言 67
8.2 背景 67
8.3 一个特殊的数据挖掘案例 68
8.4 构建RAL的YUM市场份额模型 69
8.4.1 市场份额模型的十分位分析 76
8.4.2 YUM_3mos市场份额模型的结论 76
8.5 本章小结 77
附录8.A  生成 PROMO_Code哑变量 77
附录8.B PROMO_Code哑变量的PCA 77
附录8.C PROMO_Code哑变量上的逻辑斯谛回归YUM_3mos 78
附录8.D 生成YUM_3mos_wo_PROMO_CodeEff 78
附录 8.E 将变量标准化为位于[0, 1]内 78
参考资料 79
第9章 相关系数在[-1,+1]内取值,是这样吗 80
9.1 引言 80
9.2 相关系数的基础知识 80
9.3 计算相关系数 81
9.4 重新配对 82
9.5 计算经调整的相关系数 84
9.6 重新配对的意义 84
9.7 本章小结 84
第10章 逻辑斯谛回归:回应建模方法 85
10.1 引言 85
10.2 逻辑斯谛回归模型 86
10.2.1 示例 86
10.2.2 为LRM打分 87
10.3 案例分析 88
10.4 logit值和logit散点图 89
10.5 校直数据的重要性 90
10.6 校直数据的重述 91
10.6.1 幂阶梯法 91
10.6.2 突起规则 91
10.6.3 测量校直数据 92
10.7 校直示例数据 92
10.7.1 FD2_OPEN的重述 93
10.7.2 INVESTMENT的重述 94
10.8 在突起规则不适用的情况下选用的技术 95
10.8.1 拟合logit值散点图 95
10.8.2 平滑预测值与实际值散点图 96
10.9 MOS_OPEN的重述 96
10.10 评估变量的重要性 99
10.10.1 计算G统计量 99
10.10.2 单变量的重要性 100
10.10.3 变量子集合的重要性 100
10.10.4 不同变量子集合的重要性比较 100
10.11 案例的重要变量 101
10.12 变量的相对重要性 102
10.13 案例变量的最佳子集合 103
10.14 模型预测准确性的可视化指标 104
10.14.1 得分组的平滑残差散点图 104
10.14.2 基于十分位组的平滑预测与实际值散点图 106
10.14.3 基于得分组的平滑预测与实际值散点图 108
10.15 评估数据挖掘工作 110
10.15.1 基于得分组的平滑残差分布图:EDA模型与非EDA模型对比 110
10.15.2 基于十分位组的平滑预测与实际值散点图:EDA模型与非EDA模型对比 112
10.15.3 基于得分组的平滑预测与实际值散点图:EDA模型与非EDA模型对比 113
10.15.4 数据挖掘工作小结 113
10.16 平滑一个类别变量 114
10.16.1 用CHAID平滑FD_TYPE 115
10.16.2 CH_FTY_1和CH_FTY_2的重要性 116
10.17 本案例的其他数据挖掘工作 117
10.17.1 基于得分组的平滑残差散点图:4变量EDA模型与3变量EDA模型对比 117
10.17.2 基于十分位组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比 119
10.17.3 基于得分组的平滑预测与实际值散点图:4变量EDA模型与3变量EDA模型对比 120
10.17.4 其他数据挖掘工作的总结 121
10.18 本章小结 121
第11章 无抽样调研数据预测钱包份额 122
11.1 引言 122
11.2 背景 122
11.3 SOW_q计算过程 123
11.3.1 有趣的问题 124
11.3.2 金额和总金额 124
11.4 为AMPECS构建SOW_q模型 126
11.5 SOW_q模型的定义 127
11.6 本章小结 129
附录11.A 六步法 129
附录11.B 七步法 131
参考资料 134
第12章 普通回归:利润建模的强大工具 135
12.1 引言 135
12.2 普通回归模型 135
12.2.1 说明 135
12.2.2 为OLS利润模型评分 136
12.3 迷你案例 137
12.3.1 校直迷你案例的数据 137
12.3.2 平滑预测值散点图与实际值散点图 141
12.3.3 评估变量的重要性 142
12.4 迷你案例的重要变量 144
12.4.1 变量的相对重要性 144
12.4.2 选择最佳子集合 144
12.5 案例变量的最佳子集合 145
12.5.1 用gINCOME和AGE构建PROFIT模型 146
12.5.2 最佳PROFIT模型 148
12.6 抑制变量AGE 148
12.7 本章小结 149
参考资料 149
第13章 回归变量选择方法:可忽略的问题和重要解决方案 150
13.1 引言 150
13.2 背景 150
13.3 常用的变量选择方法 152
13.4 分步法的缺陷 153
13.5 改进的变量选择方法 154
13.6 本章小结 155
参考资料 155
第14章 用CHAID解读逻辑斯谛回归模型 157
14.1 引言 157
14.2 逻辑斯谛回归模型 157
14.3 数据库营销回应模型案例研究 158
14.4 CHAID 159
14.5 多变量CHAID树 161
14.6 CHAID市场细分 165
14.7 CHAID树状图 165
14.8 本章小结 168
第15章 回归系数的重要性 169
15.1 引言 169
15.2 普通回归模型 169
15.3 四个问题 169
15.4 重要预测变量 170
15.5 p值与大数据 171
15.6 回到问题1 171
15.7 预测变量对预测结果的影响 171
15.8 提示 172
15.9 回到问题2 173
15.10 按照对预测的影响对预测变量排序 173
15.11 回到问题3 174
15.12 回到问题4 175
15.13 本章小结 175
参考资料 176
第16章 相关系数均值:评估预测模型和预测变量重要性的统计数据挖掘指标 177
16.1 引言 177
16.2 背景 177
16.3 可靠度和效度的区别 178
16.4 可靠度和效度的关系 178
16.5 平均相关系数 179
16.5.1 图示LTV5模型的平均相关系数 179
16.5.2 LTV5模型的平均相关系数 183
16.5.3 LTV5模型比较 183
16.6 本章小结 184
参考资料 184
第17章 交互变量指定CHAID模型 185
17.1 引言 185
17.2 交互变量 185
17.3 交互变量建模策略 185
17.4 基于特殊点的策略 186
17.5 交互变量的回应模型示例 186
17.6 用CHAID找出关系 187
17.7 指定模型的CHAID 188
17.8 探索 191
17.9 数据库含义 191
17.10 本章小结 192
参考资料 193
第18章 市场细分:逻辑斯谛回归建模 194
18.1 引言 194
18.2 二值逻辑斯谛回归 194
18.3 多分类逻辑斯谛回归模型 195
18.4 使用PLR建模 196
18.5 市场细分的分类模型 196
18.5.1 移动电话用户调研 196
18.5.2 CHAID分析 197
18.5.3 CHAID树状图 199
18.5.4 市场细分分类模型 201
18.6 本章小结 202
第19章 市场细分:时间序列数据LCA 203
19.1 引言 203
19.2 背景 203
19.2.1 k均值聚类分析 203
19.2.2 主成分分析 204
19.2.3 因素分析 204
19.2.4 LCA与FA图示 205
19.3 LCA 206
19.4 LCA与k均值聚类分析 208
19.5 用LCA对时间序列数据进行市场细分 210
19.5.1 目标 210
19.5.2 最佳LCA模型 212
19.6 本章小结 216
附录19.A 建立UNITS的趋势3 217
附录19.B POS-ZER-NEG建立趋势4 219
参考资料 220
第20章 市场细分:理解细分群体的便捷途径 221
20.1 引言 221
20.2 背景 221
20.3 示例 221
20.4 解读各个细分市场 222
20.5 本章小结 223
附录 20.A SAMPLE数据集 223
附录 20.B 分类变量的均值 224
附录 20.C 指数化数据 224
参考资料 225
第21章 统计回归模型:理解模型的简单方法 226
21.1 引言 226
21.2 背景 226
21.3 用于逻辑斯谛回归模型的EZ法 227
21.4 逻辑斯谛回归的EZ法示例的讨论 228
21.5 本章小结 231
附录21.A 基于M65分布的X10~X14均值 231
附录21.B 建立10个数据集(每个十分位区间一个) 232
附录21.C 十分位的指数化信息 233
第22章 CHAID:填充缺失值的方法 238
22.1 引言 238
22.2 数据缺失问题 238
22.3 与数据缺失相关的假设 240
22.4 CHAID填充法 241
22.5 示例 242
22.5.1 连续变量的CHAID均值填充 242
22.5.2 面向连续变量的大量缺失值CHAID均值填充 243
22.5.3 LIFE_DOL的回归树填充 244
22.6 CHAID面向单个类别变量的最大似然类别填充 246
22.6.1 填充性别变量的CHAID最大似然类别法 246
22.6.2 填充性别变量的分类树法 248
22.7 本章小结 250
参考资料 251
第23章 大数据建模 252
23.1 引言 252
23.2 背景 252
23.3 CCA-PCA分析法:具体案例 253
23.4 用完整数据集构建回应模型 255
23.5 用不完整数据集构建回应模型 256
23.6 基于PCA-BICA数据构建回应模型 258
23.6.1 基于主成分分析并经二值转换的不完整数据回应模型分析结果 259
23.6.2 综合CCA与PCA-BICA的回应模型结果 259
23.7 本章小结 260
附录23.A NMISS 261
附录23.B 测试完整样本分析法的样本大小 261
附录23.C CCA-CIA数据集 261
附录23.D 1和0 262
参考资料 262
第24章 艺术、科学、数字和诗歌 263
24.1 引言 263
24.2 零和一 264
24.3 思考的力量 264
24.4 统计黄金法则:衡量统计实践的艺术和科学 266
24.5 本章小结 268
参考资料 268
第25章 识别最佳客户:描述性、预测性和相似性描述 269
25.1 引言 269
25.2 相关概念 269
25.3 对有缺陷的客户进行描述 269
25.4 清晰有效的客户定位 270
25.5 预测性分析 272
25.6 连续变量树状图 275
25.7 相似人群扩展分析 277
25.8 相似树状图的特点 279
25.9 本章小结 279
第26章 营销模型评估 281
26.1 引言 281
26.2 回应模型的准确度 281
26.3 利润模型的准确度 282
26.4 回应模型的十分位分析与累积提升度 283
26.5 利润模型的十分位分析与累积提升度 284
26.6 回应模型的精确度 286
26.7 利润模型的精确度 287
26.8 回应模型和利润模型的分离性 288
26.9 累积提升度、HL/SWMAD指数以及离散系数的应用指南 288
26.10 本章小结 289
第27章 十分位分析:视角与效果 290
27.1 引言 290
27.2 背景 290
27.3 性能评估:回应模型与随机选择 293
27.4 性能评估:十分位分析 293
27.5 本章小结 298
附录 27.A 计算准确度收益:模型与随机 298
附录27.B 计算精确度收益:模型与随机 300
附录27.C 回应模型PROB_est值的十分位分析 301
附录27.D 2×2 十分位表 302
参考资料 305
第28章 T-C净提升度模型:评估试验组与对照组的营销效果 306
28.1 引言 306
28.2 背景 306
28.3 试验营销与对照营销回应模型的建模 308
28.3.1 试验组回应模型建模 308
28.3.2 对照组回应模型建模 310
28.4 T-C净提升度模型 311
28.5 本章小结 315
附录28.A 用Xs做TEST Logistic 315
附录28.B 用Xs做CONTROL Logistic 318
附录28.C 合并计算 320
附录28.D T-C净提升度十分位分析 321
参考资料 325
第29章 自助法在营销中的应用:一种新的模型验证方法 327
29.1 引言 327
29.2 传统模型验证 327
29.3 示例 327
29.4 三个问题 329
29.5 自助法 329
29.6 如何使用自助法 330
29.7 自助法十分位分析验证 332
29.8 其他问题 333
29.9 用自助法评估模型性能 334
29.10 用自助法评估模型效力 337
29.11 本章小结 338
参考资料 339
第30章 用自助法验证逻辑斯谛回归模型 340
30.1 引言 340
30.2 逻辑斯谛回归模型 340
30.3 如何用自助法进行验证 340
30.4 本章小结 341
参考资料 341
第31章 营销模型可视化:用数据深度挖掘模型 342
31.1 引言 342
31.2 图形简史  342
31.3 星形图基础 343
31.4 单变量星形图 345
31.5 多变量星形图 346
31.6 剖面曲线法 346
31.6.1 剖面曲线基础 347
31.6.2 剖面分析 347
31.7 示例 348
31.7.1 回应模型的剖面曲线 349
31.7.2 十分位组剖面曲线 351
31.8 本章小结 353
附录31.A 十分位各人口变量的星形图 353
附录31.B 人口变量各十分位的星形图 355
附录31.C 剖面曲线:各十分位 358
参考资料 360
第32章 预测贡献系数:预测重要性的度量 361
32.1 引言 361
32.2 背景 361
32.3 判定规则示例 362
32.4 预测贡献系数 364
32.5 预测贡献系数的计算 365
32.6 预测贡献系数的另一示例 366
32.7 本章小结 369
参考资料 369
第33章 建模是艺术、科学与诗的结合 370
33.1 引言 370
33.2 灵感来源于莎士比亚的诗 370
33.3 解读 371
33.4 本章小结 373
参考资料 373
第34章 献给数据狂的数据分析12步法 375
34.1 引言 375
34.2 背景 375
34.3 步骤 376
34.4 标记 376
34.5 本章小结 377
附录34.A 数据集IN 377
附录34.B Samsize+ 378
附录34.C 可粘贴副本 378
附录34.D 缺失数据 378
参考资料 379
第35章 遗传回归模型与统计回归模型 380
35.1 引言 380
35.2 背景 380
35.3 目标 380
35.4 GenIQ模型:遗传逻辑斯谛回归 381
35.5 遗传编程法的发展 383
35.6 GenIQ模型的目标及重要特性 384
35.7 GenIQ模型工作原理 385
35.8 本章小结 387
参考资料 388
第36章 数据重用:GenIQ模型的强大数据挖掘技术 389
36.1 引言 389
36.2 数据重用 389
36.3 示例 389
36.3.1 GenIQ利润模型 390
36.3.2 数据重用变量简介 391
36.3.3 数据重用变量GenIQvar_1和GenIQvar_2 392
36.4 调整数据重用定义:GenIQ强化版回归模型 393
36.5 本章小结 395
第37章 数据挖掘技术——离群值的调整 396
37.1 引言 396
37.2 背景 396
37.3 离群值的调整 397
37.3.1 调整离群值的示例 397
37.3.2 GenIQ模型在调整离群值中的作用 399
37.4 本章小结 399
参考资料 399
第38章 过拟合的全新解决方案 400
38.1 引言 400
38.2 背景 400
38.3 利用GenIQ模型解决过拟合问题 402
38.3.1 RANDOM_SPLIT的GenIQ模型 403
38.3.2 RANDOM_SPLIT的GenIQ模型十分位分析 404
38.3.3 类N层分析 405
38.4 本章小结 406
第39章 回顾:为何校直数据如此重要 407
39.1 引言 407
39.2 重申校直数据的重要性 407
39.3 回顾:重述收入变量 408
39.4 回顾:挖掘(xx3,yy3)关系 409
39.5 本章小结 410
第40章 GenIQ 模型的定义与应用 411
40.1 引言 411
40.2 何为优化 411
40.3 何为遗传建模 412
40.4 遗传建模示例 412
40.4.1 复制 414
40.4.2 交叉 414
40.4.3 突变 415
40.5 控制遗传模型运行的参数 416
40.6 遗传建模的优势与限制 416
40.7 营销建模的目标 416
40.8 GenIQ回应模型 417
40.9 GenIQ利润模型 417
40.10 案例研究:回应模型 418
40.11 案例研究:利润模型 420
40.12 本章小结 423
参考资料 423
第41章 如何为营销模型选择最佳变量 424
41.1 引言 424
41.2 背景 424
41.3 变量选择方法的缺陷 425
41.4 营销模型的目标 427
41.5 用GenIQ进行变量选择 427
41.5.1 GenIQ建模 429
41.5.2 GenIQ模型结构的辨别 430
41.5.3 GenIQ模型变量选择 433
41.6 逻辑斯谛回归模型的非线性替代方法 434
41.7 本章小结 436
参考资料 437
第42章 解读无系数模型 438
42.1 引言 438
42.2 线性回归系数 438
42.2.1 简单普通回归模型示例 439
42.2.2 简单逻辑斯谛回归模型示例 439
42.3 简单回归模型的准回归系数 440
42.3.1 简单回归模型的准回归系数示例 440
42.3.2 简单逻辑斯谛回归模型的准回归系数示例 440
42.3.3 非线性预测中的准回归系数示例 441
42.4 偏准回归系数 443
42.4.1 普适型偏回归系数的计算方法 443
42.4.2 多元逻辑斯谛回归模型示例 444
42.5 无系数模型的准回归系数 449
42.6 本章小结 454
第43章 文本挖掘:入门、示例及TXTDM软件 455
43.1 引言 455
43.2 背景 455
43.3 文本挖掘入门 457
43.4 与文本相关的统计量 458
43.5 文本转换中的二进制数据集 459
43.6 TXTDM文本挖掘程序示例 459
43.7 对文本挖掘模型GenIQ_FAVORED的分析 467
43.7.1 用文字描述更喜欢GenIQ模型的受访者 468
43.7.2 用文字描述更喜欢其他两种模型的受访者 468
43.8 对TXTDM程序加权 469
43.9 文档聚类 469
43.10 本章小结 475
附录43.A 加载Corpus TEXT数据集 476
附录43.B 创建二进制词的中间步骤 476
附录43.C 创建最终的二进制词 477
附录43.D 计算统计量TF、DF、NUM_DOCS和N 478
附录43.E 将GenIQ_FAVORED加入WORDS数据集 479
附录43.F GenIQ_FAVORED的逻辑斯谛分析模型 480
附录43.G 计算字词之间的关系数均值 481
附录43.H 创建TF-IDF 482
附录43.I 用WORDS和TF-IDF的Concat计算WORD_TF-IDF权重 484
附录43.J WORD_RESP与WORD_TF-IDF RESP 485
附录43.K 词干提取 486
附录43.L WORD乘以TF-IDF 486
附录43.M 用剖面的字词对数据集赋权 487
附录43.N 两类法VARCLUS 487
附录43.O 双集群法VARCLUS 488
附录43.P 集群1字词的指向 489
附录43.Q 比较GenIQ模型和随机模型的表现 490
附录43.R 比较自由集群模型和随机模型的表现 491
参考资料 491
第44章 一些我比较喜欢的统计子程序 492
44.1 子程序列表 492
44.2 第5章的平滑散点图(平均值和中位数)—X1和X2 492
44.3 第10章的平滑散点图—logit值和概率 496
44.4 第16章的平均相关系数—变量Var1、Var2、Var3 499
44.5 第29章的自助法十分位分析—数据来自表23.4(表44.2) 500
44.6 第42章的H幅度共有区域 508
44.7 选项排序、垂直输出的相关性分析 510
44.8 回应模型十分位分析 511
44.9 利润模型十分位分析 515
44.10 平滑时间序列分析数据(三变量的动态中位数) 518
44.11 大量高偏度变量的分析 522
译后记 524

教学资源推荐
作者: 孙涌 主编 陈建明 王辉 参编
作者: [美]克利福德·斯坦(Clifford Stein)[美]罗伯特·L.戴斯得尔(Robert L. Drysdale)[美]肯尼斯·博加特(Kenneth Bogart)著
作者: (美)Lei Tang  Huan Liu 著
作者: 吴国伟 徐子川 姚琳 编著 郭禾 主审
参考读物推荐
作者: (美)William A.Sabin
作者: (美)Sharon Steuer
作者: Marcus Goncalves