首页>参考读物>计算机科学与技术>数据库

数据挖掘实践
作者 : Olivia Parr Rud
译者 : 朱扬勇 左子叶 张忠平
丛书名 : 数据库技术丛书
出版日期 : 2003-09-01
ISBN : 7-111-12221-6
定价 : 39.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 314
开本 : 16开
原书名 : Data Mining Cookbook
原出版社: John Wiley & Sons
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书详细介绍了一种新的数据挖掘技术——数据建模,并着重阐述整个模型开发过程的细节。本书包括三个部分。第一部分讲述基础知识,内容涉及确定目标和从商业预测中定义目标的重要性,并给出了收集数据和创建建模数据集的例子。第二部分通过一个实例详细阐述了模型开发的整个过程。第三部分通过应用于保险业、银行、电信行业的实例详细说明了不同目标的数据建模过程的几个关键步骤。  本书将数据挖掘的技艺用饮食烹调的思想加以诠释,易于理解,便于接受。书中给出的众多实例充分展现了作者多年的行业经验,对当前的市场营销和客户关系管理建模具有极佳的借鉴作用。本书适合具有一定的统计和分析建模基础的读者阅读,可作为分析师、数据挖掘人员、营销经理的工作手册,也可作为计算机相关专业的本科生、研究生教材或补充读物。

图书特色

Olivia Parr Rud 是Data Square,LLC的执行副总裁。Olivia在金融服务行业已经工作了二十多年,其中10年专门从事信用卡、保险、电信、零售、度假业、名录服务行业的数据挖掘、建模和划分工作。利用自己分析能力与创造才华,她提供客户获取、模型维护、风险、总盈利等方面的分析和解决方案。 在加入Data Square之前,Olivia在Fleet Credit Card Bank、Advanta Credit Card Bank、National Liberty Insurance、Providian Bancorp 担任过高级管理职务。在此期间,Olivia协助增强每个商业领域的分析能力,包括购并、宣传活动管理、定价和客户服务。 除了在数据挖掘上的工作外,Olivia还召开讨论会,使工作团体有效地进行沟通。讨论会的主要议题是讨论在快速发展的行业中的个人挑战和机遇,提供增进交流的途径,创造一个“双赢”的环境。 Olivia在Gettysburg 大学获数学学士学位,在亚利桑那州立大学获决策学硕士学位,主攻方向为统计学。她频繁参加各种研讨会,并就数据挖掘、数据库设计、预测建模、Web建模和营销战略等问题发言。 Data Square 是第一个数据库营销咨询公司,通过使用前沿的分析服务、数据库设计和管理、电子商务一体化技术提供商务解决方案。作为整个方案的一部分,Data Square为B2B、B2C和网上营销提供Web可用的数据仓库、数据集市、数据挖掘和战略咨询。 Data Square拥有由高级分析师、数据专家和营销专家组成的强大团队,他们可以与客户一起开发集成的CRM 和eCRM战略,其中包括采购、交叉销售/提升销售、持有、风险和生命周期值。通过特征分析、划分、建模、跟踪和测试,Data Square的团队可以提供整套的商业解决方案,使利润最大化。要知道关于该公司的Marketing Solutions: Driven by Data, Powered by Strategy的更详细的信息,请访问网站http://www.datasquare.com ,或者拨打电话(203)964-9733。

图书前言

什么是数据挖掘
数据挖掘(data mining)这个术语涵盖了应用于各个行业的多种技术。由于市场份额和利润竞争的日趋激烈,数据挖掘成为公司在客户生命周期的各个阶段维持竞争力的必要工具。
过去,数据挖掘的形式之一也称为数据捕捞(data dredging)。这种方法曾被认为没有达到合格的研究标准。也就是说,研究人员实际上可能没有作任何预定义的假设就开始研究所有的数据。然而,由于这种形式的数据挖掘确实可以发现有价值的信息,所以它开始被广为接受。在美国的公司里,如果有一种方法可以发现如何提高利润,那么人们会迅速地接受、信赖它。
20世纪80年代末至90年代初,另一种形式的数据挖掘开始在营销领域流行起来。几个技术领先的信用卡银行发现,有一种新的称为数据建模(data modeling)的数据挖掘技术可以提高获得客户的能力,改进风险管理。大量的活动和空前的增长为数据建模的繁荣发展提供了肥沃的土壤。数据建模的成功和它所带来的利润为它在其他行业的应用铺平了道路。目前,使用数据建模技术进行营销的行业包括保险业、零售业、投资银行、公共事业部门、电信业、能源业、度假业、游戏业和药品行业等等。
本书的重点
许多统计理论的书都谈到了数据建模技术。但本书并不是那样的一本书!本书讨论的重点是在营销、风险和客户关系管理(CRM)中使用这些技术所需的实践知识。
大部分公司都被数据挖掘软件工具的种类和功能弄得眼花缭乱。软件厂商都声称他们的软件是“易于使用”和“无需任何分析技能”的。但是,我们已在本领域工作多年,知道这些广告是不足为信的。任何建模项目的成功不仅仅取决于对于方法学的良好理解,还取决于对数据、市场和整体商业目标的理解。事实上,对于整个过程而言,模型处理过程只是其中的一小部分。
本书将着重阐述整个模型开发的过程。讨论的内容包括对商业或市场的预测,以及处理过程中所需的复杂的SAS代码。这是为了强调实际模型处理过程之前与之后的步骤的重要性。
本书的读者
随着数据挖掘应用的飞速发展,对资深分析师和数据挖掘师的需求也增加了。但是,由于此类人才短缺,公司便雇用有才华的统计学家或初级分析师,他们懂技术,但是缺乏必要的商业敏感性。公司也可能会购买复杂的数据挖掘软件工具,这些工具所提供的解决方案对分析技术知识,或者与目标相关的业务知识都知之甚少。不管是哪种情况,都有可能缺乏某些领域的知识,如定义目标的结构,获取和准备数据,确认和应用模型以及测量结果等。任何一个领域的错误都可能是灾难性的,会造成巨大的浪费。
本书可作为不同级别的分析师、数据挖掘人员和营销经理的工作手册。本书提供了数据建模的逐步指导,尤其强调了必要的商业知识,以得到有益的结果。对于那些数据挖掘的初学者,本书可作为整个过程的综合指导。对于经验丰富的分析师而言,本书可以作为参考手册。最后,对于管理人员而言,阅读本书可以对成功运用数据模型所需的技术与过程有基本的了解。
本书的结构
本书分为三个部分。第一部分讲述基础知识。第1章讨论了确定目标和从商业角度定义目标的重要性。第2章讨论并提供了大量的例子,其中包括收集数据和创建建模数据集。第二部分通过一个案例研究,详细阐述了模型开发过程的每个步骤。第3章~第7章讨论了数据清洗、变量归约和转换、模型处理、验证、实施的步骤。第三部分提供一系列的案例研究,这些案例分别应用于保险业、银行、电信等行业,详细说明了不同目标的数据建模过程的几个关键步骤,包括特征、响应、风险和生命周期值。
随着本书对模型开发步骤的深入探讨,作者加进了几位业内专家的合理建议,他们都是数据挖掘领域的先锋。这些建议对某个主题提出了不同看法,如多重共线性,建立生命周期值模型的其他方法等。
所需工具
要使用本书提供解决方案,读者要对统计学有基本的了解。如果你的目标是要得到管理层数据建模的使用建议,则需要进行准确的商业判断。本书所有的代码示例都是用SAS写的,为了在SAS上实现这些代码,用户需要Base SAS和SAS/STAT。电子数据表都是用微软的Excel做成的。但是,基本的逻辑和指令对所有的软件包和建模工具都是有效的。
配套光盘
本书从第3章~第13章都包含了开发、验证和实施数据模型的SAS代码。对这些代码稍做修改,再加上一些常识,就能够从数据准备阶段到模型的开发与验证阶段建立一个模型。但是,这样需要大量的时间,还有可能出现编码错误。为了简化这项工作并使代码更容易地用于不同的数据模型,原出版社出版了配套光盘,但需要读者另行购买。
光盘里包括了开发不同模型所需的全部代码,模型包括:响应、验证、流失、风险、生命周期值或净现值。开发目标函数的具体代码包括信用卡、保险、电信、名录服务的例子。代码中有清楚的注释,解释了每一个步骤的目的与方法,所需要的软件是Base SAS和SAS/STAT。
用于创建收益表和增幅图的电子数据表也包含在光盘中。通过SAS创建的初步分析结果可以得到这些表并加以使用。
既然模型处理前后的步骤可以结合任何数据模型软件包来使用,代码自然也可以作为独立的建模模板。模型处理步骤重点在于逻辑递归上的数据准备。光盘上还包括用于变量验证和处理的SAS宏。
本书没有涵盖的内容
一本数据挖掘的书如果没有提到隐私权,那么就不能算是完整。我相信这是数据挖掘工作者的一项重要的工作。关于这个话题,可以再写一本书。所以,本书中没有谈到这一点。但是,我希望所有使用个人数据进行营销的公司都能制订一项隐私权的法规。要获得更进一步的信息和指导,请与Direct Marketing Association 联系,电话(212)790-1500,或者访问他们的网站 http://www.the-dma.org。
小结
有效的数据挖掘是科学与艺术的复杂混合体。数据挖掘工具的数量每年都在增长。研究人员不断开发新方法,软件厂商实现现有的方法,才华横溢的分析师则利用标准技术来推进过程。数据挖掘(说得具体一点,数据建模)已经成为公司维持利润的战略必备工具。希望本书可以成为你实现数据挖掘目标时方便的参考和恰当的向导。

作者简介

Olivia Parr Rud:Olivia Parr Rud: 数据库市场咨询公司Data Square的执行副总裁。她在数据挖掘、预测模型和划分方面有22年的经验,服务过的客户包括信用卡、保险、高科技、电信和名录服务公司等,其专长是为直邮、电话营销、广播销售和Internet等营销中如何获取并保留客户、减小风险、提高全局利润等方面提供分析和解决方案。

译者简介

朱扬勇 左子叶 张忠平:暂无简介

译者序

当机械工业出版社华章分社邀请我翻译本书时,我很快被书名所吸引,浏览全书后,感觉本书以饮食烹调思想来诠释数据挖掘的技艺,颇有新意,于是欣然接受了翻译本书的工作。
想起读研究生期间听欧美学者作学术报告,他们常常把一个问题的攻关说成是一个Game,后来又听到了“游戏人生”这样的话,直到“快乐足球”传遍大地的时候,我理解了我们做事情时应当有一种快乐的心态。我喜欢吃也喜欢做(当然不是一日三餐),烹调实在是一种快乐:精心准备原料构思着成品的色香味、手法纯熟地入锅翻炒、画龙点睛般地出锅装盘,观其色、闻其香、品其味,是满足的、享受的、快乐的,更是解决问题的。建立数据挖掘应用原来也是可以这般快乐的、享受的,作者将本书命名为Cookbook(中文很难找到合适的对译,只能选用比较普通的书名)想必正是此意,想让读者通过阅读本书,建立一个符合用户口味的数据挖掘应用。但愿依照本书的方法,所有用户都能烹调出可口的数据挖掘大菜。
“啤酒和尿布”的故事已经在国内业界广为流传,大家都已经知道数据挖掘大菜是那样的美味可口,但价格自然不斐。于是,有钱的、胆大的开始建立数据挖掘应用。几番折腾、几多辛酸,终究没有烹调出适合国人口味的数据挖掘大菜。数据挖掘讨论组(www.dmgroup. org.cn)对此进行了调查研究,我们得出的结论是:1)烹调的原料不正宗、不地道。数据积累不充足、不全面,就是说我们所掌握的数据并没有良好地记录过去行为的历史,所以挖掘的结果并不能说明问题。2)烹调的方法不正确。数据挖掘技术分五大类几十种算法,大多数数据挖掘的实施者并不清楚用什么算法挖掘什么业务,不能建立良好的业务模型,当然也不能对挖掘结果进行良好地解释。3)厨师的经验不足。和计算机的其他应用一样,有经验的工程师可以弥补方法的不足,但好的方法却不能弥补工程师的经验的不足。
客户分析是当前数据挖掘最直接、最简单、最有效的应用。就一个企业来讲,市场部要从潜在的客户群体中发展新客户、销售部向客户销售产品、售后服务部则要保持客户,而数据挖掘要做的工作是:如何确定在潜在客户群体中建立响应模型?如何通过交叉销售策略销售更多的产品?如何发现并防止客户的流失?如何将最好的服务提供给最有价值的客户?……本书作者以客户分析为例向我们展示了数据挖掘技术在客户生命周期的不同阶段所起的作用,包括响应模型、风险、交叉销售、客户保持和客户利润等方面,同时展示了建立数据挖掘应用的每个环节,包括数据准备、模型建立、预测评分等等。更可贵的是书中展现的众多实施技巧中包含了作者丰富的行业经验,相信每位读者都将受益匪浅。对于在建立数据挖掘应用过程遇到问题的读者,阅读本书将会有更多的收获。
对于国内的读者,遗憾的是本书的建模例子都是基于SAS编程语言的,一般读者可能没有机会使用SAS系统。此外本书配套的光盘需要从国外出版社另行购买。
为了充分展现书中所介绍的理论和应用经验,保证本书的准确性,我们组织了复旦大学计算机与信息技术系教师、数据挖掘讨论组成员和上海复旦德门软件有限公司(www.datamining.cn)的应用专家共同翻译了本书,翻译工作由国内数据挖掘著名学者、复旦大学教授朱扬勇先生主持和统稿,参加翻译的还有李荣、张晓辉、曹顺良等。由于时间仓促,译者水平有限,难免有不当之处,不妥之处请读者指正。

图书目录

译者序
对本书的赞誉

前言
作者介绍
第一部分  计划菜单
第1章  设立目标 3
1.1  定义目标 4
1.1.1  特征分析 7
1.1.2  划分 7
1.1.3  响应 7
1.1.4  风险 8
1.1.5  激活 9
1.1.6  交叉销售和提升销售 9
1.1.7  流失 9
1.1.8  净现值 10
1.1.9  生命周期价值 10
1.2  选择建模方法 10
1.2.1  线性回归 11
1.2.2  逻辑回归 13
1.2.3  神经网络 14
1.2.4  遗传算法 15
1.2.5  分类树 16
1.3  自适应公司 17
1.3.1  雇佣和合作 18
1.3.2  以产品为中心与以客户为中心 19
1.4  小结 19
第2章  选择数据源 21
2.1  数据类型 21
2.1.1  人口统计学数据一般描述个人或
家庭特性 21
2.1.2  行为数据是行动或行为的一种度量 22
2.1.3  心理或态度数据以观点、生活方式
特性或个人价值为特征 22
2.2  数据源 23
2.2.1  内部数据源 23
2.2.2  外部数据源 30
2.3  选择建模数据 31
2.3.1  潜在客户数据 31
2.3.2  客户模型数据 34
2.3.3  风险模型数据 36
2.4  构造建模数据集 37
2.4.1  如何确定样本尺寸 37
2.4.2  采样方法 38
2.4.3  根据已建立模型的数据开发模型 39
2.4.4  集成多个宣传活动的数据 40
2.5  小结 40
第二部分  烹调演示
第3章  准备数据 43
3.1  访问数据 43
3.1.1  数据分类 45
3.1.2  读原始数据 46
3.2  创建建模数据集 48
3.3  清理数据 50
3.3.1  连续变量 50
3.3.2  类别变量 59
3.4  小结 59
第4章  选择及转换变量 61
4.1  定义目标函数 61
4.1.1  激活概率 62
4.1.2  风险指数 63
4.1.3  产品收益率 63
4.1.4  营销费用 63
4.2  派生变量 63
4.2.1  概化 63
4.2.2  比率 64
4.2.3  日期 64
4.3  变量归约 65
4.3.1  连续变量 65
4.3.2  类别变量 68
4.4  开发线性预测因子 74
4.4.1  连续变量 75
4.4.2  类别变量 82
4.5  相互作用检测 84
4.6  小结 85
第5章  处理和评价模型 87
5.1  处理模型 87
5.1.1  分割数据 89
5.1.2  方法1:单模型 93
5.1.3  方法2:双模型—响应 102
5.1.4  方法2:双模型—激活 103
5.1.5  方法1与方法2的比较 104
5.2  小结 107
第6章  验证模型 109
6.1  收益表与收益图 109
6.1.1  方法1:单模型 109
6.1.2  方法2:双模型 111
6.2  为备用数据集评分 113
6.3  重新采样 116
6.3.1  折叠 116
6.3.2  自引导 121
6.4  关键变量的十分位数分析 128
6.5  小结 130
第7章  实施与维护模型 131
7.1  为新文件评分 131
7.1.1  内部评分 131
7.1.2  外部评分与审计 135
7.2  实施模型 140
7.2.1  计算财务状况 140
7.2.2  决定文件分割点 143
7.2.3  卫冕者与挑战者 144
7.2.4  双模型矩阵 145
7.3  模型跟踪 147
7.4  模型维护 153
7.4.1  模型寿命 153
7.4.2  模型记录 154
7.5  小结 155
第三部分  每个节日的菜肴配方
第8章  了解你的客户:特征化和划分 159
8.1  为什么了解客户很重要 159
8.2  目录服务公司客户的特征化和渗透
分析 164
8.2.1  RFM分析 164
8.2.2  渗透分析 167
8.3  为信用卡公司开发客户价值矩阵 171
8.4  执行聚类分析以发现客户划分 175
8.5  小结 176
第9章  定位新的潜在客户:响应建模 181
9.1  定义目标 181
9.2  准备变量 183
9.2.1  连续变量 184
9.2.2  类别变量 190
9.3  处理模型 192
9.4  用自引导验证 197
9.5  实现模型 200
9.6  小结 201
第10章  避免高风险客户:风险建模 203
10.1  信用评分和风险建模 203
10.2  定义目标 205
10.3  准备变量 206
10.4  处理模型 214
10.5  验证模型 218
10.6  实现模型 220
10.7  另一种风险:欺诈 222
10.8  小结 222
第11章  留住创利客户:流失建模 225
11.1  客户忠诚度 225
11.2  定义目标 226
11.3  准备变量 230
11.3.1  连续变量 230
11.3.2  类别变量 233
11.4  处理模型 234
11.5  验证模型 236
11.6  实现模型 239
11.6.1  建立流失客户特征 240
11.6.2  优化客户创利能力 241
11.6.3  提前保留客户 243
11.7  小结 243
第12章  定位创利客户:生命周期价值
建模 245
12.1  什么是生命周期价值 245
12.1.1  使用生命周期价值 246
12.1.2  生命周期价值的组成 247
12.2  生命周期价值的应用 249
12.3  为可续约产品或服务计算生命周期
价值 252
12.4  计算生命周期价值:案例研究 252
12.4.1  案例研究:第一年净收入 253
12.4.2  生命周期价值计算 260
12.5  小结 264
第13章  快餐:Web建模 265
13.1  Web挖掘和Web建模 265
13.1.1  定义目标 266
13.1.2  Web数据源 266
13.1.3  准备Web数据 268
13.1.4  选择方法学 269
13.2  在Web上建立品牌 275
13.3  实时洞察客户 276
13.4  Web使用挖掘—案例研究 277
13.5  小结 280
附录A  连续变量的单变量分析 283
附录B  类别变量的单变量分析 307
附录C  推荐阅读材料 315

教学资源推荐
作者: 主编 李丹 赵占坤 丁宏伟 石建国 副主编 赵尔丹 钟莲 石彦芳
作者: 试题研究编写组
作者: 何玉洁 编著
参考读物推荐
作者: 叶桦、徐浩、张梦颖、应以峰 著
作者: (美)Theriault,M.L.