数据挖掘是一个新兴的多学科交叉领域,它基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技术,能够从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息,目前已广泛应用于科学、工程、商业、医学等领域。
本书旨在向读者介绍数据挖掘方法和算法,使读者能够应用这些方法解决现实世界中的问题。本书精心选择了在数据挖掘领域中广泛使用的大部分方法,并辅以简单的例子,因而是学习数据挖掘的理想教材。
本书特色
●涵盖数据挖掘中数据的预处理、分类、预测、聚类、关联、支持向量机、多维数据可视化等内容,以及用于这些数据挖掘问题的典型算法。
●许多算法都通过例子解释,并辅以大量图示,有利于初学者理解。
●介绍如何使用开源软件包Weka和ExcelMiner、GCLUTO工具进行数据挖掘。在学习理论的同时,配合使用这些数据挖掘软件进行实验有利于读者加深对数据挖掘理论和算法的理解。
●介绍了一些源自UCI机器学习库的数据集,它们已经成为研究算法性能的基准数据集。
附带光盘包括
●大量数据集。
●使用Weka和ExcelMiner进行数据挖掘的演示。
无
在大规模数据集快速增长的今天,数据挖掘应成为一个新的学科。我们生活在这样一个世界,即便是简单的日常任务,如打电话、使用信用卡或购买五金电器和杂货,都会留下电子印记。诸如核物理和天体物理领域科学实验数量的增加导致每月可能产生几PB(petabytes)规模的数据。近来,生命科学正在成为数据驱动的科学。
广泛用于商业和上述科学领域中的自动数据收集设备每小时能够产生几TB(terabytes)规模的数据,致使已有的推理方法过时。世界上最大的数据仓库——Walmart系统包含500 TB数据。它实在太大,以至于无法装入任何计算机的内存。数据挖掘技术的产生源自进行数据处理业务的企业和进行数据处理研究的科学家需要找到有效的模式来自动处理海量数据。模式可以是简单的数据汇总、数据划分或数据内部的依赖模型。作为知识发现过程,数据挖掘旨在从原始数据得到“被证实的知识”。
认识到这种新技术对科学和商业的重要性之后,世界上大部分大学都开设了通用的数据挖掘原理课程和针对生物信息学、商务智能、卫生保健管理等领域的数据挖掘课程。
本书旨在为读者介绍数据挖掘方法和算法,使读者可以使用这些方法解决现实世界中的问题。书中包含了数据挖掘领域广泛使用的大部分方法(即印度和美国顶级大学教学大纲中所列出的方法),并附以简单的例子,因而是理想的课堂学习教材。像神经网络和归纳逻辑程序设计这样的主题,本书没有包括在内,因为已经有很多好的神经网络方面的教材;而对于归纳逻辑程序设计,则需要很好的逻辑程序设计方面的预备知识。作为省略神经网络内容的补偿,我们增加了一章来介绍支持向量机(SVM)。SVM在数据挖掘中的使用日益广泛。在许多情况下,SVM的分类性能比经典的神经网络好。
数据挖掘方面的大多数教材都很关注理论,对实际例子或实际数据的关注度不够。为了弥补这一缺点,本书包含了一些解答例子和在一些实际数据集上进行数据挖掘的结果。随书光盘中提供了大量数据集,还介绍了如何使用两种最广泛应用的软件:Waikato大学的Weka和美国Quantlink公司的ExcelMiner。Weka作为开源代码提供,而ExcelMiner可以下载、免费使用一个月。教材和随书光盘中的介绍为采用本书的教师提供了足够的指导,以便教师在实验室进行数据挖掘实践。
为了使得理论讲解更加生动,书中包含许多图,并且在一些案例中给出一系列图,用于解释随算法执行参数如何变化。之所以采用这种方法是考虑到与工程领域的其他学科的学生相比,计算机专业的学生在高等数学和统计学方面的实践较少。我们希望读者通过本书可以比较轻松地理解数据挖掘。
本书共有12章。第1章从数据挖掘的基本介绍开始,使用了一些取自不同领域的成功例子。该章旨在概述这种新技术,并吸引学生进行实际数据挖掘项目。该章还给出数据挖掘过程的大致步骤,并进一步解释数据挖掘的主要挑战。
第2章从商务角度讨论数据挖掘,在此通常假定数据是商业事务的结果。这一章从数据挖掘的历史和演化开始,进而讨论数据仓库、联机分析处理(OLAP)和决策支持系统(DSS)的异同,以及它们最终发展到今天的数据挖掘。
第3章介绍表示对象的数据的类型和格式。通常,我们用一些对象上的观测/测量的特征来抽象对象,而对象集就成为数据数组(表)。特征的选取和所研究的问题有关。大部分数据挖掘算法采用这种表格形式。该章还进一步解释诸如决策树、聚类和关联规则挖掘等主要数据挖掘算法的输出形式。
第4章介绍广泛使用的数据挖掘工具之一——决策树构造。该章将解释诸如ID3(C45)、CART、CHAID这样的算法。然后,将继续解释树剪枝的必要性和方法,以及各种模型评估技术。该章最后介绍关于代价敏感学习的注记。
进行数据挖掘的人会将90%的时间用于数据预处理,只将约10%的时间用于数据挖掘方案和输出评估。第5章将详细讨论预处理的必要性和预处理的主要步骤。
在过去的几年中,我们已经开发了许多数据挖掘算法。为了按照一定标准评估这些算法,可以从因特网下载一些标准数据集。第6章给出其中一些标准数据集的描述和某些数据挖掘工具在这些数据集上的输出。
关联规则挖掘是市场营销研究领域广泛引用的数据挖掘工具。第7章将用简单的例子介绍Agrawal和Srikant的著名算法——Apriori算法。
没有实际实验的数据挖掘可能相当枯燥,因此,第8章将专门介绍使用像Weka这样的开源软件包进行实际数据挖掘的方法。美国的大部分大学都使用这种工具进行课堂教学。最近,另一种工具开始在管理专业的学生中流行,这就是 ExcelMiner——一种添加到微软Excel上的数据挖掘工具。我们也将讨论如何使用这种工具进行数据挖掘。本书所附的光盘中包含上述软件的使用说明。
第9章将介绍一些经典的统计学技术,如用于分类的朴素贝叶斯、最近邻回归方法。该章还包含一些现代工具,如遗传算法和数据挖掘应用的GMDH方法。
支持向量机(SVM)是数据挖掘领域最热门的课题之一,我们专门用一章的篇幅来讨论这部分内容。在第10章,我们从SVM的线性规划(LP)公式开始,简要介绍SVM。由于LP求解程序包含在微软的Excel中,因此可以使用它求解SVM。然后,我们考虑SVM的一种变形,称作近支持向量机(Proximal Support Vector Machine,PSVM),它也能用Excel求解。PSVM的优点是这种非线性版本非常容易求解,用6行Matlab代码就足以求解PSVM。
第11章将介绍另一种主要的数据挖掘工具——聚类技术。我们试图给出聚类概念和算法的非常简单和清晰的描述。所涉及的算法包括层次聚类、k均值、k中心点、DBSCAN、OPTICS、BIRCH、COBWEB、CHAMELEON和基于图的技术。
第12章是数据可视化的基础。多维数据可视化本身是一个专门领域。本章只介绍一些基本的方法。
我们热切地希望本书能够使读者对数据挖掘这个令人激动的、迅速发展的领域产生兴趣。我们希望得到读者的指正、劝告、建议和建设性批评。
K.P.Soman
Shyam Diwakar
V.Ajay
数据挖掘是一个新兴的多学科交叉领域,它基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技术,能够从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息,目前已广泛应用于科学、工程、商业、医学等领域。 本书旨在向读者介绍数据挖掘方法和算法,使读者能够应用这些方法解决现实世界中的问题。本书精心选择了在数据挖掘领域中广泛使用的大部分方法,并辅以简单的例子,因而是学习数据挖掘的理想教材。 本书特色 ●涵盖数据挖掘中数据的预处理、分类、预测、聚类、关联、支持向量机、多维数据可视化等内容,以及用于这些数据挖掘问题的典型算法。 ●许多算法都通过例子解释,并辅以大量图示,有利于初学者理解。 ●介绍如何使用开源软件包Weka和ExcelMiner、GCLUTO工具进行数据挖掘。在学习理论的同时,配合使用这些数据挖掘软件进行实验有利于读者加深对数据挖掘理论和算法的理解。 ●介绍了一些源自UCI机器学习库的数据集,它们已经成为研究算法性能的基准数据集。 附带光盘包括 ●大量数据集。 ●使用Weka和ExcelMiner进行数据挖掘的演示。
范明 牛常勇:暂无简介
数据挖掘是一个新兴的多学科交叉领域,并且近十余年一直保持良好的发展势头。当数据的收集、组织、存储和访问等基本问题解决之后,存储在数据库中(更广泛地说,存储在计算机系统中)的数据迅速增长。人们自然希望能够分析、理解存储在计算机系统中的海量数据,为决策提供支持。数据挖掘就是在这样的背景下产生的。
数据挖掘源于数据库学科,最初被称为数据库中知识发现(KDD)。后来,数据挖掘受到统计学、机器学习、模式识别、可视化计算等学科的普遍关注,并且广泛用于科学、工程、商业、产业、医学等诸多领域。数据挖掘的发展也得益于从应用中获得动力,从众多学科的长期工作中汲取营养。
目前,市场上已经有许多数据挖掘的教材和译著。国内许多高校都在研究生层次开设了数据挖掘方面的课程,有些学校甚至为高年级的本科生开设了数据挖掘方面的选修课。然而,对于本科生而言,目前已有的数据挖掘专著和教材都比较深,不太合适。相比之下,Soman、Diwakar和Ajay的这本书更适合作为本科生的数据挖掘课程教材。该书有如下特点:
涵盖了数据挖掘的主要内容,包括数据的预处理、分类、预测、聚类、关联和数据可视化等内容,以及用于这些数据挖掘问题的典型算法。
许多算法都通过例子解释,并辅以大量图示,有利于初学者理解。
详细介绍如何使用开源软件包Weka进行数据挖掘,并简略介绍微软Excel上的数据挖掘工具ExcelMiner的用法。在课堂教学的同时,配合使用这些数据挖掘软件进行实验有助于提高学生的学习兴趣,加深对数据挖掘理论和算法的理解。
介绍一些数据集。这些数据集取自UCI机器学习库,已经成为研究算法性能的基准数据集,可以用作实验数据集。
全书共有12章。范明翻译了第1~8章,牛常勇翻译了第9~12章和附录。在翻译的过程中,我们对原书中明显的笔误和印刷错误进行了更正。
译文中的错误和不当之处,敬请读者朋友指正。意见和建议请发往mfan@zzueducn,我们不胜感激。
译者
2008年8月于郑州大学
出版者的话
译者序
前言
第1章数据挖掘
11引言
111数据挖掘与知识发现
112数据挖掘与数据分析
113数据挖掘与统计学
114数据挖掘与机器学习
12数据挖掘——成功的例子
13数据挖掘研究发展的主要原因
14当前研究成果
15图形模型和层次概率表示
16新的应用
17影响数据挖掘的趋势
18研究挑战
19实验平台和基础设施
参考文献第2章从商务角度看数据挖掘21引言
22从数据挖掘工具到解决方案
23数据挖掘系统的演变
24知识发现过程
25数据挖掘支撑技术概述
251数据挖掘:验证与发现
252决策支持系统
253OLAP
254桌面DSS
255数据仓库
256数据挖掘过程
26数据挖掘技术
参考文献第3章数据挖掘算法的数据类型、
输入和输出31引言
32实例和特征
33特征(数据)的不同类型
34概念学习与概念描述
35数据挖掘的输出——知识表示
351分类学习算法的知识输出
352聚类学习算法的输出
353关联规则的输出
354用于数值预测的树的输出
355基于实例的学习和知识表示
参考文献第4章决策树——分类和回归树41引言
42构造分类树
421用于标称属性的ID3算法
422信息论和信息熵
423构造树
424高分支属性
425从ID3到C45
426形象化地理解ID3和C45
算法
43CHAID
431CHAID的数学工具
432CHAID变量的类型
433CHAID算法
434CHAID算法描述
435将CHAID用于气象数据
436单调变量的预测子级别合并
44CART(分类和回归树)
441CART使用的不纯性度量
442Gini指数
443使用Gini指数——一个例子
444双化指数
445有序双化
446CART分析的步骤
45回归树
451回归树的一个例子
452基于树的回归
453最小二乘方回归树
454LS回归树的有效生长
455连续变量上的划分
456离散变量上的划分
457模型树
46具有未知类值数据的类预测的
一般问题
47剪枝导论
48模型评估
481交叉确认:保持方法
482模型比较
483代价敏感的学习
习题
参考文献第5章数据挖掘的预处理和
后处理51引言
52数据预处理的步骤
53离散化
531人工方法
532分箱
533基于熵的离散化
534找出分割点的其他简单方法
54特征提取、选择和构造
541特征提取
542特征选择
543特征构造
55缺失数据及其处理方法和技术
551什么是缺失数据
552缺失数据的主要原因
553缺失数据的机制
554缺失数据的机制——一个人工
例子
56在决策树归纳中处理缺失数据的
例子
57后处理
参考文献第6章数据集61引言
62隐形眼镜
63鸢尾属植物数据库
64乳腺癌数据库
65工资数据库
66信用卡数据库
67住宅数据库
681985年汽车进口数据库
69徽章问题
691问题描述
692部分数据第7章关联规则挖掘71引言
72事务数据库中关联规则的自动
发现
73Apriori算法
74缺点
习题
参考文献第8章用开源和商业软件进行机器
学习81用Weka进行机器学习
811开始
812装入数据
813选择或过滤属性
814离散化
815关联规则挖掘
816分类
817聚类
82XLMINER
参考文献第9章分类和回归算法91引言
92朴素贝叶斯
921朴素贝叶斯的零频率问题
922缺失值和数值属性
93多元回归分析
931什么是回归分析
932简单和多元回归分析
933在市场营销中的应用
934方法
935使用Excel进行多元回归分析
936输入数据
937回归输出
94逻辑斯谛回归
95k最近邻分类
951k近邻预测
952kNN算法的缺点
96GMDH
961引言
962数据处理群组方法的背景
963构建决策规则
964实验结果
965讨论和总结
97进化计算和遗传算法
971进化理论
972遗传算法
973使用遗传算法进行机器学习
习题
参考文献第10章支持向量机101引言
102线性支持向量机的基本思想
103软边缘SVM:线性核
1031线性SVM的线性规划公式
表示
1032有训练误差的SVM:非线
性核
104邻近支持向量机
105生成数据集
1051螺旋数据生成器
1052棋盘格数据集
1053多元正态分布数据生成器
106问题及解答
习题
参考文献第11章聚类分析111引言
1111相似性及其度量
1112聚类的基本类型
112划分聚类
113k中心点
114现代聚类方法
115BIRCH
116DBSCAN
1161DBSCAN算法的概念
1162DBSCAN的基本概念和算法
1163算法
1164DBSCAN算法的优点
117OPTICS
1171引言
1172OPTICS算法的动机
1173OPTICS采用的概念
1174OPTICS算法
1175可达图
1176优点
1177缺点
118基于图划分的聚类
1181加权图划分
1182平衡图划分——基本原则
1183k路划分
119CHAMELEON:两阶段聚类
算法
1191数据建模
1192簇相似性建模
1193CHAMELEON的两个阶段
1194用例子说明CHAMELEON
算法
1110COBWEB概念聚类算法
11101COBWEB算法
11102COBWEB:一个简单
例子
1111GCLUTO:图形化聚类工具箱
11111概述
11112GCLUTO中的可用选项
11113使用GCLUTO进行文本
挖掘
习题
参考文献第12章多维数据可视化121引言122多维可视化的图表表示
1221kiviat 图
1222平行坐标系
12233D散点图
12243D曲线图
1225体积透视图
1226房图
1227Chernoff脸图
123可视化数据挖掘参考文献
附录ASVM公式:完全可分的线性
分类器
附录B图划分的矩阵形式