数据挖掘基础教程
作者 : K.P.Soman;Shyam Diwakar;V.Ajay
译者 : 范明 牛常勇
丛书名 : 计算机科学丛书
出版日期 : 2008-12-24
ISBN : 7-111-25543-7
定价 : 45.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 305
开本 : 16开
原书名 : Insight into Data Mining:Theory and Practice
原出版社: Prentice Hall of India
属性分类: 教材
包含CD :
绝版 :
图书简介

数据挖掘是一个新兴的多学科交叉领域,它基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技术,能够从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息,目前已广泛应用于科学、工程、商业、医学等领域。
  本书旨在向读者介绍数据挖掘方法和算法,使读者能够应用这些方法解决现实世界中的问题。本书精心选择了在数据挖掘领域中广泛使用的大部分方法,并辅以简单的例子,因而是学习数据挖掘的理想教材。

本书特色
  ●涵盖数据挖掘中数据的预处理、分类、预测、聚类、关联、支持向量机、多维数据可视化等内容,以及用于这些数据挖掘问题的典型算法。
  ●许多算法都通过例子解释,并辅以大量图示,有利于初学者理解。
  ●介绍如何使用开源软件包Weka和ExcelMiner、GCLUTO工具进行数据挖掘。在学习理论的同时,配合使用这些数据挖掘软件进行实验有利于读者加深对数据挖掘理论和算法的理解。
  ●介绍了一些源自UCI机器学习库的数据集,它们已经成为研究算法性能的基准数据集。

附带光盘包括
  ●大量数据集。
  ●使用Weka和ExcelMiner进行数据挖掘的演示。

图书特色

图书前言

在大规模数据集快速增长的今天,数据挖掘应成为一个新的学科。我们生活在这样一个世界,即便是简单的日常任务,如打电话、使用信用卡或购买五金电器和杂货,都会留下电子印记。诸如核物理和天体物理领域科学实验数量的增加导致每月可能产生几PB(petabytes)规模的数据。近来,生命科学正在成为数据驱动的科学。
  广泛用于商业和上述科学领域中的自动数据收集设备每小时能够产生几TB(terabytes)规模的数据,致使已有的推理方法过时。世界上最大的数据仓库——Walmart系统包含500 TB数据。它实在太大,以至于无法装入任何计算机的内存。数据挖掘技术的产生源自进行数据处理业务的企业和进行数据处理研究的科学家需要找到有效的模式来自动处理海量数据。模式可以是简单的数据汇总、数据划分或数据内部的依赖模型。作为知识发现过程,数据挖掘旨在从原始数据得到“被证实的知识”。
  认识到这种新技术对科学和商业的重要性之后,世界上大部分大学都开设了通用的数据挖掘原理课程和针对生物信息学、商务智能、卫生保健管理等领域的数据挖掘课程。
  本书旨在为读者介绍数据挖掘方法和算法,使读者可以使用这些方法解决现实世界中的问题。书中包含了数据挖掘领域广泛使用的大部分方法(即印度和美国顶级大学教学大纲中所列出的方法),并附以简单的例子,因而是理想的课堂学习教材。像神经网络和归纳逻辑程序设计这样的主题,本书没有包括在内,因为已经有很多好的神经网络方面的教材;而对于归纳逻辑程序设计,则需要很好的逻辑程序设计方面的预备知识。作为省略神经网络内容的补偿,我们增加了一章来介绍支持向量机(SVM)。SVM在数据挖掘中的使用日益广泛。在许多情况下,SVM的分类性能比经典的神经网络好。
  数据挖掘方面的大多数教材都很关注理论,对实际例子或实际数据的关注度不够。为了弥补这一缺点,本书包含了一些解答例子和在一些实际数据集上进行数据挖掘的结果。随书光盘中提供了大量数据集,还介绍了如何使用两种最广泛应用的软件:Waikato大学的Weka和美国Quantlink公司的ExcelMiner。Weka作为开源代码提供,而ExcelMiner可以下载、免费使用一个月。教材和随书光盘中的介绍为采用本书的教师提供了足够的指导,以便教师在实验室进行数据挖掘实践。
为了使得理论讲解更加生动,书中包含许多图,并且在一些案例中给出一系列图,用于解释随算法执行参数如何变化。之所以采用这种方法是考虑到与工程领域的其他学科的学生相比,计算机专业的学生在高等数学和统计学方面的实践较少。我们希望读者通过本书可以比较轻松地理解数据挖掘。
  本书共有12章。第1章从数据挖掘的基本介绍开始,使用了一些取自不同领域的成功例子。该章旨在概述这种新技术,并吸引学生进行实际数据挖掘项目。该章还给出数据挖掘过程的大致步骤,并进一步解释数据挖掘的主要挑战。
  第2章从商务角度讨论数据挖掘,在此通常假定数据是商业事务的结果。这一章从数据挖掘的历史和演化开始,进而讨论数据仓库、联机分析处理(OLAP)和决策支持系统(DSS)的异同,以及它们最终发展到今天的数据挖掘。
  第3章介绍表示对象的数据的类型和格式。通常,我们用一些对象上的观测/测量的特征来抽象对象,而对象集就成为数据数组(表)。特征的选取和所研究的问题有关。大部分数据挖掘算法采用这种表格形式。该章还进一步解释诸如决策树、聚类和关联规则挖掘等主要数据挖掘算法的输出形式。
  第4章介绍广泛使用的数据挖掘工具之一——决策树构造。该章将解释诸如ID3(C45)、CART、CHAID这样的算法。然后,将继续解释树剪枝的必要性和方法,以及各种模型评估技术。该章最后介绍关于代价敏感学习的注记。
  进行数据挖掘的人会将90%的时间用于数据预处理,只将约10%的时间用于数据挖掘方案和输出评估。第5章将详细讨论预处理的必要性和预处理的主要步骤。
  在过去的几年中,我们已经开发了许多数据挖掘算法。为了按照一定标准评估这些算法,可以从因特网下载一些标准数据集。第6章给出其中一些标准数据集的描述和某些数据挖掘工具在这些数据集上的输出。
  关联规则挖掘是市场营销研究领域广泛引用的数据挖掘工具。第7章将用简单的例子介绍Agrawal和Srikant的著名算法——Apriori算法。
  没有实际实验的数据挖掘可能相当枯燥,因此,第8章将专门介绍使用像Weka这样的开源软件包进行实际数据挖掘的方法。美国的大部分大学都使用这种工具进行课堂教学。最近,另一种工具开始在管理专业的学生中流行,这就是  ExcelMiner——一种添加到微软Excel上的数据挖掘工具。我们也将讨论如何使用这种工具进行数据挖掘。本书所附的光盘中包含上述软件的使用说明。
  第9章将介绍一些经典的统计学技术,如用于分类的朴素贝叶斯、最近邻回归方法。该章还包含一些现代工具,如遗传算法和数据挖掘应用的GMDH方法。
  支持向量机(SVM)是数据挖掘领域最热门的课题之一,我们专门用一章的篇幅来讨论这部分内容。在第10章,我们从SVM的线性规划(LP)公式开始,简要介绍SVM。由于LP求解程序包含在微软的Excel中,因此可以使用它求解SVM。然后,我们考虑SVM的一种变形,称作近支持向量机(Proximal Support Vector Machine,PSVM),它也能用Excel求解。PSVM的优点是这种非线性版本非常容易求解,用6行Matlab代码就足以求解PSVM。
  第11章将介绍另一种主要的数据挖掘工具——聚类技术。我们试图给出聚类概念和算法的非常简单和清晰的描述。所涉及的算法包括层次聚类、k均值、k中心点、DBSCAN、OPTICS、BIRCH、COBWEB、CHAMELEON和基于图的技术。
第12章是数据可视化的基础。多维数据可视化本身是一个专门领域。本章只介绍一些基本的方法。
  我们热切地希望本书能够使读者对数据挖掘这个令人激动的、迅速发展的领域产生兴趣。我们希望得到读者的指正、劝告、建议和建设性批评。

  K.P.Soman
  Shyam Diwakar
  V.Ajay

封底文字

数据挖掘是一个新兴的多学科交叉领域,它基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技术,能够从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息,目前已广泛应用于科学、工程、商业、医学等领域。 本书旨在向读者介绍数据挖掘方法和算法,使读者能够应用这些方法解决现实世界中的问题。本书精心选择了在数据挖掘领域中广泛使用的大部分方法,并辅以简单的例子,因而是学习数据挖掘的理想教材。 本书特色 ●涵盖数据挖掘中数据的预处理、分类、预测、聚类、关联、支持向量机、多维数据可视化等内容,以及用于这些数据挖掘问题的典型算法。 ●许多算法都通过例子解释,并辅以大量图示,有利于初学者理解。 ●介绍如何使用开源软件包Weka和ExcelMiner、GCLUTO工具进行数据挖掘。在学习理论的同时,配合使用这些数据挖掘软件进行实验有利于读者加深对数据挖掘理论和算法的理解。 ●介绍了一些源自UCI机器学习库的数据集,它们已经成为研究算法性能的基准数据集。 附带光盘包括 ●大量数据集。 ●使用Weka和ExcelMiner进行数据挖掘的演示。

译者简介

范明 牛常勇:暂无简介

译者序

数据挖掘是一个新兴的多学科交叉领域,并且近十余年一直保持良好的发展势头。当数据的收集、组织、存储和访问等基本问题解决之后,存储在数据库中(更广泛地说,存储在计算机系统中)的数据迅速增长。人们自然希望能够分析、理解存储在计算机系统中的海量数据,为决策提供支持。数据挖掘就是在这样的背景下产生的。
  数据挖掘源于数据库学科,最初被称为数据库中知识发现(KDD)。后来,数据挖掘受到统计学、机器学习、模式识别、可视化计算等学科的普遍关注,并且广泛用于科学、工程、商业、产业、医学等诸多领域。数据挖掘的发展也得益于从应用中获得动力,从众多学科的长期工作中汲取营养。
  目前,市场上已经有许多数据挖掘的教材和译著。国内许多高校都在研究生层次开设了数据挖掘方面的课程,有些学校甚至为高年级的本科生开设了数据挖掘方面的选修课。然而,对于本科生而言,目前已有的数据挖掘专著和教材都比较深,不太合适。相比之下,Soman、Diwakar和Ajay的这本书更适合作为本科生的数据挖掘课程教材。该书有如下特点:
  涵盖了数据挖掘的主要内容,包括数据的预处理、分类、预测、聚类、关联和数据可视化等内容,以及用于这些数据挖掘问题的典型算法。
  许多算法都通过例子解释,并辅以大量图示,有利于初学者理解。
  详细介绍如何使用开源软件包Weka进行数据挖掘,并简略介绍微软Excel上的数据挖掘工具ExcelMiner的用法。在课堂教学的同时,配合使用这些数据挖掘软件进行实验有助于提高学生的学习兴趣,加深对数据挖掘理论和算法的理解。
  介绍一些数据集。这些数据集取自UCI机器学习库,已经成为研究算法性能的基准数据集,可以用作实验数据集。
  全书共有12章。范明翻译了第1~8章,牛常勇翻译了第9~12章和附录。在翻译的过程中,我们对原书中明显的笔误和印刷错误进行了更正。
  译文中的错误和不当之处,敬请读者朋友指正。意见和建议请发往mfan@zzueducn,我们不胜感激。

译者
2008年8月于郑州大学

图书目录

出版者的话
译者序
前言

第1章数据挖掘
11引言
111数据挖掘与知识发现
112数据挖掘与数据分析
113数据挖掘与统计学
114数据挖掘与机器学习
12数据挖掘——成功的例子
13数据挖掘研究发展的主要原因
14当前研究成果
15图形模型和层次概率表示
16新的应用
17影响数据挖掘的趋势
18研究挑战
19实验平台和基础设施
参考文献第2章从商务角度看数据挖掘21引言
22从数据挖掘工具到解决方案
23数据挖掘系统的演变
24知识发现过程
25数据挖掘支撑技术概述
251数据挖掘:验证与发现
252决策支持系统
253OLAP
254桌面DSS
255数据仓库
256数据挖掘过程
26数据挖掘技术
参考文献第3章数据挖掘算法的数据类型、
输入和输出31引言
32实例和特征
33特征(数据)的不同类型
34概念学习与概念描述
35数据挖掘的输出——知识表示
351分类学习算法的知识输出
352聚类学习算法的输出
353关联规则的输出
354用于数值预测的树的输出
355基于实例的学习和知识表示
参考文献第4章决策树——分类和回归树41引言
42构造分类树
421用于标称属性的ID3算法
422信息论和信息熵
423构造树
424高分支属性
425从ID3到C45
426形象化地理解ID3和C45
算法
43CHAID
431CHAID的数学工具
432CHAID变量的类型
433CHAID算法
434CHAID算法描述
435将CHAID用于气象数据
436单调变量的预测子级别合并
44CART(分类和回归树)
441CART使用的不纯性度量
442Gini指数
443使用Gini指数——一个例子
444双化指数
445有序双化
446CART分析的步骤
45回归树
451回归树的一个例子
452基于树的回归
453最小二乘方回归树
454LS回归树的有效生长
455连续变量上的划分
456离散变量上的划分
457模型树
46具有未知类值数据的类预测的
一般问题
47剪枝导论
48模型评估
481交叉确认:保持方法
482模型比较
483代价敏感的学习
习题
参考文献第5章数据挖掘的预处理和
后处理51引言
52数据预处理的步骤
53离散化
531人工方法
532分箱
533基于熵的离散化
534找出分割点的其他简单方法
54特征提取、选择和构造
541特征提取
542特征选择
543特征构造
55缺失数据及其处理方法和技术
551什么是缺失数据
552缺失数据的主要原因
553缺失数据的机制
554缺失数据的机制——一个人工
例子
56在决策树归纳中处理缺失数据的
例子
57后处理
参考文献第6章数据集61引言
62隐形眼镜
63鸢尾属植物数据库
64乳腺癌数据库
65工资数据库
66信用卡数据库
67住宅数据库
681985年汽车进口数据库
69徽章问题
691问题描述
692部分数据第7章关联规则挖掘71引言
72事务数据库中关联规则的自动
发现
73Apriori算法
74缺点
习题
参考文献第8章用开源和商业软件进行机器
学习81用Weka进行机器学习
811开始
812装入数据
813选择或过滤属性
814离散化
815关联规则挖掘
816分类
817聚类
82XLMINER
参考文献第9章分类和回归算法91引言
92朴素贝叶斯
921朴素贝叶斯的零频率问题
922缺失值和数值属性
93多元回归分析
931什么是回归分析
932简单和多元回归分析
933在市场营销中的应用
934方法
935使用Excel进行多元回归分析
936输入数据
937回归输出
94逻辑斯谛回归
95k最近邻分类
951k近邻预测
952kNN算法的缺点
96GMDH
961引言
962数据处理群组方法的背景
963构建决策规则
964实验结果
965讨论和总结
97进化计算和遗传算法
971进化理论
972遗传算法
973使用遗传算法进行机器学习
习题
参考文献第10章支持向量机101引言
102线性支持向量机的基本思想
103软边缘SVM:线性核
1031线性SVM的线性规划公式
表示
1032有训练误差的SVM:非线
性核
104邻近支持向量机
105生成数据集
1051螺旋数据生成器
1052棋盘格数据集
1053多元正态分布数据生成器
106问题及解答
习题
参考文献第11章聚类分析111引言
1111相似性及其度量
1112聚类的基本类型
112划分聚类
113k中心点
114现代聚类方法
115BIRCH
116DBSCAN
1161DBSCAN算法的概念
1162DBSCAN的基本概念和算法
1163算法
1164DBSCAN算法的优点
117OPTICS
1171引言
1172OPTICS算法的动机
1173OPTICS采用的概念
1174OPTICS算法
1175可达图
1176优点
1177缺点
118基于图划分的聚类
1181加权图划分
1182平衡图划分——基本原则
1183k路划分
119CHAMELEON:两阶段聚类
算法
1191数据建模
1192簇相似性建模
1193CHAMELEON的两个阶段
1194用例子说明CHAMELEON
算法
1110COBWEB概念聚类算法
11101COBWEB算法
11102COBWEB:一个简单
例子
1111GCLUTO:图形化聚类工具箱
11111概述
11112GCLUTO中的可用选项
11113使用GCLUTO进行文本
挖掘
习题
参考文献第12章多维数据可视化121引言122多维可视化的图表表示
1221kiviat 图
1222平行坐标系
12233D散点图
12243D曲线图
1225体积透视图
1226房图
1227Chernoff脸图
123可视化数据挖掘参考文献
附录ASVM公式:完全可分的线性
分类器
附录B图划分的矩阵形式

教学资源推荐
作者: [英]托马斯 M. 康诺利(Thomas M. Connolly) 卡洛琳 E. 贝格(Carolyn E. Begg)著
作者: Jeffrey D. Ullman;Jennifer Widom
作者: (加)Jiawei Han, Micheline Kamber
参考读物推荐
作者: [美]桑迪普·乌坦坎达尼(Sandeep Uttamchandani) 著
作者: 连德富 张富峥 王英子 袁晶 谢幸 编著
作者: 高云君 陈璐 编著