数据挖掘:概念与技术(原书第2版)
作者 : Jiawei Han;Micheline Kamber
译者 : 范明 孟小峰
丛书名 : 计算机科学丛书
出版日期 : 2007-02-11
ISBN : 7-111-20538-4
定价 : 55.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 508
开本 : 16开
原书名 : Data Mining: Concepts and Techniques, Second Edition
原出版社:
属性分类: 教材
包含CD :
绝版 :
图书简介

本书第2版在十分丰富和全面的第1版基础上进行了更新和改进,并增添了新的重要课题,例如挖掘流数据、挖掘社会网络和挖掘空间、多媒体和其他复杂数据。本书将是一本适用于数据挖掘和知识发现课程的优秀教材。
  ——Gregory Piatetsky-Shapiro, KDnuggets的总裁
  科学的飞速发展使产生和收集数据的能力快速增长。大多数商业、科学和政府事务的日益计算机化,数码相机、发布工具和条码的广泛应用都产生着大量的数据。在数据收集方面,扫描的文本和图像平台、卫星遥感系统和互联网已经使我们生活在海量的数据之中。这种爆炸性的数据增长促使我们比以往更迫切地需要新技术和自动化工具,以帮助我们将这些数据转换为有用的信息和知识。
  本书第1版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著,是一本可读性极佳的教材。它从数据库角度全面系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的技术研究进展,重点关注其可行性、有用性、有效性和可伸缩性问题。第1版出版之后,数据挖掘领域的研究又取得了很大的进展,开发出了新的数据挖掘方法、系统和应用。第2版在这方面进行了充实,增加了多个章节讲述最新的数据挖掘方法,以便能够挖掘出复杂类型的数据,包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。
  本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材,同时也适宜作为数据挖掘研究人员和相关专业人士的参考书。
  本书特点:
  ● 全面实用地论述了从实际业务数据中抽取出读者需要的概念和技术。
  ● 结合读者的反馈,反映数据挖掘领域的技术变化以及统计和机器学习方面的进展。
  ● 引入了许多算法和实现示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。

图书特色

图书前言

我们产生和收集数据的能力正在迅速提高。起作用的因素包括商务、科学技术和政府部门在内的事务处理的计算机化;数码相机、出版工具和用于大部分商用产品的条码的广泛使用;由文本和图像扫描平台到卫星遥感系统的数据收集工具的进步。此外,作为全球信息系统的万维网的流行,已经将我们淹没在数据和信息的汪洋大海中。存储数据或瞬态数据的爆炸性增长业已激发对新技术和自动工具的需求,这些技术和工具能够以智能方式将海量数据转换成有用的信息和知识。
  本书考察数据挖掘的概念和技术。数据挖掘是数据和信息系统及其应用的一个有希望的、欣欣向荣的学科前沿。数据挖掘通常又称为数据中的知识发现(KDD),是自动或方便地提取代表知识的模式;这些模式隐藏或记录在大型数据库、数据仓库、Web、其他大量信息库或数据流中。
  数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、机器学习、统计学、模式识别、信息检索、神经网络、基于知识的系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术,关注涉及可行性、实用性、有效性和可伸缩性的问题。这样,本书不打算作为数据库系统、机器学习、统计学或其他类似领域的导论,尽管我们确实提供了这些领域的必要背景材料,以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介绍,同时关注有效性和可伸缩性问题。对于计算科学的学生、应用开发者、行业专业人员以及涉及以上列举的学科的研究者,本书应当是有用的。
  数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展,并可望在新千年继续繁荣。本书提供该领域的全面情况,介绍有趣的数据挖掘技术和系统,并讨论数据挖掘的应用和研究方向。写这本书的重要动机是需要建立一个研究数据挖掘的有组织的框架—由于这个快速发展领域的多学科特点,这是一项具有挑战性的任务。我们希望本书有助于具有不同背景和经验的人们交流关于数据挖掘的见解,为进一步促进这个令人激动的、不断发展的领域的成长做出贡献。
  本书的组织
  自本书第1版出版以来,数据挖掘领域已经取得重大进展。开发出了许多新的数据挖掘方法、系统和应用。这个新版对本书第1版做了重大修订,加强和重新组织了全书的技术内容。此外,新添了几章,描述复杂数据类型挖掘方面的进展,其中包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。
  各章的简要内容如下,重点介绍新的内容。
  第1章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的数据库技术的发展道路和数据挖掘应用的重要性。该章考察挖掘的数据类型,包括关系、事务和数据仓库数据,以及复杂数据类型,如像数据流、时间序列、序列、图形、社会网络和多重关系数据,时空数据,多媒体数据,文本数据以及Web数据。该章根据所挖掘的知识类型,对数据挖掘任务进行一般分类。与第1版相比,新增加了两节:1.7节介绍数据挖掘原语,这些原语能够使用户与数据挖掘系统相互通信,以便指导挖掘过程,而1.8节讨论数据挖掘系统与数据库或数据仓库系统的集成问题。这两节是第1版第4章的浓缩。最后讨论该领域的主要挑战。
  第2章介绍挖掘之前的数据预处理技术。这对应于第1版的第3章。由于数据预处理先于数据仓库的构建,我们在该章讨论预处理,然后在下一章介绍数据仓库。该章介绍描述性数据汇总的各种统计方法,包括数据的中心趋势和散布的度量。加强了数据清理方法的介绍,讨论了数据集成和变换、数据归约的方法,包括动态和静态离散化概念分层的使用。该章还介绍了概念分层的自动产生。
  第3、4章是数据仓库、OLAP(联机分析处理)和数据泛化的引论。这两章对应于第1版的第2章和第5章,但是显著加强了数据仓库的实现方法。第3章介绍了数据仓库和联机分析处理的基本概念、系统结构和一般实现,以及数据仓库和数据挖掘的关系。第4章更深入地考察数据仓库和OLAP技术,详细地研究数据立方体的计算方法,包括最近开发的star-cubing方法和高维OLAP方法。该章还讨论数据仓库和OALP的进一步探查,如发现驱动的立方体探查,复杂数据挖掘查询的多特征立方体和立方体梯度分析。该章还讨论另一种数据泛化和概念描述方法—面向属性的归纳。
  第5章介绍挖掘事务数据库、关系数据库和数据仓库中的频繁模式、关联和相关性的方法。除介绍诸如购物篮分析等基本概念之外,还以有条理的方式提供许多频繁项集挖掘技术。这些技术领域从基本Apriori算法和它的变形,到改进性能的更高级的方法,包括频繁模式增长方法,使用数据垂直格式的频繁模式挖掘和挖掘闭频繁项集。该章还介绍挖掘多层关联规则、多维关联规则和量化关联规则的技术。与上一版相比,该章更强调产生有意义的关联规则和相关规则。该章还讨论基于约束的挖掘和使用兴趣度度量对规则搜索聚焦的策略。
  第6章介绍数据分类和预测方法,包括决策树归纳、贝叶斯分类、基于规则的分类、后向传播的神经网络技术、支持向量机、关联分类、k最邻近分类、基于案例的推理、遗传算法、粗糙集理论和模糊集合方法。该章还介绍了回归方法,讨论了关于准确率和如何选择最佳的分类和预测方法问题。与第1版的对应章相比,新增加了基于规则的分类和支持向量机这两节,并且大幅度地扩充了度量和加强分类和预测的准确率的讨论。
  聚类分析构成第7章的主题。该章介绍了主要的数据聚类方法,包括划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。本版新增加了几节,介绍高维数据聚类技术,以及基于约束的聚类分析。该章还讨论了离群点分析。
  第8~10章讨论数据挖掘的高级课题,涵盖了学科前沿最新进展的大量材料。这三章取代了前一版关于高级课题的一章。第8章主要讨论流数据、时间序列数据和序列数据(包括事务序列和生物学序列)的挖掘。基本数据挖掘技术(如频繁模式挖掘、分类、聚类和基于约束的挖掘)都扩展到这些类型的数据。第9章讨论图和结构模式挖掘方法、社会网络分析和多重关系数据挖掘。第10章介绍对象、空间、多媒体、文本和Web数据挖掘方法,涵盖了这些领域的大量新进展。
  最后,在第11章,我们总结本书提供的概念,并讨论数据挖掘的应用和发展趋势。添加了一些新的数据挖掘材料,涉及生物学和生物医学数据分析、其他科学应用、入侵检测和协同过滤。除了具有挑战性的研究问题之外,还讨论了数据挖掘对社会的影响,如隐私和数据安全问题。新版还增加了无处不在的数据挖掘的进一步讨论。
  附录提供了微软用于数据挖掘的OLE DB(用于DM的OLE DB)。
  全书用楷体字强调定义的术语,黑体字突出主要思想。
  本书具有一些显著特点,不同于其他数据挖掘教材。本书广泛、深入地讨论了整个数据挖掘领域,特别是关于数据流挖掘、图挖掘、社会网络分析和多重关系数据挖掘的一些最新研究课题。在讨论高级主题之前的各章尽可能是独立的,读者可以按自己的兴趣选择阅读顺序。本书提供了数据挖掘的所有主要方法。由于我们从数据库的角度来处理数据挖掘,本书还提供了许多诸如可伸缩的算法和多维OLAP分析等数据挖掘中的重要主题。这些主题在其他书中常被忽略或很少提及。
  致教师
  本书旨在提供数据挖掘领域的一个广泛而深入的概览。本书可以用作高年级本科生或一年级研究生的数据挖掘导论。此外,本书也可以用来讲授数据挖掘的高级课程。
  如果你打算使用本书作为导论课程的教材,你可能发现第1~7章是基本的,如果你不打算深入地讲述数据立方体计算和联机分析处理的实现方法,第4章可以略去。另一种方法,你也可以忽略第1~7章的某些节,而使用第11章,最后涵盖数据挖掘的应用和发展趋势。
  如果你打算使用本书讲述数据挖掘的高级课程,可以使用第8~11章。此外,附加的材料和最新发表的一些研究论文可以作为从这些章中选择的高级主题的补充。
本书的每一章都可以用作自学材料,或用作诸如数据库系统、机器学习、模式识别和数据智能分析等相关课程的专题。
  每章后面都有一组习题,适合作为家庭作业。这些习题或者是用于测验对内容的掌握情况的短问题,或者是需要分析思考的长问题,或者是实现设计。有些习题也可以用作研究讨论课题。每章后面的文献注释可以用来查找包含正文中提供的概念和方法的来源、相关课题的深入讨论和可能的扩展的研究文献。本书的网站提供了广泛的教学辅助支持,如授课幻灯片、读物目录和课程提纲。
  致学生
  我们希望这本教材能激发你对处于年轻时代然而正在快速发展的数据挖掘领域的兴趣。我们力求以清晰的方式提供材料,仔细地解释所涵盖的课题。每一章都用总结要点的小结结束。全书包含了许多图和解释,以便使本书成为更加有趣的和读者友好的。尽管本书是作为教材编写的,但是我们也试图把它组织成一本参考书或手册,如果你今后决定在数据挖掘的相关领域进行深入研究或者以数据挖掘为毕生职业对你将是有用的。
  为阅读本书,你需要知道什么?
  你应当具有关于数据库系统、统计学和机器学习的概念与术语方面的一些知识。然而,我们尽力提供这些领域中的基础的足够背景,以便在读者对这些领域不太熟悉或者记忆有些淡忘时,也能够跟随本书的讨论。
  你应当具有一些程序设计经验。特别是,应当能够阅读伪代码,能够理解诸如多维数组这样的简单数据结构。
  致专业人员
  本书旨在涵盖数据挖掘领域的广泛课题。这样,本书是关于该主题的一本优秀手册。由于每一章的编写尽可能独立,你可以关注于你最感兴趣的课题。希望学习数据挖掘的关键思想的应用程序员和信息服务管理者可以使用本书。对于有兴趣使用数据挖掘技术解决其业务问题的银行、保险、医药和零售业的技术数据分析人员,本书也是有用的。此外,本书也可以作为数据挖掘领域的全面综述,有助于研究人员提升数据挖掘技巧,扩展数据挖掘的应用范围。
  所提供的技术和算法是实用的。本书介绍的算法适合于发现隐藏在大型、现实数据集中的模式和知识,而不是挑选对小型“玩具”数据集运行良好的算法。在第11章,我们简略讨论数据挖掘系统的商业应用,以及有希望的研究原型。本书提供的算法用伪代码解释。伪代码类似于程序设计语言C,但是被设计成使得不熟悉C或C++的程序员易于理解。如果你想实现算法,你会发现将我们的伪代码转换成选定的程序设计语言是一项非常简单的任务。
  本书资源网站
  本书网站的地址是http://www.cs.uiuc.edu/~hanj/bk2,另一个是Morgan Kaufmann出版社的网站www.mkp.com/datamining2e。这些网站为本书的读者和对数据挖掘感兴趣的人提供了一些补充材料。资源包括:
  每章的幻灯片。提供了用微软的PowerPoint制作的每章教案。
  本书的模型图。可以帮助你制作自己的课堂教学幻灯片。
  教师手册。本书习题的完整答案通过出版社的网站只向教师提供。
  课程提纲和教学计划。对使用本书和幻灯片为数据挖掘导论课程和高级教程的本科生和研究生提供。
  带超链接的补充读物目录。补充读物原创性文章按章组织。
  到数据挖掘数据集和软件的链接。我们将提供到数据挖掘数据集和某些包含有趣的数据挖掘软件包的站点的链接,如到伊利诺伊大学Urbana-Champaign分校IlliMine的链接(http://illimine.cs.uiuc.edu)。
  作业、考试和课程设计实例。一组作业、考试和课程设计实例将在出版社的网站上向教师提供。
  本书目录(PDF格式)。
  本书不同印次的勘误表。欢迎你指出本书中的错误。一旦错误被确认,我们就更新勘误表,并对你的贡献致谢。
  评论或建议请发往hanj@cs.uiuc.edu。我们很高兴听到你的建议。
  本书的参考文献已放到机械工业出版社华章网站(http://www.hzbook.com)上,请读者登录华章网站免费下载。—编辑注
  第1版致谢
  我们希望向曾经或正在与我们一道从事数据挖掘相关研究和/或DBMiner项目,或在数据挖掘方面向我们提供各种支持的所有人表示衷心的感谢。这些人包括Rakesh Agrawal, Stella Atkins, Yvan Bedard, Binay Bhattacharya, (Yandong) Dora Cai, Nick Cercone, Surajit Chaudhuri, Sonny H. S. Chee, Jianping Chen, Ming-Syan Chen, Qing Chen, Qiming Chen, Shan Cheng, David Cheung, Shi Cong, Son Dao, Umeshwar Dayal, James Delgrande, Guozhu Dong, Carole Edwards, Max Egenhofer, Martin Ester, Usama Fayyad, Ling Feng, Ada Fu, Yongjian Fu, Daphne Gelbart, Randy Goebel, Jim Gray, Robert Grossman, Wan Gong, Yike Guo, Eli Hagen, Howard Hamilton, Jing He, Larry Henschen, Jean Hou, Mei-Chun Hsu, Kan Hu, Haiming Huang, Yue Huang, Julia Itskevitch, Wen Jin, Tiko Kameda, Hiroyuki Kawano, Rizwan Kheraj, Eddie Kim, Won Kim, Krzysztof Koperski, Hans-Peter Kriegel, Vipin Kumar, Laks V. S. Lakshmanan, Joyce Man Lam, James Lau, Deyi Li, George (Wenmin) Li, Jin Li, Ze-Nian Li, Nancy Liao, Gang Liu, Junqiang Liu, Ling Liu, Alan (Yijun) Lu, Hongjun Lu, Tong Lu,Wei Lu, Xuebin Lu, Wo-Shun Luk, Heikki Mannila, Runying Mao, Abhay Mehta, Gabor Melli, Alberto Mendelzon, Tim Merrett, Harvey Miller, Drew Miners, Behzad Mortazavi-Asl, Richard Muntz, Raymond T. Ng, Vicent Ng, Shojiro Nishio, Beng-Chin Ooi, Tamer Ozsu, Jian Pei, Gregory Piatetsky-Shapiro, Helen Pinto, Fred Popowich, Amynmohamed Rajan, Peter Scheuermann, Shashi Shekhar, Wei-Min Shen, Avi Silberschatz, Evangelos Simoudis, Nebojsa Stefanovic, Yin Jenny Tam, Simon Tang, Zhaohui Tang, Dick Tsur, Anthony K. H. Tung, Ke Wang, Wei Wang, Zhaoxia Wang, Tony Wind, Lara Winstone, Ju Wu, Betty (Bin) Xia, Cindy M. Xin, Xiaowei Xu, Qiang Yang, Yiwen Yin, Clement Yu, Jeffrey Yu, Philip S. Yu, Osmar R. Zaiane, Carlo Zaniolo, Shuhua Zhang, Zhong Zhang, Yvonne Zheng, Xiaofang Zhou和Hua Zhu。我们还要感谢Jean Hou, Helen Pinto, Lara Winstone和Hua Zhu,感谢他们帮助绘制本书的一些草图;感谢Eugene Belchev仔细地校对了每一章。
  我们还要感谢Morgan Kaufmann出版社的执行编辑Diane Cerra在本书写作期间的热情、耐心和支持;感谢出版编辑Howard Severson和他的同事,感谢他们尽职尽责的努力,使本书得以出版。我们对所有的评论者不胜感激,感谢他们的无价反馈。最后,我们感谢家人对该项目的全身心支持。
  第2版致谢
  我们希望向UIUC数据挖掘小组以前和现在的所有成员表达我们的感谢;向伊利诺伊大学Urbana-Champaign分校计算机科学系的数据与信息系统实验室(DAIS)的教师和学生表示感谢;向许多朋友和同事表示感谢。他们始终不渝的支持使我们在第2版的工作受益匪浅。这些人包括Gul Agha, Rakesh Agrawal, Loretta Auvil, Peter Bajcsy, Geneva Belford, Deng Cai, Y. Dora Cai, Roy Cambell, Kevin C.-C. Chang, Surajit Chaudhuri, Chen Chen, Yixin Chen, Yuguo Chen, Hong Cheng, David Cheung, Shengnan Cong, Gerald DeJong, AnHai Doan, Guozhu Dong, Charios Ermopoulos, Martin Ester, Christos Faloutsos, Wei Fan, Jack C. Feng, Ada Fu, Michael Garland, Johannes Gehrke, Hector Gonzalez, Mehdi Harandi, Thomas Huang, Wen Jin, Chulyun Kim, Sangkyum Kim, Won Kim, Won-Young Kim, David Kuck, Young-Koo Lee, Harris Lewin, Xiaolei Li, Yifan Li, Chao Liu, Han Liu, Huan Liu, Hongyan Liu, Lei Liu, Ying Lu, Klara Nahrstedt, David Padua, Jian Pei, Lenny Pitt, Daniel Reed, Dan Roth, Bruce Schatz, Zheng Shao, Marc Snir, Zhaohui Tang, Bhavani M. Thuraisingham, Josep Torrellas, Peter Tzvetkov, Benjamin W. Wah, Haixun Wang, Jianyong Wang, Ke Wang, Muyuan Wang, Wei Wang, Michael Welge, Marianne Winslett, Ouri Wolfson, Andrew Wu, Tianyi Wu, Dong Xin, Xifeng Yan, Jiong Yang, Xiaoxin Yin, Hwanjo Yu, Jeffrey X. Yu, Philip S. Yu, Maria Zemankova, ChengXiang Zhai, Yuanyuan Zhou和Wei Zou。Deng Cai和ChengXiang Zhai对文本挖掘和Web挖掘两节,Xifeng Yan对图挖掘一节,Xiaoxin Yin对多重关系挖掘一节做出了贡献。Hong Cheng, Charios Ermopoulos, Hector Gonzalez, David J. Hill, Chulyun Kim, Sangkyum Kim, Chao Liu, Hongyan Liu, Kasif Manzoor, Tianyi Wu, Xifeng Yan和Xiaoxin Yin校阅了手稿的部分章节。
  我们还要感谢Morgan Kaufmann出版社发行人Diane Cerra在本书写作期间的热情、耐心和支持。我们感激该书的项目经理Alan Rose不知疲倦地和及时地与我们联系,安排出版过程的每个细节。我们对所有的评论者不胜感激,感谢他们的无价反馈。最后,我们感谢我们的家人对该项目的全身心支持。

封底文字

本书第2版在十分丰富和全面的第1版基础上进行了更新和改进,并增添了新的重要课题,例如挖掘流数据、挖掘社会网络和挖掘空间、多媒体和其他复杂数据。本书将是一本适用于数据挖掘和知识发现课程的优秀教材。
  ——Gregory Piatetsky-Shapiro, KDnuggets的总裁
  科学的飞速发展使产生和收集数据的能力快速增长。大多数商业、科学和政府事务的日益计算机化,数码相机、发布工具和条码的广泛应用都产生着大量的数据。在数据收集方面,扫描的文本和图像平台、卫星遥感系统和互联网已经使我们生活在海量的数据之中。这种爆炸性的数据增长促使我们比以往更迫切地需要新技术和自动化工具,以帮助我们将这些数据转换为有用的信息和知识。
  本书第1版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著,是一本可读性极佳的教材。它从数据库角度全面系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的技术研究进展,重点关注其可行性、有用性、有效性和可伸缩性问题。第1版出版之后,数据挖掘领域的研究又取得了很大的进展,开发出了新的数据挖掘方法、系统和应用。第2版在这方面进行了充实,增加了多个章节讲述最新的数据挖掘方法,以便能够挖掘出复杂类型的数据,包括流数据、序列数据、图结构数据、社会网络数据和多重关系数据。
  本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材,同时也适宜作为数据挖掘研究人员和相关专业人士的参考书。
  本书特点:
  ● 全面实用地论述了从实际业务数据中抽取出读者需要的概念和技术。
  ● 结合读者的反馈,反映数据挖掘领域的技术变化以及统计和机器学习方面的进展。
  ● 引入了许多算法和实现示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。

图书序言

我们被数据—科学数据、医疗数据、人口统计数据、金融数据和销售数据—所淹没。人们没有时间查看这些数据。人们的关注已经转到可贵的应付手段上。因此,我们必须找到有效方法,自动地分析数据、自动地对数据分类、自动地对数据汇总、自动地发现和描述数据中的趋势、自动地标记异常。这是数据库研究最活跃、最令人激动的领域之一。诸如统计学、可视化、人工智能和机器学习方面的研究者正在为开拓这个领域做出贡献。由于该领域非常广阔,很难把握它过去几十年的非凡进展。
  六年前,Jiawei Han和Micheline Kamber的原创性教科书将数据挖掘的内容组织在一起并呈现给读者。它预示了数据挖掘领域的创新黄金时代的到来。他们的书的新版反映了该领域的进展;一半以上的参考文献和历史注释都涉及当前的研究。这个领域已趋于成熟,出现了许多新的和改进的算法;该领域已经拓宽,融入了更多的数据类型:流、序列、图、时间序列、地理空间、音频、图像和视频。我们不仅可以肯定这个黄金时代尚未结束—实际上,数据挖掘研究和商业兴趣正在继续增长—而且,这本数据挖掘的现代著作的面世是我们所庆幸的。
  这本书首先提供数据库和数据挖掘概念的简略介绍,特别强调数据分析。然后,逐章介绍分类、预测、关联和聚类等概念和技术。这些主题辅以实例,对每类问题均提供代表性算法,并对每种技术应用给出注重实效的规则。这种苏格拉底式的表达风格具有很好的可读性,并且内容丰富。我已通过阅读第1版学到了许多,并且在阅读第2版时再次受益并更新了知识。
  Jiawei Han和Micheline Kamber在数据挖掘研究方面一直处于领先地位。这是一本他们用于培养自己的学生,以加快这个领域发展的教材。该领域发展非常迅速,这本书提供了一条学习基本思想和了解发展现状的快捷之路。我认为该书内容丰富、刺激,相信读者也会有同样的感触。
  Jim Gray
  Microsoft Research
  于美国加利福尼亚旧金山

作者简介

Jiawei Han;Micheline Kamber:Jiawei Han:  伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系教授。由于在数据挖掘和数据库系统领域卓有成效的研究工作,他曾多次获得各种荣誉和奖励,其中包括2004年ACM SIGKDD颁发的创新奖。同时,他还是《ACM Transactions on Knowledge Discovery from Data》杂志的主编,以及《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining and Knowledge Discovery》杂志的编委会成员。
Micheline Kamber: Micheline Kamber 拥有加拿大康考迪亚大学计算机科学硕士学位,现在加拿大西蒙-弗雷泽大学从事博士后研究工作。

译者简介

范明 孟小峰:暂无简介

译者序

数据挖掘是数据库研究、开发和应用最活跃的分支之一。这是很自然的事。数据库系统特别是关系数据库系统的成功,使得我们有了强有力的事务处理工具。在计算机的帮助下,人们可以把传统的事务处理做得更好。不满足现状是社会前进的动力。人类当然不会仅仅满足于让计算机做事务处理。从信息处理的角度,人们更希望用计算机帮助分析数据和理解数据,帮助他们基于丰富的数据做出决策。于是,数据挖掘—从大量数据中以非平凡的方法发现有用的知识—就成为一种自然的需求。正是这种需求引起了人们的关注,导致了数据挖掘研究的蓬勃发展。
  数据挖掘是一个多学科的交叉领域。这也是很自然的事。一方面,想要以非平凡的方法发现蕴藏在大型数据集中的有用知识,数据挖掘必须从数据库技术、统计学、机器学习、神经网络、模式识别、知识库系统、信息检索、高性能计算和可视化等学科领域汲取营养。另一方面,这些学科领域也要发展,也需要从不同角度关注数据的分析与理解;数据挖掘也为这些学科领域的发展带来了新的机遇和挑战。今天,数据挖掘已经不再仅仅是数据库的研究者和开发者关注的问题,它已经成为统计学、机器学习等诸多领域的研究者和开发者的热点课题之一,就连“数据挖掘”术语本身也已经成为这些学科领域的流行词汇。这种学科交叉融合引起的良性互动无疑会进一步促进诸学科的发展与繁荣。
  六年前,Jiawei Han和Micheline Kamber出版了数据挖掘领域具有里程碑意义的著作《数据挖掘:概念与技术》的第1版。随后,我们把该书翻译成中文版。六年以来,Jiawei Han教授多次来华讲学,国内许多大学也都纷纷开始开设数据挖掘课程,其中大部分学校使用该书的英文原版或中文版。我们高兴地看到数据挖掘的研究与应用在我国蓬勃兴起。许多学者和研究人员都对这个新兴的学科领域表现出了极大的兴趣,他们不仅来自数据库领域,而且包括统计学、人工智能和模式识别、机器学习等领域的研究者。国内的学者和研究者在数据挖掘方面的研究已经取得了一些令人鼓舞的成果,并且正在逐渐与国际学术界同步。
  过去的六年是数据挖掘研究与应用迅猛发展的六年:新的和改进的算法不断出现,所考察的数据类型日趋丰富,应用领域逐渐扩大。虽然所挖掘的基本知识类型并未增加很多,但是新的应用需要我们处理更加丰富的数据类型,如流、序列、图、时间序列、地理空间、音频、图像和视频,因此需要新的技术。例如,流数据的关联、分类和聚类需要处理可能无限的数据,需要考虑数据的分布随时间的演变。Web页面的分类不仅需要考虑页面本身的特征,而且需要考虑页面的链接和被链接的页面的特征。在第2版,作者压缩了不太重要的章节,用许多新的主题、概念、算法和技术更新和加强了第1版,以反映近年来数据挖掘研究与应用的最新进展。一半以上的内容是新增加的或被更新的,一半以上的参考文献和历史注释都涉及当前的研究。
  正如Jim Gray所指出的,六年前Jiawei Han和Micheline Kamber的原创著作的出版“预示了数据挖掘领域的创新黄金时代的到来。”今天,“我们不仅可以肯定这个黄金时代尚未结束—数据挖掘研究和商业兴趣确实在继续增长—而且我们都幸运地有了这本数据挖掘的现代著作。”
  Jiawei Han(韩家炜)教授早年就读于郑州大学,后赴美国留学,在威斯康辛大学获硕士和博士学位。他曾先后在美国西北大学、加拿大西蒙·弗雷泽大学任教,现在是美国伊利诺伊大学Urbana-Champaign分校计算机科学系教授。Jiawei Han教授是数据挖掘和数据库系统领域的国际知名学者,ACM会士。他曾因在该领域的杰出贡献多次获奖,包括2004 ACM SIGKDD创新奖,2005 IEEE 计算机学会技术成就奖。他是国际著名杂志ACM Transactions on Knowledge Discovery from Data的主编,包括IEEE Transactions on Knowledge and Data Enginerring和Data Mining and Knowledge Discovery在内的多种国际著名杂志的编委。
  第2版包括11章和一个附录。第1~6章、附录和索引由范明翻译,第7~11章由孟小峰和范明合作翻译。全书的译文由范明负责统一定稿。
  徐华、叶阳东、姬安明、王静、李盛恩、李翠萍等参加了第1版的部分翻译工作,马玉书、董云海对第1版的部分译稿提出了很好的修改意见;第1版的许多读者都提出了许多宝贵的意见和建议;译者的许多同事、朋友和学生阅读了第2版的部分译稿,并提出了一些建议和意见,在此一并表示感谢。特别感谢昝红英博士和范宏建博士,他们仔细阅读了第2版的部分译稿,并提出了许多很好的建议,订正了部分翻译错误。
  感谢本书的作者韩家炜教授。无论是第1版还是第2版的翻译都得到了他的大力支持,他提供的方便使得本书的翻译工作能够在第一时间进行。韩家炜教授还专门为第2版的中文版撰写了序言。
  感谢机械工业出版社华章分社的编辑们,是他们的远见使得本书能够尽快与读者见面。
  在第2版的翻译中,我们重新调整了部分术语的翻译。由于本书是从数据库角度介绍数据挖掘的概念与技术,因此大部分术语采用数据库文献的习惯译法。然而,数据挖掘是一个多学科的交叉领域,其中许多研究都建立在统计学、机器学习等学科领域的长期工作的基础之上,因此,凡是在统计学和机器学习有习惯译法的术语,都沿用习惯译法。读过第1版的读者不难发现,第2版出现了许多新术语,这些术语尚无固定译法。尽管我们力图为它们选择简洁、达义的中文用语,但仍然难免出现词不达义之处。译文中的错误和不当之处,敬请读者朋友指正。意见请发往mfan@zzu.edu.cn,我们将不胜感激。
  我们将尽快向采用本书的教师提供讲稿和其他辅助支持。希望读者喜欢这本译著,希望这本译著有助于进一步推动我国的数据挖掘研究与应用的深入开展。
  范  明,孟小峰
  2006年9月

图书目录

出版者的话
专家指导委员会
中文版序
译者序

前言
第1章  引言 1
1.1  什么激发了数据挖掘,为什么它是重要的 1
1.2  什么是数据挖掘 3
1.3  对何种数据进行数据挖掘 6
1.3.1  关系数据库 6
1.3.2  数据仓库 8
1.3.3  事务数据库 10
1.3.4  高级数据和信息系统与高级应用 10
1.4  数据挖掘功能—可以挖掘什么类型的模式 14
1.4.1  概念/类描述:特征化和区分 14
1.4.2  挖掘频繁模式、关联和相关 15
1.4.3  分类和预测 15
1.4.4  聚类分析 17
1.4.5  离群点分析 17
1.4.6  演变分析 18
1.5  所有模式都是有趣的吗 18
1.6  数据挖掘系统的分类 19
1.7  数据挖掘任务原语 20
1.8  数据挖掘系统与数据库系统或数据仓库系统的集成 22
1.9  数据挖掘的主要问题 23
1.10  小结 25
习题 26
文献注释 27
第2章  数据预处理 30
2.1  为什么要预处理数据 30
2.2  描述性数据汇总 32
2.2.1  度量数据的中心趋势 32
2.2.2  度量数据的离散程度 34
2.2.3  基本描述数据汇总的图形显示 36
2.3  数据清理 39
2.3.1  缺失值 39
2.3.2  噪声数据 40
2.3.3  数据清理作为一个过程 41
2.4  数据集成和变换 43
2.4.1  数据集成 43
2.4.2  数据变换 45
2.5  数据归约 47
2.5.1  数据立方体聚集 47
2.5.2  属性子集选择 48
2.5.3  维度归约 49
2.5.4  数值归约 51
2.6  数据离散化和概念分层产生 55
2.6.1  数值数据的离散化和概念分层产生 56
2.6.2  分类数据的概念分层产生 60
2.7  小结 62
习题 62
文献注释 65
第3章  数据仓库与OLAP技术概述 67
3.1  什么是数据仓库 67
3.1.1  操作数据库系统与数据仓库的区别 68
3.1.2  为什么需要分离的数据仓库 69
3.2  多维数据模型 70
3.2.1  由表和电子数据表到数据立方体 70
3.2.2  星形、雪花形和事实星座形模式:多维数据库模式 72
3.2.3  定义星形、雪花形和事实星座形模式的例子 75
3.2.4  度量的分类和计算 76
3.2.5  概念分层 77
3.2.6  多维数据模型中的OLAP操作 79
3.2.7  查询多维数据库的星形网查询模型 81
3.3  数据仓库的系统结构 82
3.3.1  数据仓库的设计和构造步骤 82
3.3.2  三层数据仓库的系统结构 83
3.3.3  数据仓库后端工具和实用程序 85
3.3.4  元数据储存库 86
3.3.5  OLAP服务器类型:ROLAP、
MOLAP与HOLAP 86
3.4  数据仓库实现 88
3.4.1  数据立方体的有效计算 88
3.4.2  索引OLAP数据 90
3.4.3  OLAP查询的有效处理 92
3.5  从数据仓库到数据挖掘 93
3.5.1  数据仓库的使用 93
3.5.2  由联机分析处理到联机分析挖掘 95
3.6  小结 96
习题 97
文献注释 99
第4章  数据立方体计算与数据泛化 101
4.1  数据立方体计算的有效方法 101
4.1.1  不同类型立方体物化的路线图 101
4.1.2  完全立方体计算的多路数组聚集 105
4.1.3  BUC:从顶点方体向下计算冰山立方体 108
4.1.4  Star-Cubing:使用动态星形树结构计算冰山立方体 111
4.1.5  为快速高维OLAP预计算壳片段 116
4.1.6  计算具有复杂冰山条件的立方体 121
4.2  数据立方体和OLAP技术的进一步发展 122
4.2.1  数据立方体的发现驱动的探查 122
4.2.2  在多粒度的复杂聚集:多特征立方体 124
4.2.3  数据立方体中被约束的梯度分析 126
4.3  面向属性的归纳—另一种数据泛化和概念描述方法 128
4.3.1  数据特征化的面向属性的归纳 129
4.3.2  面向属性归纳的有效实现 132
4.3.3  导出泛化的表示 133
4.3.4  挖掘类比较:区分不同的类 136
4.3.5  类描述:特征化和比较的表示 139
4.4  小结 140
习题 141
文献注释 144
第5章  挖掘频繁模式、关联和相关 146
5.1  基本概念和路线图 146
5.1.1  购物篮分析:引发性例子 146
5.1.2  频繁项集、闭项集和关联规则 147
5.1.3  频繁模式挖掘:路线图 149
5.2  有效的和可伸缩的频繁项集挖掘方法 150
5.2.1  Apriori算法:使用候选产生发现频繁项集 151
5.2.2  由频繁项集产生关联规则 154
5.2.3  提高Apriori算法的效率 155
5.2.4  不候选产生挖掘频繁项集 156
5.2.5  使用垂直数据格式挖掘频繁项集 159
5.2.6  挖掘闭频繁项集 160
5.3  挖掘各种类型的关联规则 162
5.3.1  挖掘多层关联规则 162
5.3.2  从关系数据库和数据仓库挖掘多维关联规则 164
5.4  由关联挖掘到相关分析 168
5.4.1  强关联规则不一定有趣:一个例子 168
5.4.2  从关联分析到相关分析 168
5.5  基于约束的关联挖掘 172
5.5.1  关联规则的元规则制导挖掘 172
5.5.2  约束推进:规则约束制导的挖掘 173
5.6  小结 176
习题 177
文献注释 181
第6章  分类和预测 184
6.1  什么是分类,什么是预测 184
6.2  关于分类和预测的问题 186
6.2.1  为分类和预测准备数据 186
6.2.2  比较分类和预测方法 187
6.3  用决策树归纳分类 188
6.3.1  决策树归纳 189
6.3.2  属性选择度量 191
6.3.3  树剪枝 196
6.3.4  可伸缩性与决策树归纳 198
6.4  贝叶斯分类 200
6.4.1  贝叶斯定理 201
6.4.2  朴素贝叶斯分类 201
6.4.3  贝叶斯信念网络 204
6.4.4  训练贝叶斯信念网络 205
6.5  基于规则的分类 206
6.5.1  使用IF-THEN规则分类 206
6.5.2  从决策树提取规则 208
6.5.3  使用顺序覆盖算法的规则归纳 209
6.6  用后向传播分类 212
6.6.1 多层前馈神经网络 213
6.6.2  定义网络拓扑 213
6.6.3  后向传播 214
6.6.4  黑盒内部:后向传播和可解释性 218
6.7  支持向量机 219
6.7.1  数据线性可分的情况 219
6.7.2  数据非线性可分的情况 222
6.8  关联分类:基于关联规则分析的分类 224
6.9  惰性学习法(或从近邻学习) 226
6.9.1  k最近邻分类法 226
6.9.2  基于案例的推理 228
6.10  其他分类方法 228
6.10.1  遗传算法 228
6.10.2  粗糙集方法 229
6.10.3  模糊集方法 229
6.11  预测 231
6.11.1  线性回归 231
6.11.2  非线性回归 233
6.11.3  其他基于回归的方法 234
6.12  准确率和误差的度量 234
6.12.1  分类器准确率度量 234
6.12.2  预测器误差度量 236
6.13  评估分类器或预测器的准确率 237
6.13.1  保持方法和随机子抽样 237
6.13.2  交叉确认 238
6.13.3  自助法 238
6.14  系综方法—提高准确率 238
6.14.1  装袋 239
6.14.2  提升 240
6.15  模型选择 241
6.15.1  估计置信区间 242
6.15.2  ROC 曲线 243
6.16  小结 244
习题 245
文献注释 247
第7章  聚类分析 251
7.1  什么是聚类分析 251
7.2  聚类分析中的数据类型 253
7.2.1  区间标度变量 253
7.2.2  二元变量 255
7.2.3  分类、序数和比例标度变量 256
7.2.4  混合类型的变量 259
7.2.5  向量对象 260
7.3  主要聚类方法的分类 261
7.4  划分方法 263
7.4.1  典型的划分方法:k均值和k中心点 263
7.4.2  大型数据库的划分方法:从k中心点到CLARANS 266
7.5  层次方法 267
7.5.1  凝聚和分裂层次聚类 267
7.5.2  BIRCH:利用层次方法的平衡迭代归约和聚类 269
7.5.3  ROCK:分类属性的层次聚类算法 271
7.5.4  Chameleon:利用动态建模的层次聚类算法 272
7.6  基于密度的方法 273
7.6.1  DBSCAN:一种基于高密度连通区域的基于密度的聚类方法 273
7.6.2  OPTICS:通过点排序识别聚类结构 275
7.6.3  DENCLUE:基于密度分布函数的聚类 276
7.7  基于网格的方法 278
7.7.1  STING:统计信息网格 278
7.7.2  WaveCluster:利用小波变换聚类 279
7.8  基于模型的聚类方法 280
7.8.1  期望最大化方法 280
7.8.2  概念聚类 281
7.8.3  神经网络方法 283
7.9  聚类高维数据 284
7.9.1  CLIQUE:维增长子空间聚类方法 285
7.9.2  PROCLUS:维归约子空间聚类方法 287
7.9.3  基于频繁模式的聚类方法 287
7.10  基于约束的聚类分析 290
7.10.1  含有障碍物的对象聚类 291
7.10.2  用户约束的聚类分析 293
7.10.3  半监督聚类分析 293
7.11  离群点分析 295
7.11.1  基于统计分布的离群点检测 295
7.11.2  基于距离的离群点检测 296
7.11.3  基于密度的局部离群点检测 298
7.11.4  基于偏差的离群点检测 299
7.12  小结 300
习题 301
文献注释 303
第8章  挖掘流、时间序列和序列数据 306
8.1  挖掘数据流 306
8.1.1  流数据处理方法和流数据系统 307
8.1.2  流OLAP和流数据立方体 310
8.1.3  数据流中的频繁模式挖掘 314
8.1.4  动态数据流的分类 315
8.1.5  聚类演变数据流 318
8.2  时间序列数据挖掘 320
8.2.1  趋势分析 320
8.2.2  时间序列分析中的相似性搜索 323
8.3  挖掘事务数据库中的序列模式 325
8.3.1  序列模式挖掘:概念和原语 326
8.3.2  挖掘序列模式的可伸缩方法 327
8.3.3  基于约束的序列模式挖掘 333
8.3.4  时间相关序列数据的周期性分析 335
8.4  挖掘生物学数据中的序列模式 336
8.4.1  生物学序列比对 336
8.4.2  生物学序列分析的隐马尔可夫模型 339
8.5  小结 345
习题 346
文献注释 348
第9章  图挖掘、社会网络分析和多关系数据挖掘 351
9.1  图挖掘 351
9.1.1  挖掘频繁子图的方法 351
9.1.2  挖掘变体和约束子结构的模式 357
9.1.3  应用:图索引、相似性搜索、分类和聚类 361
9.2  社会网络分析 363
9.2.1  什么是社会网络 363
9.2.2  社会网络的特征 365
9.2.3  链接挖掘:任务和挑战 367
9.2.4  挖掘社会网络 369
9.3  多关系数据挖掘 373
9.3.1  什么是多关系数据挖掘 373
9.3.2  多关系分类的ILP方法 375
9.3.3  元组ID传播 376
9.3.4  利用元组ID传播进行多关系分类 377
9.3.5  用户指导的多关系聚类 379
9.4  小结 382
习题 383
文献注释 384
第10章  挖掘对象、空间、多媒体、文本和Web数据 386
10.1  复杂数据对象的多维分析和描述性挖掘 386
10.1.1  结构化数据的泛化 386
10.1.2  空间和多媒体数据泛化中的聚集和近似 387
10.1.3  对象标识和类/子类层次的泛化 388
10.1.4  类复合层次泛化 388
10.1.5  对象立方体的构造与挖掘 389
10.1.6  用分治法对规划数据库进行基于泛化的挖掘 389
10.2  空间数据挖掘 391
10.2.1  空间数据立方体构造和空间OLAP 392
10.2.2  挖掘空间关联和并置模式 395
10.2.3  空间聚类方法 396
10.2.4  空间分类和空间趋势分析 396
10.2.5  挖掘光栅数据库 396
10.3  多媒体数据挖掘 396
10.3.1  多媒体数据的相似性搜索 396
10.3.2  多媒体数据的多维分析 397
10.3.3  多媒体数据的分类和预测分析 399
10.3.4  挖掘多媒体数据中的关联 399
10.3.5  音频和视频数据挖掘 400
10.4  文本挖掘 401
10.4.1  文本数据分析和信息检索 401
10.4.2  文本的维度归约 405
10.4.3  文本挖掘方法 407
10.5  挖掘万维网 410
10.5.1  挖掘Web页面布局结构 411
10.5.2  挖掘Web链接结构识别权威Web页面 413
10.5.3  挖掘Web上的多媒体数据 416
10.5.4  Web文档的自动分类 418
10.5.5  Web使用挖掘 418
10.6  小结 419
习题 420
文献注释 421
第11章  数据挖掘的应用和发展趋势 424
11.1  数据挖掘的应用 424
11.1.1  金融数据分析的数据挖掘 424
11.1.2  零售业的数据挖掘 425
11.1.3  电信业的数据挖掘 426
11.1.4  生物学数据分析的数据挖掘 427
11.1.5  其他科技应用的数据挖掘 428
11.1.6  入侵检测的数据挖掘 429
11.2  数据挖掘系统产品和研究原型 430
11.2.1  如何选择数据挖掘系统 431
11.2.2  商用数据挖掘系统的实例 432
11.3  数据挖掘的其他主题 433
11.3.1  数据挖掘的理论基础 434
11.3.2  统计学数据挖掘 434
11.3.3  可视数据和音频数据挖掘 435
11.3.4  数据挖掘和协同过滤 440
11.4  数据挖掘的社会影响 440
11.4.1  无处不在和无形的数据挖掘 441
11.4.2  数据挖掘、隐私和数据安全 443
11.5  数据挖掘的发展趋势 445
11.6  小结 446
习题 447
文献注释 449
附录  微软用于数据挖掘的OLE DB简介 452
A.1  模型创建 453
A.2  模型训练 454
A.3  模型预测和浏览 456
索引 460

教学资源推荐
作者: Philip M. Lewis, Arthur Bernstein, Michael Kifer
作者: 彭智勇 彭煜玮 编著
作者: Nello Cristianini John Shawe-Taylor
作者: 张玉洁 孟祥武 编著
参考读物推荐
作者: (美)Roger E.Sanders
作者: (美)Scott Urman