首页>参考读物>计算机科学与技术>软件与程序设计

R语言数据挖掘
作者 : (哈萨克斯坦)贝特·麦克哈贝尔(Bater Makhabel) 著
译者 : 李洪成 许金炜 段力辉 译
出版日期 : 2016-10-27
ISBN : 978-7-111-54769-3
定价 : 49.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 219
开本 : 16
原书名 : Learning Data Mining with R
原出版社: Packt Publishing Ltd.
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

图书特色

系统阐述使用最常用的数据挖掘算法解决预测建模问题的实用策略
提供实用的R语言编程技巧,并给出各算法的R实现源码

在复杂的统计项目中,你可能会遇到一系列问题,并且要处理这些问题可能会比较困难。如果你只掌握一些基本的R语言知识,那么本书将为你提供成功创建和定制最流行的数据挖掘算法所需的技能和知识,从而克服这些困难。
  
书中不仅详细介绍了如何使用R语言代码来处理数据,以及在使用R语言工作时引入频繁模式、关联和相关性挖掘,还讲解了如何编写各种预测模型、流数据和时间序列数据的代码;同时,书中还介绍了如何用R语言为基于RHadoop的项目编写解决方案。通过阅读本书,你将对自己在何种情况下应该使用哪种数据挖掘算法的能力充满自信。

通过阅读本书,你将学到:
如何使用R语言代码处理数据
使用R语言编写顶级分类算法
图像挖掘和网络分析领域的最佳实践
找到具有R语言适当支持的文本挖掘和网络数据挖掘的解决方案
使用R语言编写空间数据挖掘、文本挖掘和网络数据挖掘的算法
使用R语言编写基于RHadoop项目的解决方案


作者简介
贝特·麦克哈贝尔(Bater Makhabel)
资深系统架构师,在机器学习、数据挖掘、自然语言处理、分布式系统、嵌入式系统、Web、移动开发、算法、应用数学和统计领域有着丰富的经验。他服务过的客户包括CA Technologies、META4ALL和EDA (DFR的一个子公司)。

内容简介
本书旨在帮你处理复杂的统计项目中可能遇到的一系列比较困难的问题,全面系统地阐述现今流行的数据挖掘算法,并给出这些算法的R语言实现。同时,书中还提供了使用数据挖掘算法解决预测建模问题的实用策略和技巧,可以帮助你深入理解数据挖掘算法,提升R语言编程技能。
全书共10章:第1章是数据挖掘的概要,阐述数据挖掘与机器学习、统计学的关系,以及数据挖掘方面的基本知识;第2章讲解如何用R语言挖掘频繁模式、关联规则及相关性;第3章介绍当前主流的分类算法,包括分类器实际表现性能及准确率判别基准;第4章介绍几种高级分类算法及其R语言的实现;第5章介绍如何用R实现聚类的经典算法;第6章介绍如何用R实现聚类的顶级算法,并提供了评估、基准、度量工具;第7章介绍如何编写R代码来检测真实世界情形中的异常值;第8章介绍如何编写关于流数据、时间序列数据和序列数据的挖掘代码;第9章介绍如何在R中编写算法进行图挖掘和网络分析;第10章介绍如何在R中编写算法进行文本挖掘与网络数据挖掘。

图书前言

世界各地的统计学家和分析师正面临着处理许多复杂统计分析项目的迫切问题。由于人们对数据分析领域的兴趣日益增加,所以R语言提供了一个免费且开源的环境,非常适合学习和有效地利用现实世界中的预测建模方案。随着R语言社区的不断发展及其大量程序包的不断增加,它具备了解决众多实际问题的强大功能。
R编程语言诞生已经有数十年了,它已经变得非常知名,不但被社区的科学家而且被更广泛的开发者社区所熟知。它已经成长为一个强大的工具,可以帮助开发者在执行数据相关任务时生成有效且一致的源代码。由于R语言开发团队和独立贡献者已经创建了良好的文档,所以使用R语言编程并不困难。
进而,你可以使用来自R语言官方网站的程序包。如果你想不断提高自己的专业水平,那么你可能需要阅读在过去几年中已经出版的书籍。你应该始终铭记:创建高水平、安全且国际兼容的代码比初始创建的第一个应用程序更加复杂。
本书的目的是帮助你处理在复杂的统计项目中遇到的一系列可能比较困难的问题。本书的主题包括:学习在运行R语言程序时,如何使用R代码段处理数据,挖掘频繁模式、关联规则和相关规则。本书还为那些具有R语言基础的读者提供了成功创建和自定义最常用数据挖掘算法的技能和知识。这将有助于克服困难,并确保在运用R语言公开可用的丰富程序包开发数据挖掘算法时,R编程语言能够得到最有效的使用。
本书的每一章是独立存在的,因此你可以自由地跳转到任何一章,学习你觉得自己需要对某个特定的话题进行更加深入了解的章节。如果你觉得自己遗漏了一些重要的知识,你可以回顾前面的章节。本书的组织方式有助于逐步拓展你的知识框架。
你需要了解如何编写不同的预测模型、流数据和时间序列数据的代码,同时你还会接触到基于MapReduce算法(一种编程模型)的解决方案。学完本书,你将会为自己所具备的能力(知道哪种数据挖掘算法应用于哪种情况)而感到自信。
我喜欢使用R编程语言进行多用途数据挖掘任务的开发与研究,我非常高兴能与大家分享我的热情和专业知识,帮助大家更有效地使用R语言,更舒适地使用数据挖掘算法的发展成果与应用。
本书主要内容
第1章阐述数据挖掘的概要知识,数据挖掘与机器学习、统计学的关系,介绍数据挖掘基本术语,如数据定义和预处理等。
第2章包含使用R语言编程时,学习挖掘频繁模式、关联规则和相关规则所需的高级且有趣的算法。
第3章帮助你学习使用R语言编写经典分类算法,涵盖了应用于不同类型数据集的多种分类算法。
第4章讲述更多的分类算法,如贝叶斯信念网络、支持向量机(SVM)和k近邻算法。
第5章讲述如何使用流行与经典的算法进行聚类,如k均值、CLARA和谱算法。
第6章介绍与当前行业热点话题相关的高级聚类算法的实现,如EM、CLIQUE和DBSCAN等。
第7章介绍如何应用经典和流行算法来检测现实世界案例中的异常值。
第8章运用最流行、最经典以及一流的算法来讲解流数据、时间序列和序列数据挖掘这3个热点话题。
第9章介绍图挖掘和社交挖掘算法的概要及其他有趣的话题。
第10章介绍应用领域中最流行算法的有趣应用。
附录包含算法和数据结构的列表以便帮助你学习数据挖掘。
学习本书的准备知识
任何一台装有Windows、Linux或者Mac OS系统的个人计算机都可以运行本书给出的代码示例。本书所使用的软件都是开源的,可以从http://www.r-project.org/上免费获取。
读者对象
本书适合对R语言和统计学具有基本知识的数据科学家、定量分析师和软件工程师。本书假定读者只熟悉非常基本的R语言知识,如主要的数据类型、简单的函数和如何来回移动数据。不需要先前熟悉数据挖掘软件包。但是,你应该对数据挖掘的概念和过程有基本的认知。
即使你对于数据挖掘完全是一个新人,你也能够同时掌握基本和高级的数据挖掘算法的实现。你将学习如何从各种数据挖掘算法中选择合适的算法,将这些算法应用于现实世界可用的大多数数据集中的某些特定数据集中。
约定
本书中,你将发现多种文字印刷格式,它们用于对不同类型的信息进行区分。下面是关于这些格式的一些例子以及它们的含义。
文本中的代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter ID如下所示:“我们可以通过使用include指令来包含其他的上下文。”
新的术语和重要词用粗体标示。例如,在屏幕上、菜单中或者对话框中看到的词将这样出现在文本中:“单击Next按钮进入下一个界面。”
警告或者重要的说明将会出现在这样的图标后面。

提示或技巧将会出现在这样的图标后面。

读者反馈
读者的反馈始终是受欢迎的。让我们知道你如何看待本书——你喜欢哪些内容或者你可能不喜欢哪些内容。读者的反馈对于我们制定使读者真正获得最大效用的主题是十分重要的。
可以通过发送电子邮件至邮箱feedback@packtpub.com,并在电子邮件的主题中提及书名来给我们提供意见。
如果你对于某个主题有专长,或者你有兴趣编写一本书或协助完成一本书,可以到网站www.packtpub.com/authors看一看我们的撰稿指南。
客户支持
既然你现在自豪地拥有了一本Packt书,那么我们可以做很多事来帮助你充分利用你购买的书籍。
下载示例代码
你可以从你在http://www.packtpub.com网站的账户上下载所有你已经购买的Packt书的示例代码。如果你在其他地方购买本书,你可以访问http://www.packtpub.com/support网站并注册,我们将通过电子邮件直接给你发送文件。你也可以在网站https://github.com/batermj/learning-data-mining-with-r找到本书的代码文件。
勘误表
虽然我们已经尽力确保书中内容的准确性,但错误难免会发生。如果你在我们的某一本书中发现错误(可能是文本或者代码中的错误)并向我们报告错误,我们将不胜感激。由此,你可以使其他读者免于困惑并帮助我们改进该书的后续版本。如果你发现任何错误,请通过访问http://www.packtpub.com/submit-errata网站,选择相应图书,单击errata submission form(勘误提交表单)的链接,并输入错误的详细信息以便报告给我们。一旦你的错误得到验证,你的提交将被接受并上传到我们的网站,或者添加到现有的勘误表中,列于该标题下的勘误表部分。任何现有的勘误表均可从http://www.packtpub.com/support网站上选择你所需要的标题进行查看。
盗版行为
因特网上版权材料的盗版行为是所有媒介一直存在的问题。在Packt,我们非常重视对版权和许可证的保护。如果你在网络上遇到任何形式非法复制我们著作的行为,请立刻向我们提供位置地址或者网站名称以便我们能够寻找补救方法。
我们的联系方式是copyright@packtpub.com,请一并附上关于涉嫌盗版材料的链接。
我们非常感谢你对我们的作者以及我们为你带来有价值内容的能力的保护。
问题
如果你对本书有任何方面的问题,可以联系我们(questions@packtpub.com),我们将竭尽所能帮助你解决。

上架指导

计算机\数据挖掘

封底文字

在复杂的统计项目中,你可能会遇到一系列问题,并且要处理这些问题可能会比较困难。如果你只掌握一些基本的R语言知识,那么本书将为你提供成功创建和定制最流行的数据挖掘算法所需的技能和知识,从而克服这些困难。
  
  书中不仅详细介绍了如何使用R代码来处理数据,以及在使用R语言工作时引入频繁模式、关联和相关性挖掘,还讲解了如何编写各种预测模型、流数据和时间序列数据的代码;同时,你还介绍了如何用R语言为基于RHadoop的项目编写解决方案。通过阅读本书,你将对自己在何种情况下应该使用哪种数据挖掘算法的能力充满自信。


通过阅读本书,你将学到:
 如何使用R代码处理数据
 用R语言编写的顶级分类算法
 图像挖掘和网络分析领域的最佳实践
 找到具有R语言适当支持的文本挖掘和网络数据挖掘的解决方案
 使用R语言编写空间数据挖掘、文本挖掘和网络数据挖掘的算法
 使用R语言编写基于RHadoop项目的解决方案

作者简介

(哈萨克斯坦)贝特·麦克哈贝尔(Bater Makhabel) 著:暂无简介

译者简介

李洪成 许金炜 段力辉 译:暂无简介

译者序

随着互联网中文档的快速积累,在网络中获取一些有用的信息变得愈发困难。本书收集了数据挖掘的一些最常用算法,首先对这些算法进行简单描述,然后给出了这些算法的常见应用背景,以方便数据挖掘用户学习和参考。对于关联规则、分类、聚类分析、异常值检测、数据流挖掘、时间序列、图形挖掘、网络分析、文本挖掘和网络分析等流行的数据挖掘算法,给出了较为详尽的介绍,并且给出了这些算法的伪代码和R语言实现。
本书提供了应用最流行的数据挖掘算法解决预测模型问题的可行策略,读者可以从中更好地理解主流的预测模型,也可以学习数据挖掘的实际经验。
本书第1章介绍数据挖掘、机器学习和数据预处理的基本概念;第2章介绍频繁模式挖掘、关联规则和相关性;第3章和第4章分别介绍分类和高级分类技术;第5章和第6章分别介绍聚类分析算法和高级聚类分析算法;第7章讨论异常值检测;第8章介绍流数据、时间序列数据及序列数据挖掘;第9章讨论图挖掘和网络分析;第10章介绍文本和网络数据挖掘。
读者可以从书中给出的伪代码出发,构建适合自己需要的算法;或者直接应用随书提供的R语言实现的算法。本书适合对数据挖掘感兴趣的各类人士,不管你是数据挖掘算法的研究人员,还是数据挖掘工程师,本书都可以提供相应的帮助。
本书的翻译得到了广西高校数据分析与计算重点实验室的资助。在本书的翻译过程中,得到了王春华编辑的大力支持和帮助。本书责任编辑盛思源老师具有丰富的经验,为本书的出版付出了大量的劳动,这里对她们的支持和帮助表示衷心的感谢。
由于时间和水平所限,难免会有不当之处,希望同行和读者多加指正。

译者

图书目录

译者序
作者简介
审校者简介
前言
致谢
第1章 预备知识 1
1.1 大数据 2
1.2 数据源 3
1.3 数据挖掘 4
1.3.1 特征提取 4
1.3.2 总结 4
1.3.3 数据挖掘过程 5
1.4 社交网络挖掘 7
1.5 文本挖掘 9
1.5.1 信息检索和文本挖掘 10
1.5.2 文本挖掘预测 10
1.6 网络数据挖掘 10
1.7 为什么选择R 12
1.8 统计学 12
1.8.1 统计学与数据挖掘 13
1.8.2 统计学与机器学习 13
1.8.3 统计学与R语言 13
1.8.4 数据挖掘中统计学的局限性 13
1.9 机器学习 13
1.9.1 机器学习方法 14
1.9.2 机器学习架构 14
1.10 数据属性与描述 15
1.10.1 数值属性 16
1.10.2 分类属性 16
1.10.3 数据描述 16
1.10.4 数据测量 17
1.11 数据清洗 18
1.11.1 缺失值 18
1.11.2 垃圾数据、噪声数据或异常值 19
1.12 数据集成 19
1.13 数据降维 20
1.13.1 特征值和特征向量 20
1.13.2 主成分分析 20
1.13.3 奇异值分解 20
1.13.4 CUR分解 21
1.14 数据变换与离散化 21
1.14.1 数据变换 21
1.14.2 标准化数据的变换方法 22
1.14.3 数据离散化 22
1.15 结果可视化 23
1.16 练习 24
1.17 总结 24
第2章 频繁模式、关联规则和相关规则挖掘 25
2.1 关联规则和关联模式概述 26
2.1.1 模式和模式发现 26
2.1.2 关系或规则发现 29
2.2 购物篮分析 30
2.2.1 购物篮模型 31
2.2.2 Apriori算法 31
2.2.3 Eclat算法 35
2.2.4 FP-growth算法 37
2.2.5 基于最大频繁项集的GenMax算法 41
2.2.6 基于频繁闭项集的Charm算法 43
2.2.7 关联规则生成算法 44
2.3 混合关联规则挖掘 46
2.3.1 多层次和多维度关联规则挖掘 46
2.3.2 基于约束的频繁模式挖掘 47
2.4 序列数据集挖掘 48
2.4.1 序列数据集 48
2.4.2 GSP算法 48
2.5 R语言实现 50
2.5.1 SPADE算法 51
2.5.2 从序列模式中生成规则 52
2.6 高性能算法 52
2.7 练习 53
2.8 总结 53
第3章 分类 54
3.1 分类 55
3.2 通用决策树归纳法 56
3.2.1 属性选择度量 58
3.2.2 决策树剪枝 59
3.2.3 决策树生成的一般算法 59
3.2.4 R语言实现 61
3.3 使用ID3算法对高额度信用卡用户分类 61
3.3.1 ID3算法 62
3.3.2 R语言实现 64
3.3.3 网络攻击检测 64
3.3.4 高额度信用卡用户分类 66
3.4 使用C4.5算法进行网络垃圾页面检测 66
3.4.1 C4.5算法 67
3.4.2 R语言实现 68
3.4.3 基于MapReduce的并行版本 69
3.4.4 网络垃圾页面检测 70
3.5 使用CART算法判断网络关键资源页面 72
3.5.1 CART算法 73
3.5.2 R语言实现 74
3.5.3 网络关键资源页面判断 74
3.6 木马程序流量识别方法和贝叶斯分类 75
3.6.1 估计 75
3.6.2 贝叶斯分类 76
3.6.3 R语言实现 77
3.6.4 木马流量识别方法 77
3.7 垃圾邮件识别和朴素贝叶斯分类 79
3.7.1 朴素贝叶斯分类 79
3.7.2 R语言实现 80
3.7.3 垃圾邮件识别 80
3.8 基于规则的计算机游戏玩家类型分类和基于规则的分类 81
3.8.1 从决策树变换为决策规则 82
3.8.2 基于规则的分类 82
3.8.3 序列覆盖算法 83
3.8.4 RIPPER算法 83
3.8.5 计算机游戏玩家类型的基于规则的分类 85
3.9 练习 86
3.10 总结 86
第4章 高级分类算法 87
4.1 集成方法 87
4.1.1 Bagging算法 88
4.1.2 Boosting和AdaBoost算法 89
4.1.3 随机森林算法 91
4.1.4 R语言实现 91
4.1.5 基于MapReduce的并行版本 92
4.2 生物学特征和贝叶斯信念网络 92
4.2.1 贝叶斯信念网络算法 93
4.2.2 R语言实现 94
4.2.3 生物学特征 94
4.3 蛋白质分类和k近邻算法 94
4.3.1 kNN算法 95
4.3.2 R语言实现 95
4.4 文档检索和支持向量机 95
4.4.1 支持向量机算法 97
4.4.2 R语言实现 99
4.4.3 基于MapReduce的并行版本 99
4.4.4 文档检索 100
4.5 基于频繁模式的分类 100
4.5.1 关联分类 100
4.5.2 基于判别频繁模式的分类 101
4.5.3 R语言实现 101
4.5.4 基于序列频繁项集的文本分类 102
4.6 基于反向传播算法的分类 102
4.6.1 BP算法 104
4.6.2 R语言实现 105
4.6.3 基于MapReduce的并行版本 105
4.7 练习 106
4.8 总结 107
第5章 聚类分析 108
5.1 搜索引擎和k均值算法 110
5.1.1 k均值聚类算法 111
5.1.2 核k均值聚类算法 112
5.1.3 k模式聚类算法 112
5.1.4 R语言实现 113
5.1.5 基于MapReduce的并行版本 113
5.1.6 搜索引擎和网页聚类 114
5.2 自动提取文档文本和k中心点算法 116
5.2.1 PAM算法 117
5.2.2 R语言实现 117
5.2.3 自动提取和总结文档文本 117
5.3 CLARA算法及实现 118
5.3.1 CLARA算法 119
5.3.2 R语言实现 119
5.4 CLARANS算法及实现 119
5.4.1 CLARANS算法 120
5.4.2 R语言实现 120
5.5 无监督的图像分类和仿射传播聚类 120
5.5.1 仿射传播聚类 121
5.5.2 R语言实现 122
5.5.3 无监督图像分类 122
5.5.4 谱聚类算法 123
5.5.5 R语言实现 123
5.6 新闻分类和层次聚类 123
5.6.1 凝聚层次聚类 123
5.6.2 BIRCH算法 124
5.6.3 变色龙算法 125
5.6.4 贝叶斯层次聚类算法 126
5.6.5 概率层次聚类算法 126
5.6.6 R语言实现 127
5.6.7 新闻分类 127
5.7 练习 127
5.8 总结 128
第6章 高级聚类分析 129
6.1 电子商务客户分类分析和DBSCAN算法 129
6.1.1 DBSCAN算法 130
6.1.2 电子商务客户分类分析 131
6.2 网页聚类和OPTICS算法 132
6.2.1 OPTICS算法 132
6.2.2 R语言实现 134
6.2.3 网页聚类 134
6.3 浏览器缓存中的访客分析和DENCLUE算法 134
6.3.1 DENCLUE算法 135
6.3.2 R语言实现 135
6.3.3 浏览器缓存中的访客分析 136
6.4 推荐系统和STING算法 137
6.4.1 STING算法 137
6.4.2 R语言实现 138
6.4.3 推荐系统 138
6.5 网络情感分析和CLIQUE算法 139
6.5.1 CLIQUE算法 139
6.5.2 R语言实现 140
6.5.3 网络情感分析 140
6.6 观点挖掘和WAVE聚类算法 140
6.6.1 WAVE聚类算法 141
6.6.2 R语言实现 141
6.6.3 观点挖掘 141
6.7 用户搜索意图和EM算法 142
6.7.1 EM算法 143
6.7.2 R语言实现 143
6.7.3 用户搜索意图 143
6.8 客户购买数据分析和高维数据聚类 144
6.8.1 MAFIA算法 144
6.8.2 SURFING算法 145
6.8.3 R语言实现 146
6.8.4 客户购买数据分析 146
6.9 SNS和图与网络数据聚类 146
6.9.1 SCAN算法 146
6.9.2 R语言实现 147
6.9.3 社交网络服务 147
6.10 练习 148
6.11 总结 148
第7章 异常值检测 150
7.1 信用卡欺诈检测和统计方法 151
7.1.1 基于似然的异常值检测算法 152
7.1.2 R语言实现 152
7.1.3 信用卡欺诈检测 153
7.2 活动监控——涉及手机的欺诈检测和基于邻近度的方法 153
7.2.1 NL算法 153
7.2.2 FindAllOutsM算法 153
7.2.3 FindAllOutsD算法 154
7.2.4 基于距离的算法 155
7.2.5 Dolphin算法 156
7.2.6 R语言实现 157
7.2.7 活动监控与手机欺诈检测 157
7.3 入侵检测和基于密度的方法 157
7.3.1 OPTICS-OF算法 159
7.3.2 高对比度子空间算法 159
7.3.3 R语言实现 160
7.3.4 入侵检测 160
7.4 入侵检测和基于聚类的方法 161
7.4.1 层次聚类检测异常值 161
7.4.2 基于k均值的算法 161
7.4.3 ODIN算法 162
7.4.4 R语言实现 162
7.5 监控网络服务器的性能和基于分类的方法 163
7.5.1 OCSVM算法 163
7.5.2 一类最近邻算法 164
7.5.3 R语言实现 164
7.5.4 监控网络服务器的性能 164
7.6 文本的新奇性检测、话题检测与上下文异常值挖掘 164
7.6.1 条件异常值检测算法 165
7.6.2 R语言实现 166
7.6.3 文本的新奇性检测与话题检测 166
7.7 空间数据中的集体异常值 167
7.7.1 路径异常值检测算法 167
7.7.2 R语言实现 167
7.7.3 集体异常值的特征 168
7.8 高维数据中的异常值检测 168
7.8.1 Brute-Force算法 168
7.8.2 HilOut算法 168
7.8.3 R语言实现 169
7.9 练习 169
7.10 总结 169
第8章 流数据、时间序列数据和序列数据挖掘 171
8.1 信用卡交易数据流和STREAM算法 171
8.1.1 STREAM算法 172
8.1.2 单通道法聚类算法 173
8.1.3 R语言实现 174
8.1.4 信用卡交易数据流 174
8.2 预测未来价格和时间序列分析 175
8.2.1 ARIMA算法 176
8.2.2 预测未来价格 176
8.3 股票市场数据和时间序列聚类与分类 176
8.3.1 hError算法 177
8.3.2 基于1NN分类器的时间序列分类 178
8.3.3 R语言实现 178
8.3.4 股票市场数据 178
8.4 网络点击流和挖掘符号序列 179
8.4.1 TECNO-STREAMS算法 179
8.4.2 R语言实现 181
8.4.3 网络点击流 181
8.5 挖掘事务数据库中的序列模式 181
8.5.1 PrefixSpan算法 182
8.5.2 R语言实现 182
8.6 练习 182
8.7 总结 182
第9章 图挖掘与网络分析 183
9.1 图挖掘 183
9.1.1 图 183
9.1.2 图挖掘算法 184
9.2 频繁子图模式挖掘 184
9.2.1 gPLS算法 184
9.2.2 GraphSig算法 184
9.2.3 gSpan算法 185
9.2.4 最右路径扩展和它们的支持 185
9.2.5 子图同构枚举算法 186
9.2.6 典型的检测算法 186
9.2.7 R语言实现 186
9.3 社交网络挖掘 186
9.3.1 社区检测和Shingling算法 187
9.3.2 节点分类和迭代分类算法 188
9.3.3 R语言实现 188
9.4 练习 188
9.5 总结 188
第10章 文本与网络数据挖掘 189
10.1 文本挖掘与TM包 190
10.2 文本总结 190
10.2.1 主题表示 191
10.2.2 多文档总结算法 192
10.2.3 最大边缘相关算法 193
10.2.4 R语言实现 193
10.3 问答系统 194
10.4 网页分类 194
10.5 对报刊文章和新闻主题分类 195
10.5.1 基于N-gram的文本分类算法 195
10.5.2 R语言实现 197
10.6 使用网络日志的网络使用挖掘 197
10.6.1 基于形式概念分析的关联规则挖掘算法 198
10.6.2 R语言实现 198
10.7 练习 198
10.8 总结 199
附录 算法和数据结构 200

参考读物推荐
作者: 闫洪磊 著
作者: (英)Frank Boumphrey 等
作者: 王院峰; 陈静
作者: 郭鑫 等编著