教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 356

开本 : 16

原书名 : Data Mining with R:Learning with Case Studies, Second Edition

原出版社: Taylor & Francis -CRC Press

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

本书不要求读者具有R语言、数据挖掘或者统计技术的基础，它选择了多种案例问题，这些案例具有数据大小、数据类型、分析目标和分析工具等各方面的挑战。作者用一系列详细的实际案例以实践的方式来讲述数据挖掘的主要过程和技巧。在每个案例学习中，都包含必要的步骤、代码和数据。

图书特色

1

图书前言

本书的主要目的是向读者介绍如何用R进行数据挖掘。R是一种可以自由下载的语言，它提供统计计算和绘图环境，这些功能和大量的添加包使其成为一款优秀的软件，取代了很多昂贵的数据挖掘工具。
本书的目的不是介绍数据挖掘的各个方面。许多已有的书籍已经覆盖了数据挖掘领域，而本书是用几个案例来向读者介绍R的数据挖掘能力。显然，这几个案例不能代表我们在现实世界中碰到的所有数据挖掘问题。同时，我们给出的解决方案也不是最完整的方案。本书通过这些实际案例向读者介绍如何用R进行数据挖掘，因此案例分析目的是展示用R进行信息提取的例子，而不是提供数据挖掘案例的完整分析报告。它们可以作为任何数据挖掘项目的可能思路，或者作为开发数据挖掘项目解决方案的基础。尽管如此，我们尽力尝试覆盖多方面的问题，以展示由数据大小、数据类型、分析目标和分析工具所带来的不同挑战。然而，这里的实践方式也是有代价的。实际上，作为具体案例研究的一种形式，为了让读者在自己的计算机上执行我们所描述的步骤，我们也做了某些妥协。也就是说，我们不能处理太大的问题，这些问题要求的计算机资源不是每个人都具备的。尽管这样，我们认为本书涵盖的问题也不算小，并且我们还对由不同数据类型和维度带来的问题给出了解决方案。
第2版大幅修改了案例研究的R代码，使其与R中出现的最新添加包同步更新。此外，我们决定将本书分为两部分：第一部分为材料介绍；第二部分为案例研究。第一部分用一个全新的章节来介绍数据挖掘，以补充已有的对R的介绍。这个想法是为读者提供数据挖掘领域的一种鸟瞰图，更深入地描述这个研究领域的主题。这些信息补充了案例分析中给出的简单描述。此外，它允许读者更好地将数据挖掘任务及方法论的更大图景与案例研究的解决方案区分开来。最后，如果需要更多关于案例研究中使用方法的细节，我们希望这个新章节可以作为读者的参考。
本书并不要求读者具有R的先验知识，没有学过R和数据挖掘的读者也可以学习书中的案例。书中的各个案例相互独立，读者可以从书中任何一个案例开始。当然，在第一个简单案例中，给出了一些基本的R知识，这意味着，如果你没有学过R，至少应该从第一个案例开始学习。而且，第1章给出了R的简介，它可以帮助你理解后面的章节。我们没有假设你熟悉数据挖掘和统计技术，在每个案例中必要的地方，都对不同的数据挖掘技术进行了介绍。不过，第一部分的新章节介绍了数据挖掘，包括我们在案例研究中应用的方法以及数据挖掘中常用的其他方法的进一步信息。另外，在某些节的末尾，我们提供了“进一步阅读”资料，如果需要，可以参考它们。总之，本书的读者应该是数据分析工具的用户，而不是研究人员或者开发人员。同时，我们希望后者将阅读本书作为进入R和数据挖掘世界的一种方式，从而发现本书的用途。
本书配有一个免费的R代码集，可以从本书网站下载。其中含有案例研究中的所有代码，这可以帮助你进行实践学习。我们强烈建议读者在阅读本书时安装R并试验书中的代码。而且，我们创建了一个名为DMwR2的R添加包，它包含本书用到的多个函数和以R格式保存的案例数据集。建议你按照本书的指示安装并加载该添加包（第1章给出了细节）。

上架指导

计算机\数据挖掘

封底文字

本书第1版广受好评，新版对案例代码进行了全面更新，以与R的快速发展相同步。书中延续了一贯的“做中学”特色：首先介绍R和数据挖掘的基础知识，展现该领域的全景；然后通过四个相互独立的案例，详细讲解数据处理、预测、分类等不同技术，在实践中掌握工具的使用技巧。

本书特色
零基础易入门。不要求具备R或数据挖掘的预备知识，而是在一步步构建解决方案的过程中针对问题随时“补充能量”，同时给出深入学习的参考资料。
培养思维能力。侧重于打开解决问题的思路，而非呈现完整的分析报告，为读者日后应对不同数据规模和分析目标的任务奠定思维能力基础。
免费代码下载。免费提供所有代码和数据，可访问本书网站ltorgo.github.io/DMwR2/进行下载，通过动手实践更透彻地理解数据挖掘技术。

作者简介
路易斯·托尔戈（Luís Torgo）　加拿大达尔豪斯大学计算机科学系教授，葡萄牙波尔图大学计算机科学系副教授，纽约大学斯特恩商学院特邀教授，人工智能和数据分析实验室（LIAAD，隶属于INESC Tec）研究员。他拥有近30年的机器学习和数据挖掘研究经验，在基于树的回归方法和基于效用的预测方法方面贡献卓著。

译者简介
李洪成　统计学博士，现为上海金融学院副教授，R语言和SPSS统计分析软件专家，研究方向为金融统计和数据挖掘。他的代表著作有《SPSS数据分析教程》《时间序列预测实践教程》等，译著有《R并行编程实战》《机器学习与R语言》等。

作者简介

[葡]路易斯· 托尔戈（Luís Torgo）著：---作者简介---
路易斯·托尔戈（Luís Torgo）加拿大达尔豪斯大学计算机科学系教授，葡萄牙波尔图大学计算机科学系副教授，纽约大学斯特恩商学院特邀教授，人工智能和数据分析实验室（LIAAD，隶属于INESC Tec）研究员。他拥有近30年的机器学习和数据挖掘研究经验，在基于树的回归方法和基于效用的预测方法方面贡献卓著。

---译者简介---
李洪成统计学博士，现为上海金融学院副教授，R语言和SPSS统计分析软件专家，研究方向为金融统计和数据挖掘。他的代表著作有《SPSS数据分析教程》《时间序列预测实践教程》等，译著有《R并行编程实战》《机器学习与R语言》等。

译者简介

李洪成潘文捷译：暂无简介

译者序

随着大数据的概念变得越来越流行，对数据的探索、分析和预测成为大数据领域的基本技能之一。作为探索和分析数据的基本理论和工具，数据挖掘是近几年热门的技术之一。R作为功能强大并且免费的数据分析工具，在数据分析和挖掘领域获得了越来越多用户的青睐。本书介绍了R语言以及数据挖掘的基本知识，并应用R来进行实际数据案例的分析和挖掘，从数据中获取可以付诸行动的决策。
和第1版比较，本书增加了全新的一章对数据挖掘的基本知识进行介绍。全书分为两个部分，第一部分介绍R语言的基本知识以及数据挖掘的主要理论与方法，第二部分是案例研究。第二部分的每一章都详细介绍了一个案例，包括预测海藻数量、预测股票市场收益、侦测欺诈交易和微阵列样本分类。书中应用各种模型进行分析和挖掘，并对各个数据挖掘模型的性能进行分析和比较。
R是一款十分优秀的数据分析和挖掘软件，有大量的添加包（Package），现已成为主流的数据分析和挖掘软件之一。本书以实际的案例为主线，应用R语言进行系统的分析和预测，由浅入深，脉络清晰。读者不需要具有R语言和数据挖掘的预备知识就可以阅读本书。不管是R初学者还是熟练的R用户，都能从书中找到对自己有用的内容。本书案例分析所应用的方法和技能都是可以应用到实际数据挖掘实践中的，数据分析从业者将会发现本书是进行数据挖掘工作的有益参考。
我们有幸受机械工业出版社委托将此书译成中文，希望中文版的出版能够给国内读者学习R与机器学习带来方便。
本书第1版连续多年在亚马逊等网站的同类作品中成为畅销的书籍之一，希望第2版也能够和第1版一样受到读者的欢迎。
由于时间和水平所限，译文中难免会有不当之处，希望同行和读者多加指正。

李洪成

推荐序

Data mining has transformed the way that companies and other large organizations interact with their customers and manage complex processes. A profusion of data is now being put to good use to predict behavior and outcomes. On the software side, R has transformed the analytical landscape with its power and attractive pricing (free).
The goal of this book is to introduce you quickly to these two worlds. This introduction is done via practical case studies so you can place the learning in a realistic context without getting lost in a detailed discussion of statistical theory or the conceptual foundations of computer science. The free tools MySQL (for database manipulation) and R (for analysis) are used throughout. So this is very much a hands-on learning experience. You will gain the most if you install these tools and use them to work through the case studies in the book in detail.
The second edition retains the case-study approach of the first edition, but adds to it a 175-page survey of data mining methods and commentary on related tools in R. Part II then reinforces these concepts and tools in detail progressively throughout the case studies.
The author, Luís Torgo, has crafted this introduction based on a wealth of experience at the University of Porto, as well as teaching data mining courses in person and online.
数据挖掘改变了众多公司和大型机构与客户沟通的方式，同时也改变了他们管理复杂过程的方式。现在大量的数据被很好地用于预测行为模式和未知结果。从软件方面而言，R以其强大的功能和诱人的价格（免费）改变了分析领域的蓝图。
本书的目的就是把读者快速引入这两个领域。结合书中的具体案例，读者可以在实际背景中进行学习，这样就不会在繁杂的统计理论或者计算机科学基础概念中不知所终。本书全部应用免费的工具——R（用于分析）和MySQL（用于数据库操作），提供了丰富的动手学习的体验。若能安装这些工具并应用它们来详细分析书中的案例，你一定会收获满满。
第2版在保留第1版中案例学习方式的基础上，增加了175页对数据挖掘方法的回顾以及对相关R工具的讨论。第二部分通过案例学习逐步在细节上加深了对第一部分的概念和工具的介绍。
本书作者 Luís Torgo在波尔图大学从事教学工作多年，同时也经常在线下和线上教授数据挖掘课程，这些经验都融于第2版中，是一部精雕细琢的佳作。

Peter Bruce
美国统计教育学院
Statistics.com在线课程网站总裁；《Data Mining for Business Analytics：Concepts，Techniques and Applications in R》（Wiley 2017）一书的作者（与 Shmueli、Yahav、Patel和Lichtendahl合著）

图书目录

推荐序
中文版序
译者序
前言
致谢
第1章　简介 1
1.1　如何阅读本书 2
1.2　重现性 2
第一部分　R与数据挖掘简介
第2章　R简介 6
2.1　R起步 6
2.2　与R控制台的简单交互 8
2.3　R对象和变量 9
2.4　R函数 11
2.5　向量 14
2.6　向量化 15
2.7　因子 16
2.8　生成序列 18
2.9　数据子集 20
2.10　矩阵和数组 22
2.11　列表 25
2.12　数据框 28
2.13　数据框的扩展 31
2.14　对象、类和方法 34
2.15　管理R会话 35
第3章　数据挖掘简介 37
3.1　数据挖掘鸟瞰图 37
3.2　数据收集和业务理解 38
3.2.1　数据和数据集 39
3.2.2　导入数据到R 40
3.3　数据预处理 45
3.3.1　数据清洗 45
3.3.2　变换变量 53
3.3.3　生成变量 55
3.3.4　降维 66
3.4　建模 74
3.4.1　探索性数据分析 75
3.4.2　使用关联规则的依赖建模 94
3.4.3　聚类 101
3.4.4　异常检测 112
3.4.5　预测分析 120
3.5　评估 147
3.5.1　Holdout和随机子抽样 148
3.5.2　交叉验证 150
3.5.3　Bootstrap估计 153
3.5.4　推荐程序 154
3.6　报告和部署 155
3.6.1　通过动态文档进行报告 155
3.6.2　通过Web应用程序进行部署 158
第二部分　数据挖掘案例研究
第4章　预测海藻数量 164
4.1　问题描述与目标 164
4.2　数据说明 164
4.3　加载数据到R 165
4.4　数据可视化和总结 167
4.5　数据缺失 173
4.5.1　将缺失部分剔除 173
4.5.2　尝试找到缺失值最有可能的赋值 175
4.5.3　通过变量的相关关系填补缺失值 176
4.5.4　通过探索类似个案填补缺失值 179
4.6　获取预测模型 180
4.6.1　多元线性回归 181
4.6.2　回归树 185
4.7　模型评价和选择 189
4.8　预测7种海藻的频率 200
4.9　小结 202
第5章　预测股票市场收益 203
5.1　问题描述与目标 203
5.2　可用的数据 204
5.2.1　从CSV文件读取数据 205
5.2.2　从网站上获取数据 205
5.3　定义预测任务 206
5.3.1　预测什么 206
5.3.2　预测变量是什么 208
5.3.3　预测任务 212
5.3.4　模型评价准则 213
5.4　预测模型 215
5.4.1　如何应用训练集数据来建模 215
5.4.2　建模工具 216
5.5　从预测到实践 222
5.5.1　如何应用预测模型 222
5.5.2　与交易相关的评价准则 223
5.5.3　模型集成：仿真交易 224
5.6　模型评价和选择 230
5.6.1　蒙特卡罗估计 230
5.6.2　实验比较 231
5.6.3　结果分析 235
5.7　交易系统 243
5.7.1　评估最终测试数据 243
5.7.2　在线交易系统 247
5.8　小结 248
第6章　侦测欺诈交易 249
6.1　问题描述与目标 249
6.2　可用的数据 249
6.2.1　加载数据到R 250
6.2.2　探索数据集 250
6.2.3　数据问题 256
6.3　定义数据挖掘任务 263
6.3.1　问题的不同解决方法 263
6.3.2　评价准则 265
6.3.3　实验方法 270
6.4　计算离群值的排序 271
6.4.1　无监督方法 271
6.4.2　有监督方法 280
6.4.3　半监督方法 290
6.5　小结 295
第7章　微阵列样本分类 296
7.1　问题描述与目标 296
7.1.1　微阵列实验背景简介 296
7.1.2　数据集ALL 297
7.2　可用的数据 297
7.3　基因（特征）选择 302
7.3.1　基于分布特征的简单过滤方法 302
7.3.2　ANOVA过滤 304
7.3.3　使用随机森林进行过滤 306
7.3.4　使用特征聚类的组合进行过滤 308
7.4　遗传学异常的预测 309
7.4.1　定义预测任务 309
7.4.2　模型评价标准 309
7.4.3　实验过程 310
7.4.4　建模技术 311
7.4.5　模型比较 313
7.5　小结 320
参考文献 321
主题索引 332
数据挖掘术语索引 337
R函数索引 339