首页>参考读物>计算机科学与技术>综合

机器学习与R语言
作者 : (美)Brett Lantz 著
译者 : 李洪成 许金炜 李舰 译
出版日期 : 2015-04-07
ISBN : 978-7-111-49157-6
定价 : 69.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 272
开本 : 16
原书名 : Machine Learning with R
原出版社: Packt Publishing Ltd.
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

图书特色

随着大数据的概念变得越来越流行,对数据的探索、分析和预测成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理论和工具,机器学习和数据挖掘成为时下炙手可热的技术。R作为功能强大并且免费的数据分析工具,在数据分析领域获得了越来越多用户的青睐。
本书通过丰富的实际案例来探索如何应用R来进行现实世界问题的机器学习,如何从数据中获取可以付诸行动的洞察力。本书案例清晰而实用,讲解循序渐进,是一本用R进行机器学习的实用指南,既适用于机器学习的初学者,也适用于具有一定经验的老手,本书将帮助他们回答有关R的所有问题。

通过阅读本书,你将学到:
用R准备用于机器学习的数据
用R进行数据探索和数据可视化
用k近邻方法进行数据分类
应用朴素贝叶斯方法进行数据分类
应用决策树、规则和支持向量机进行预测
用线性回归预测数值型数据
用神经网络对数据建模
应用购物篮分析的关联规则找出数据中的模式
通过对数据聚类进行市场细分

R本身是一款十分优秀的数据分析和数据可视化软件。本书由机器学习领域的专家撰写,通过将实践案例与核心的理论知识相结合,全面介绍多种重要的机器学习算法和案例分析,从对案例数据的探索、整理,到模型的建立和模型的评估,每一步都给出详尽的步骤和R代码,为读者深入理解并灵活应用R语言进行数据挖掘和机器学习提供翔实参考。
本书共12章:第1章介绍机器学习的基本概念和理论,并介绍用于机器学习的R软件环境的准备;第2章介绍如何应用R来管理数据,进行数据的探索分析和数据可视化;第3~9章介绍典型的机器学习算法,包括k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法——神经网络和支持向量机、关联分析、k均值聚类,并给出大量的实际案例和详细的分析步骤,例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等;第10章介绍模型性能评价的原理和方法,第11章给出提高模型性能的几种常用方法;第12章讨论用R进行机器学习时可能遇到的一些高级专题,如特殊形式的数据、大数据集的处理、并行计算和CPU计算等技术。
作者简介

Brett Lantz
在应用创新的数据方法来理解人类的行为方面有10余年经验。他最初是一名社会学家,在学习一个青少年社交网站分布的大型数据库时,他就开始陶醉于机器学习。从那时起,他致力于移动电话、医疗账单数据和公益活动等交叉学科的研究,并维护dataspelunking.com这个网站,该网站致力于分享有关探寻数据中所蕴含的洞察的知识。

译者简介
李洪成 统计学博士,现为上海金融学院副教授,是SPSS统计分析软件和R语言专家。他的研究方向为金融统计和数据挖掘。他曾出版多本著作,并在专业杂志发表多篇论文,代表著作有《SPSS18数据分析基础与实践》、《SPSS数据分析教程》、《时间序列预测实践教程》,译著有《R语言经典实例》、《数据挖掘与R语言》、《金融数据分析导论:基于R语言》等。

图书前言

机器学习的核心是将信息转化为可行动智能的算法。这一事实使得机器学习非常适合于当今的大数据时代。如果没有机器学习,要跟上海量信息数据流的步伐几乎是不可能的。
鉴于R不断增长的地位(R是一个跨平台、零成本的统计编程环境),现在是开始使用机器学习的最好时代。R提供了一套功能强大且易于学习的工具,这些工具可以帮助你发现数据背后隐藏的信息。
本书通过将实际案例与核心理论知识相结合,提供了你开始将机器学习应用到你自己项目中所需要的知识。
本书内容
第1章介绍了用来定义和区分机器学习算法的术语和概念,并给出将学习任务与适当算法相匹配的方法。
第2章提供了一个在R中自己实际动手操作数据的机会,并讨论了基本的数据结构以及用于加载、探索和理解数据的程序。
第3章教你如何理解并将一个简单且功能强大的学习算法应用于你的第一个学习任务:识别乳腺癌。
第4章揭示了用于先进的垃圾邮件过滤系统中的概率的基本概念,并且在你自己建立垃圾邮件过滤器的过程中,你将学习文本挖掘的基本知识。
第5章探索几种预测精度高且容易解释的学习算法。我们将把这几种算法应用于对透明度要求很高的学习任务中。
第6章介绍用于数值预测的机器学习算法。由于这些技术在很大程度上来源于统计学领域,所以你还将学习理解数值之间关系的必要分析指标。
第7章介绍两个极其复杂但功能强大的机器学习算法。尽管其中的数学理论可能会让人望而生畏,但是我们将以简单的术语,通过例子来说明这些方法的内部运作原理。
第8章揭示许多零售商所使用的推荐系统的算法。如果你曾经想知道零售商如何比你自己更了解你的购物习惯,该章将揭示他们的秘密。
第9章介绍k均值聚类,该算法用于找出相关个体的聚类。我们将使用该算法来确定一个基于网络的社区特征的分区。
第10章提供度量机器学习项目是否成功的信息,并给出了机器学习算法在未来数据上性能的一个可靠的估计。
第11章揭示了在机器学习竞赛中排名最靠前的团队所采用的方法。如果你具有竞争意识,或者仅仅想获取数据中尽可能多的信息,那么你需要将这些技术添加到你的知识库中。
第12章讨论机器学习的前沿主题。从使用大数据到如何使R运行速度更快,这些主题将会帮助你拓展使用R进行数据挖掘的界限。
学习本书的准备知识
本书的例子是基于微软的Windows系统和Mac OS X系统的R 2.15.3进行编写和测试的,不过对于任意最新的R版本,这些例子基本上都能运行。
本书适用对象
本书适合于任何希望使用数据来采取行动的人。或许你已经对机器学习有些了解,但从来没有使用过R;或许你已经对于R有些了解,但机器学习对你来说是全新的知识。无论何种情况,本书将让你快速上手。稍微了解一些基本的数学知识和编程概念将是有帮助的,但是这些先验知识并不是必需的,你需要具有的就是好奇心。

上架指导

计算机\数据挖掘

封底文字

随着大数据的概念变得越来越流行,对数据的探索、分析和预测成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理论和工具,机器学习和数据挖掘成为时下炙手可热的技术。R作为功能强大并且免费的数据分析工具,在数据分析领域获得了越来越多用户的青睐。
本书通过丰富的实际案例来探索如何应用R来进行现实世界问题的机器学习,如何从数据中获取可以付诸行动的洞察力。本书案例清晰而实用,讲解循序渐进,是一本用R进行机器学习的实用指南,既适用于机器学习的初学者,也适用于具有一定经验的老手,本书将帮助他们回答有关R的所有问题。
通过阅读本书,你将学到:
用R准备用于机器学习的数据
用R进行数据探索和数据可视化
用K近邻方法进行数据分类
应用朴素贝叶斯方法进行数据分类
应用决策树、规则和支持向量机进行预测
用线性回归预测数值型数据
用神经网络对数据建模
应用购物篮分析的关联规则找出数据中的模式
通过对数据聚类进行市场细分

作者简介

(美)Brett Lantz 著:暂无简介

译者简介

李洪成 许金炜 李舰 译:暂无简介

译者序

随着大数据的概念变得越来越流行,对数据的探索、分析和预测成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理论和工具,机器学习和数据挖掘成为时下的热门技术之一。R作为功能强大并且免费的数据分析工具,在数据分析领域获得了越来越多用户的青睐。本书介绍如何应用R来进行现实世界问题的机器学习,以及如何从数据中获取可以付诸行动的洞察力。
本书的作者Brett Lantz在机器学习领域具有十余年的实践经验。他在本书中介绍了多种重要的机器学习算法。在给出相应的机器学习算法的核心理论之后,都给出了一个实际的案例,从对案例数据的探索、整理,到模型的建立和模型的评估,每一步都给出了详尽的步骤和R代码。
本书共分12章。第1章介绍机器学习的基本概念和理论,并介绍用于机器学习的R软件环境的准备。第2章介绍如何应用R来管理数据,进行数据的探索分析和数据可视化。第3章到第9章介绍典型的机器学习算法和案例,包括:k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法——神经网络和支持向量机、关联分析、k均值聚类。伴随着这些算法的介绍,书中给出了大量的实际案例,并给出了详细的分析步骤,例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等。第10章介绍模型性能评价的原理和方法。第11章给出提高模型性能的几种常用方法。第12章讨论用R进行机器学习时可能遇到的一些高级专题,例如特殊形式的数据、大数据集的处理、并行计算和CPU计算等技术。
R本身是一款十分优秀的数据分析和数据可视化软件,其中包括大量用于机器学习的添加包。本书以机器学习算法为主线,通过案例学习的形式来组织内容,脉络清晰,并且各章自成体系。读者可以从头逐章学习,也可以找到自己所需要的内容进行学习。读者只需要具有R的一些基本知识,不需要具备机器学习的深厚基础。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容。
译者曾经应用本书的部分内容进行教学,学生都反映这些内容具有极强的实用价值,许多内容可以直接或者略加修改就可以应用到他们的实际工作中。我们有幸受机械工业出版社委托将此书译成中文,希望中文版的出版能够给国内读者学习R与机器学习带来方便。
在本书的翻译过程中,得到了王春华编辑的大力支持和帮助。本书责任编辑盛思源老师具有丰富的经验,为本书的出版付出了大量的劳动,这里对她们的支持和帮助表示衷心的感谢。本书的翻译工作由李洪成、许金炜和李舰共同完成,丁一飞协助翻译了本书的部分内容,全书由李洪成进行修改并统一定稿。
由于时间和水平所限,难免会有不当之处,希望同行和读者多加指正。

李洪成

推荐序

You have probably encountered the output of machine learning in many ways. When you read your email, spam has probably already been filtered out by a machine learning algorithm - most likely a Bayesian one. When you surf the web, you will see ads generated by machine learning models that predict what is likely to appeal to you. When you apply for a loan or credit card, approval will depend on the output of a machine learning model. When someone steals your credit card, the bank is hoping that its machine learning algorithm will identify fraudulent purchases as soon as they happen.
In its early days, the predictive modeling of machine learning was the province of very expensive statistical software, often bundled with consulting services to set up data mining systems. The advent of R has brought machine learning within the reach of smaller companies, startups and even individuals. Many big data-oriented companies now rely primarily on open source tools like R to deploy machine learning.
This book can be your guide to learning about the business context of machine learning, and also to the actual implementation of machine learning methods using R.
[你可能以多种方式接触过机器学习的输出结果。当你阅读电子邮件时,垃圾邮件可能已经被某个机器学习算法(很可能是贝叶斯算法)过滤掉了;当你在网页上浏览时,你可能会看到一些广告,它们是由机器学习算法预测出的可能会吸引你的广告;当你申请贷款或者信用卡时,申请的批准与否取决于机器学习模型的输出结果;当有人盗取了你的信用卡,发卡银行希望当该卡被用于欺诈消费时他们部署的机器学习算法能够识别出该类偷盗消费。
在早些时候,具有机器学习的预测模型只有很昂贵的统计软件才涉及,它们经常和咨询服务一起作为数据挖掘系统的一部分。R软件出现之后,小公司、初创公司,甚至个人都开始应用机器学习。现在,很多面向数据的大公司主要依靠像R软件这样的开源工具来部署他们的机器学习应用。
本书既可以作为你了解机器学习应用的商业背景的指南,也可以作为应用R来实现机器学习方法的指导。]
 
美国统计教育学院, Statistics.com在线课程网站总裁

图书目录

推荐序
译者序
前言
致谢
关于技术评审人
第1章 机器学习简介 1
1.1 机器学习的起源 2
1.2 机器学习的使用与滥用 3
1.3 机器如何学习 5
1.3.1 抽象化和知识表达 6
1.3.2 一般化 7
1.3.3 评估学习的成功性 9
1.4 将机器学习应用于数据中的步骤 9
1.5 选择机器学习算法 10
1.5.1 考虑输入的数据 10
1.5.2 考虑机器学习算法的类型 11
1.5.3 为数据匹配合适的算法 13
1.6 使用R进行机器学习 13
1.7 总结 17
第2章 数据的管理和理解 18
2.1 R数据结构 18
2.2 向量 19
2.3 因子 20
2.3.1 列表 21
2.3.2 数据框 22
2.3.3 矩阵和数组 24
2.4 用R管理数据 25
2.4.1 保存和加载R数据结构 25
2.4.2 用CSV文件导入和保存数据 26
2.4.3 从SQL数据库导入数据 27
2.5 探索和理解数据 28
2.5.1 探索数据的结构 29
2.5.2 探索数值型变量 29
2.5.3 探索分类变量 37
2.5.4 探索变量之间的关系 39
2.6 总结 42
第3章 懒惰学习——使用近邻分类 44
3.1 理解使用近邻进行分类 45
3.1.1 kNN算法 45
3.1.2 为什么kNN算法是懒惰的 51
3.2 用kNN算法诊断乳腺癌 51
3.2.1 第1步——收集数据 51
3.2.2 第2步——探索和准备数据 52
3.2.3 第3步——基于数据训练模型 55
3.2.4 第4步——评估模型的性能 57
3.2.5 第5步——提高模型的性能 58
3.3 总结 60
第4章 概率学习——朴素贝叶斯分类 61
4.1 理解朴素贝叶斯 61
4.1.1 贝叶斯方法的基本概念 62
4.1.2 朴素贝叶斯算法 65
4.2 例子——基于贝叶斯算法的手机垃圾短信过滤 70
4.2.1 第1步——收集数据 70
4.2.2 第2步——探索和准备数据 71
4.2.3 数据准备——处理和分析文本数据 72
4.2.4 第3步——基于数据训练模型 78
4.2.5 第4步——评估模型的性能 79
4.2.6 第5步——提升模型的性能 80
4.3 总结 81
第5章 分而治之——应用决策树和规则进行分类 82
5.1 理解决策树 82
5.1.1 分而治之 83
5.1.2 C5.0决策树算法 86
5.2 例子——使用C5.0决策树识别高风险银行贷款 89
5.2.1 第1步——收集数据 89
5.2.2 第2步——探索和准备数据 89
5.2.3 第3步——基于数据训练模型 92
5.2.4 第4步——评估模型的性能 95
5.2.5 第5步——提高模型的性能 95
5.3 理解分类规则 98
5.3.1 独立而治之 99
5.3.2 单规则(1R)算法 101
5.3.3 RIPPER算法 103
5.3.4 来自决策树的规则 105
5.4 例子——应用规则学习识别有毒的蘑菇 105
5.4.1 第1步——收集数据 106
5.4.2 第2步——探索和准备数据 106
5.4.3 第3步——基于数据训练模型 107
5.4.4 第4步——评估模型的性能 109
5.4.5 第5步——提高模型的性能 109
5.5 总结 111
第6章 预测数值型数据——回归方法 113
6.1 理解回归 113
6.1.1 简单线性回归 115
6.1.2 普通最小二乘估计 117
6.1.3 相关系数 118
6.1.4 多元线性回归 120
6.2 例子——应用线性回归预测医疗费用 122
6.2.1 第1步——收集数据 122
6.2.2 第2步——探索和准备数据 123
6.2.3 第3步——基于数据训练模型 127
6.2.4 第4步——评估模型的性能 129
6.2.5 第5步——提高模型的性能 130
6.3 理解回归树和模型树 133
6.4 例子——用回归树和模型树估计葡萄酒的质量 135
6.4.1 第1步——收集数据 135
6.4.2 第2步——探索和准备数据 136
6.4.3 第3步——基于数据训练模型 137
6.4.4 第4步——评估模型的性能 140
6.4.5 第5步——提高模型的性能 142
6.5 总结 144
第7章 黑箱方法——神经网络和支持向量机 146
7.1 理解神经网络 146
7.1.1 从生物神经元到人工神经元 148
7.1.2 激活函数 148
7.1.3 网络拓扑 151
7.1.4 用后向传播训练神经网络 153
7.2 用人工神经网络对混凝土的强度进行建模 154
7.2.1 第1步——收集数据 154
7.2.2 第2步——探索和准备数据 155
7.2.3 第3步——基于数据训练模型 156
7.2.4 第4步——评估模型的性能 158
7.2.5 第5步——提高模型的性能 159
7.3 理解支持向量机 160
7.3.1 用超平面分类 161
7.3.2 寻找最大间隔 161
7.3.3 对非线性空间使用核函数 164
7.4 用支持向量机进行光学字符识别 165
7.4.1 第1步——收集数据 166
7.4.2 第2步——探索和准备数据 166
7.4.3 第3步——基于数据训练模型 167
7.4.4 第4步——评估模型的性能 169
7.4.5 第5步——提高模型的性能 170
7.5 总结 171
第8章 探寻模式——基于关联规则的购物篮分析 172
8.1 理解关联规则 172
8.2 例子——用关联规则确定经常一起购买的食品杂货 176
8.2.1 第1步——收集数据 176
8.2.2 第2步——探索和准备数据 177
8.2.3 第3步——基于数据训练模型 183
8.2.4 第4步——评估模型的性能 184
8.2.5 第5步——提高模型的性能 187
8.3 总结 189
第9章 寻找数据的分组——k均值聚类 191
9.1 理解聚类 191
9.1.1 聚类——一种机器学习任务 192
9.1.2 k均值聚类算法 193
9.1.3 用k均值聚类探寻青少年市场细分 198
9.1.4 第1步——收集数据 198
9.1.5 第2步——探索和准备数据 199
9.1.6 第3步——基于数据训练模型 202
9.1.7 第4步——评估模型的性能 204
9.1.8 第5步——提高模型的性能 206
9.2 总结 207
第10章 模型性能的评价 208
10.1 度量分类方法的性能 208
10.1.1 在R中处理分类预测数据 209
10.1.2 深入探讨混淆矩阵 211
10.1.3 使用混淆矩阵度量性能 212
10.1.4 准确度之外的其他性能评价指标 214
10.1.5 性能权衡的可视化 221
10.2 评估未来的性能 224
10.2.1 保持法 225
10.2.2 交叉验证 226
10.2.3 自助法抽样 229
10.3 总结 229
第11章 提高模型的性能 231
11.1 调整多个模型来提高性能 231
11.2 使用元学习来提高模型的性能 239
11.2.1 理解集成学习 239
11.2.2 bagging 241
11.2.3 boosting 243
11.2.4 随机森林 244
11.3 总结 248
第12章 其他机器学习主题 249
12.1 分析专用数据 250
12.1.1 用RCurl添加包从网上获取数据 250
12.1.2 用XML添加包读/写XML格式数据 250
12.1.3 用rjson添加包读/写JSON 251
12.1.4 用xlsx添加包读/写Microsoft Excel电子表格 251
12.1.5 生物信息学数据 251
12.1.6 社交网络数据和图数据 252
12.2 提高R语言的性能 252
12.2.1 处理非常大的数据集 253
12.2.2 使用并行处理来加快学习过程 254
12.2.3 GPU计算 257
12.2.4 部署最优的学习算法 257
12.3 总结 258

教学资源推荐
作者: Nicholas Carter
作者: 黄岚 王岩 王康平 编著
作者: 教育部高等学校计算机科学与技术专业教学指导分委员会 编制
参考读物推荐
作者: [美]马特·布彻(Matt Butcher),[美]马特·法里纳(Matt Farina),[美]乔什·多利茨基(Josh Dolitsky) 著
作者: (美)Anthony T. Velte; Toby J. Velte; Robert Elsenpeter 著