首页>参考读物>公共基础课>心理生活

R语言机器学习
作者 : [印度]卡西克·拉玛苏布兰马尼安(Karthik Ramasubramanian)阿布舍克·辛格( Abhishek Singh)著
译者 : 吴今朝 译
出版日期 : 2018-05-30
ISBN : 978-7-111-59591-5
定价 : 99.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 432
开本 : 16
原书名 : Machine Learning Using R
原出版社: Apress
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书是介绍机器学习技术的综合指南,从基础的统计学原理和R语言编程知识,到核心的机器学习理论和算法分析,以及机器学习模型的评估和改进方法,再到机器学习技术在大数据平台上的应用,书中都有详细介绍。

全书共9章,第1章介绍机器学习和R语言基础知识;第2章重点介绍初始数据分析和探索性数据分析;第3章介绍不同的抽样技术,并展示这些抽样技术如何减少要处理的数据量;第4章讲解如何用R语言进行数据可视化;第5章介绍特征工程;第6章介绍机器学习核心算法及其实现和应用;第7章列举评估模型背后的基本思想,并详细讨论一些方法;第8章详细讲解如何改进模型性能;第9章通过实际环境的示例讲解 Apache Hadoop、Hive、Pig 和 Spark 等大数据技术。

图书特色

11

上架指导

计算机\人工智能

封底文字

本书详细讲解在 R 语言平台上使用大数据技术构建可扩展机器学习模型的新技术成果。书中展示了如何采用机器学习算法在原始数据的基础上构建机器学习模型。

所有的实际演示和探索都会在 R 语言里进行,它是一个统计计算和图形显示的强大编程语言和软件环境。R 语言里可用的各种组件包和方法会用于解释这些主题。对于本书涉及的每一种机器学习算法,作者都会按照理论、案例分析和实践这样的三维方法来进行讲解。在适当的情况下,数学原理会通过 R 语言里的可视化来解释。

通过阅读本书,你将学到:
运用模型构建过程工作流     
应用机器学习的理论     
讨论行业里的案例研究     
利用 R 语言理解机器学习算法     
使用 Apache Hadoop 和 Spark 构建机器学习模型

作者简介

[印度]卡西克·拉玛苏布兰马尼安(Karthik Ramasubramanian)阿布舍克·辛格( Abhishek Singh)著:Karthik Ramasubramanian 就职于Hike Messenger,从事商业分析和数据科学方面的工作。他以前在Snapdeal 任职,负责关于客户增长和定价分析的核心统计模型。在加入 Snapdeal 之前,他曾作为中央数据库团队的一员,负责管理 Reckitt Benckiser(RB)全球业务应用的数据仓库。他在可扩展的机器学习领域具有丰富的经验,专长包括复杂的图网络和自学习神经网络。
Abhishek Singh 是美国第二大的人寿保险供应商 Prudential Financial公司的高级数据科学家。他在数据科学方面拥有丰富的行业和学术经验,涵盖咨询、教学和金融服务。他曾经在 Deloitte Advisory 领导了针对美国顶尖银行的监管风险、信用风险和资产负债表模型化需求的风险分析项目。目前,他正在为 Prudential 的人寿保险业务开发可扩展的机器学习算法。

译者序

作为译者,我觉得这本书最大的特点就是它的全面性。从基础的统计学原理和R语言编程知识,到核心的机器学习理论和算法分析,以及机器学习模型的评估和改进方法,再到机器学习技术在大数据平台上的应用,在本书中都占到了一定的篇幅。此外,对于一些比较前沿和高级的主题,作者也给出了相应的参考资料,供有兴趣的读者进一步提高。
当然,这样的写作思路也是有利有弊的。好处是书中展示了当今机器学习技术发展的全貌,有利于读者理解各种机器学习技术的适用范围及其相互联系,先从全局和整体入手,再逐步深入到每个细节中,这样会比较容易把握适合自己的方向。至于不足之处,也许是因为范围铺得太广,导致有些部分的讲解不够深入,有些代码和实例的讲解也略显简单。
因此,这本书比较适合机器学习技术的初学者,以及仅仅在某个领域有一定经验、希望从更广的角度来认识它的专业人士。如果读者希望更深入钻研某些技术,可以将本书给出的参考资料作为起点。虽然这些参考资料基本都是英文版的,不过要掌握最新的技术,阅读原版资料也是一个必要的途径。本书中还引入了很多R语言平台的组件包,它们也适用于实际环境下的分析工作,是应用领域必不可少的得力工具。限于篇幅,本书很难逐个对它们进行详细介绍,而且开源组件包的版本变化很快,在实际应用时,也需要认真阅读它们的文档。
很多看过我前几本译作的读者都知道我有在GitHub上开辟讨论区的习惯,这样可以针对书中的理论、应用、代码等问题与读者进行交流。本书也不例外,它的讨论区链接是 https://github.com/coderLMN/machineLearningUsingR/issues,欢迎读者提出问题并参与讨论。我之所以愿意花时间参与这样的讨论,是因为这样不仅能够帮助有疑问的读者,及时纠正书中可能存在的错误,同时我自己在这个过程中也经常可以开阔思路、得到启发。我不知道还有没有其他译者也会这么做,但起码我对自己的这个做法是很自豪的。
其实我还有一个更大的心愿,就是希望有读者在实际运用这些技术的过程中写出自己的理解和体会,用自己的经验来帮助其他的读者。我希望能把这样的实践经验总结放在讨论区里,其中高水平的总结还可以在书籍重印的时候作为附录添加进去,让更多的读者能够看到。
真心希望这个心愿在这本书上能够实现。
此外,我在书中加入了一些译者注,标注了我在翻译过程中觉得有必要说明的一些问题,例如某些代码的变动、某些概念的通俗化解释、提醒读者要注意的细节,等等。由于本人水平有限,在翻译内容和译者注里难免会有不严谨或者不正确的地方,还请读者不吝指正。
在本书的翻译过程中,机械工业出版社的陈佳媛和缪杰两位编辑为我提供了很多帮助,在此向他们表示感谢。
最后,还是要感谢我的家人。这本书翻译的周期比较长,工作量也不小,感谢他们的支持和激励,让我能保质保量地完成这个工作。

吴今朝
2018年2月

图书目录

译者序
关于作者
关于技术审稿人
致谢
第1章 机器学习和R语言入门1
1.1 了解发展历程2
1.1.1 统计学习2
1.1.2 机器学习2
1.1.3 人工智能3
1.1.4 数据挖掘3
1.1.5 数据科学4
1.2 概率与统计5
1.2.1 计数和概率的定义5
1.2.2 事件和关系7
1.2.3 随机性、概率和分布8
1.2.4 置信区间和假设检验9
1.3 R语言入门13
1.3.1 基本组成部分13
1.3.2 R 语言的数据结构14
1.3.3 子集处理15
1.3.4 函数和Apply系列17
1.4 机器学习过程工作流19
1.4.1 计划19
1.4.2 探索19
1.4.3 构建20
1.4.4 评估20
1.5 其他技术20
1.6 小结21
1.7 参考资料21
第2章 数据准备和探索22
2.1 规划数据收集23
2.1.1 变量类型23
2.1.2 数据格式24
2.1.3 数据源29
2.2 初始数据分析30
2.2.1 初步印象30
2.2.2 把多个数据源组织到一起32
2.2.3 整理数据34
2.2.4 补充更多信息36
2.2.5 重塑37
2.3 探索性数据分析38
2.3.1 摘要统计量38
2.3.2 矩41
2.4 案例研究:信用卡欺诈46
2.4.1 数据导入46
2.4.2 数据变换47
2.4.3 数据探索48
2.5 小结49
2.6 参考资料49
第3章 抽样与重抽样技术50
3.1 介绍抽样技术50
3.2 抽样的术语51
3.2.1 样本51
3.2.2 抽样分布52
3.2.3 总群体的均值和方差52
3.2.4 样本均值和方差52
3.2.5 汇总的均值和方差52
3.2.6 抽样点53
3.2.7 抽样误差53
3.2.8 抽样率53
3.2.9 抽样偏误53
3.2.10 无放回的抽样53
3.2.11 有放回的抽样54
3.3 信用卡欺诈:总群体的统计量54
3.3.1 数据描述54
3.3.2 总群体的均值55
3.3.3 总群体的方差55
3.3.4 汇总的均值和方差55
3.4 抽样在业务上的意义58
3.4.1 抽样的特征59
3.4.2 抽样的缺点59
3.5 概率和非概率抽样59
3.5.1 非概率抽样的类型60
3.6 关于抽样分布的统计理论61
3.6.1 大数定律61
3.6.2 中心极限定理63
3.7 概率抽样技术66
3.7.1 总群体的统计量66
3.7.2 简单随机抽样69
3.7.3 系统性随机抽样74
3.7.4 分层随机抽样77
3.7.5 聚类抽样82
3.7.6 自助抽样86
3.8 蒙特卡罗方法:接受-拒绝91
3.9 通过抽样节省计算开销的定性分析93
3.10 小结94
第4章 R语言里的数据可视化95
4.1 ggplot2组件包简介96
4.2 世界经济发展指标97
4.3 折线图97
4.4 堆叠柱状图102
4.5 散点图106
4.6 箱形图107
4.7 直方图和密度图109
4.8 饼图113
4.9 相关图114
4.10 热点图116
4.11 气泡图117
4.12 瀑布图120
4.13 系统树图122
4.14 关键字云124
4.15 桑基图125
4.16 时间序列图127
4.17 队列图128
4.18 空间图130
4.19 小结133
4.20 参考资料133
第5章 特征工程135
5.1 特征工程简介136
5.1.1 过滤器方法137
5.1.2 包装器方法137
5.1.3 嵌入式方法138
5.2 了解工作数据138
5.2.1 数据摘要139
5.2.2 因变量的属性139
5.2.3 特征的可用性:连续型或分类型141
5.2.4 设置数据的假设142
5.3 特征排名143
5.4 变量子集的选择146
5.4.1 过滤器方法146
5.4.2 包装器方法149
5.4.3 嵌入式方法154
5.5 降维158
5.6 特征工程核对清单161
5.7 小结162
5.8 参考资料162
第6章 机器学习理论和实践163
6.1 机器学习的类型165
6.1.1 有监督学习166
6.1.2 无监督学习166
6.1.3 半监督学习166
6.1.4 强化学习166
6.2 机器学习算法的类别167
6.3 实际环境的数据集170
6.3.1 房产售价170
6.3.2 购买偏好170
6.3.3 Twitter订阅和文章171
6.3.4 乳腺癌171
6.3.5 购物篮172
6.3.6 亚马逊美食评论172
6.4 回归分析173
6.5 相关分析174
6.5.1 线性回归176
6.5.2 简单线性回归177
6.5.3 多元线性回归180
6.5.4 模型诊断:线性回归182
6.5.5 多项回归191
6.5.6 逻辑回归194
6.5.7 洛基(logit)变换195
6.5.8 几率比196
6.5.9 模型诊断:逻辑回归202
6.5.10 多项逻辑回归209
6.5.11 广义线性模型212
6.5.12 结论213
6.6 支持向量机213
6.6.1 线性SVM214
6.6.2 二元SVM分类模型215
6.6.3 多类别SVM217
6.6.4 结论218
6.7 决策树218
6.7.1 决策树的类型219
6.7.2 决策指标220
6.7.3 决策树学习方法222
6.7.4 集成树235
6.7.5 结论240
6.8 朴素贝叶斯方法241
6.8.1 条件概率241
6.8.2 贝叶斯定理241
6.8.3 先验概率242
6.8.4 后验概率242
6.8.5 似然和边际似然242
6.8.6 朴素贝叶斯方法242
6.8.7 结论246
6.9 聚类分析246
6.9.1 聚类方法简介247
6.9.2 聚类算法247
6.9.3 内部评估255
6.9.4 外部评估256
6.9.5 结论257
6.10 关联规则挖掘258
6.10.1 关联概念简介258
6.10.2 规则挖掘算法259
6.10.3 推荐算法265
6.10.4 结论270
6.11 人工神经网络271
6.11.1 人类认知学习271
6.11.2 感知器272
6.11.3 Sigmoid神经元274
6.11.4 神经网络的体系架构275
6.11.5 有监督与无监督的神经网络276
6.11.6 神经网络的学习算法277
6.11.7 前馈反向传播278
6.11.8 深度学习284
6.11.9 结论289
6.12 文本挖掘方法289
6.12.1 文本挖掘简介290
6.12.2 文本摘要291
6.12.3 TF-IDF292
6.12.4 词性标注294
6.12.5 关键字云297
6.12.6 文本分析:Microsoft Cognitive Services297
6.12.7 结论305
6.13 在线机器学习算法305
6.13.1 模糊C均值聚类306
6.13.2 结论308
6.14 构建模型的核对清单309
6.15 小结309
6.16 参考资料309
第7章 机器学习模型的评估311
7.1 数据集311
7.1.1 房产售价312
7.1.2 购买偏好313
7.2 模型性能和评估入门314
7.3 模型性能评估的目标315
7.4 总群体的稳定性指数316
7.5 连续型输出的模型评估320
7.5.1 平均绝对误差321
7.5.2 均方根误差323
7.5.3 R2324
7.6 离散型输出的模型评估326
7.6.1 分类矩阵327
7.6.2 灵敏度和特异性330
7.6.3 ROC曲线下的面积331
7.7 概率技术334
7.7.1 K 折交叉验证334
7.7.2 自助抽样336
7.8 Kappa误差指标337
7.9 小结340
7.10 参考资料341
第8章 模型性能改进342
8.1 机器学习和统计建模343
8.2 Caret组件包概述344
8.3 超参数简介346
8.4 超参数优化348
8.4.1 人工搜索349
8.4.2 人工网格搜索351
8.4.3 自动网格搜索353
8.4.4 最优搜索354
8.4.5 随机搜索356
8.4.6 自定义搜索357
8.5 偏误和方差权衡359
8.5.1 装袋或自助聚合363
8.5.2 增强363
8.6 集成学习简介363
8.6.1 投票集成364
8.6.2 集成学习中的高级方法365
8.7 在R语言里演示集成技术367
8.7.1 装袋树367
8.7.2 决策树的梯度增强369
8.7.3 混合knn和rpart372
8.7.4 利用caretEnemble进行堆叠374
8.8 高级主题:机器学习模型的贝叶斯优化377
8.9 小结381
8.10 参考资料382
第9章 可扩展机器学习和相关技术384
9.1 分布式处理和存储384
9.1.1 Google File System385
9.1.2 MapReduce386
9.1.3 R语言里的并行执行386
9.2 Hadoop生态系统389
9.2.1 MapReduce390
9.2.2 Hive393
9.2.3 Apache Pig396
9.2.4 HBase399
9.2.5 Spark400
9.3 在R语言环境下用 Spark进行机器学习401
9.3.1 设置环境变量401
9.3.2 初始化 Spark 会话402
9.3.3 加载数据并运行预处理402
9.3.4 创建 SparkDataFrame403
9.3.5 构建机器学习模型403
9.3.6 对测试数据进行预测404
9.3.7 终止 SparkR 会话404
9.4 在R语言里利用 H2O 进行机器学习405
9.4.1 安装组件包406
9.4.2 H2O集群的初始化406
9.4.3 在R语言里使用H2O的深度学习演示407
9.5 小结410
9.6 参考资料411

教学资源推荐
作者: (美)丹尼斯·布伊德(Denise Boyd) 海伦·比(Helen Bee)著
作者: (美)罗伯特 J.格雷戈里(Robert J.Gregory)伊利诺伊州威顿学院 著
作者: [美]安妮塔·伍尔福克(Anita Woolfolk) 著
作者: (美)克里斯托弗 D. 威肯斯(Christopher D. Wickens)伊利诺伊大学厄本那香槟分校(加)贾斯廷 G. 霍兰兹(Justin G. Hollands)加拿大国防研究及发展中心及多伦多大学              著(加)西蒙&
参考读物推荐
作者: (加)G.金斯利.沃德
作者: [美]芭芭拉·奥克利(Barbara Oakley) 著