教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 463

开本 : 16

原书名 : Machine Learning Using R: With Time Series and Industry-Based Use Cases in R，Second Edition

原出版社: Apress

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

本书是介绍机器学习技术的综合指南，从基础的统计学原理和R语言编程知识，到核心的机器学习理论和算法分析，以及机器学习模型的评估和改进方法，再到机器学习技术在大数据平台上的应用，书中都有详细介绍。

图书特色

无

图书前言

第2版添加了两个新章节，一个介绍时间序列模型（第9章），这是一个源于统计学的传统主题；第二个介绍深度学习（第11章），它是机器学习的一个迅速崛起的子领域。除了增加这两个章节之外，本书中的文本和代码会以一种读者友好的新格式来整体呈现。
新版会继续专注于使用流行的统计编程语言R来构建用例。对于深度学习这样的主题，我们建议采用Python语言配合TensorFlow这样的框架来学习。但是，本书会向读者展示如何在TensorFlow中使用R语言编程，因此如果读者只熟悉R语言，暂时无须学习Python。
与第1版一样，书中通过各种实际用例保持了机器学习理论与应用的良好平衡，为读者提供了一个真正全面的机器学习主题集合。
读者将学到的内容：
利用R语言学习机器学习算法。
掌握构建过程流的机器学习模型。
机器学习算法的理论基础。
专注于行业的实际用例。
R语言中的时间序列建模。
在R语言中使用Keras和TensorFlow进行深度学习。
目标读者
本书适用于希望了解机器学习方法和算法在R语言中的实践的数据科学家、数据科学专业人员和学术界研究人员。对于那些想用Apache Hadoop、Hive、Pig和Spark实现可扩展机器学习模型相关技术的读者，本书也能使之受益。
本书是一本全面的教程，适合想要从头到尾了解机器学习模型构建过程的任何人，内容包括：
相关概念在R语言中的实际演示。
使用Apache Hadoop和Spark的机器学习模型。
时间序列分析。
在R语言中利用Keras和TensorFlow介绍深度学习模型。

上架指导

计算机\人工智能

封底文字

从头到尾了解机器学习模型构建过程的全面指南
演示了R语言中各种概念的实践
基于R语言的Keras和TensorFlow深度学习模型介绍

本书介绍了利用 R 语言构建大数据环境下的可扩展机器学习模型的前沿技术进展，讲解了如何使用机器学习算法，并利用它从原始数据构建机器学习模型。读者会学习如何用 R 语言在 TensorFlow 框架中进行编程，从而让只擅长 R 语言的读者不必费力去学习 Python。
在第1版中，作者在机器学习的理论和实际案例的应用之间保持了良好的平衡，为读者呈现了比较全面的机器学习主题。第2版还增加了时间序列模型及深度学习的章节。
通过本书，读者将会：
利用 R 语言理解机器学习算法　　　　　　　　　
掌握构建机器学习模型的过程　　　　　　　　
学习机器学习的理论基础知识　　　　　　　　
了解行业性的实际案例　　　　　　　　
在 R 语言环境中构建时间序列模型　　　　　　　　
在 R 语言环境中利用 Keras 和 TensorFlow 进行深度学习

译者序

本书最大的特点就是它的全面性。从基础的统计学原理和R语言编程知识，到核心的机器学习理论和算法分析，以及机器学习模型的评估和改进方法，再到机器学习技术在大数据平台上的应用，书中都用了一定的篇幅进行讲述。此外，对于一些比较前沿和高级的主题，作者也给出了相应的参考资料，供有兴趣的读者进一步提高。
第2版还增加了时间序列模型，并把深度学习部分从原先的一个小节扩大为一章，从而大大提高了本书的实用性。
这样的写作思路给读者展示了当今机器学习技术发展的全貌，有利于读者理解各种机器学习技术的适用范围及其相互联系，也有利于读者先从全局和整体入手，再逐步深入到每个细节中，这样比较容易把握适合自己的方向。至于不足之处，也许是因为范围太广，导致有些部分的讲解不够深入，有些代码和实例的讲解也略显简单。
因此，这本书比较适合机器学习技术的初学者，以及仅仅在某个领域有一定经验、希望从更广的角度来认识机器学习的专业人士。如果读者希望更深入钻研某些技术，可以将本书给出的参考资料作为起点。虽然这些参考资料基本都是英文版的，不过要掌握最新的技术，阅读原版资料也是一个必要的途径。本书还引入了很多 R 语言平台的组件包，它们也适用于实际环境下的分析工作，是应用领域必不可少的得力工具。限于篇幅，本书很难逐个对它们进行详细介绍，而且开源组件包的版本变化很快，在实际应用时，也需要认真阅读它们的官方文档。
看过我前几本译作的读者都知道我有在 GitHub 上开辟讨论区的习惯，这样可以针对书中的理论、应用、代码等问题与读者进行交流。本书也不例外，它的讨论区链接是 https://github.com/coderLMN/machineLearningUsingR/issues ，欢迎读者去提出问题并参与讨论。我之所以愿意花时间参与这样的讨论，是因为这样不仅能够帮助读者答疑，及时纠正书中可能存在的错误，同时我自己在这个过程中也经常可以开阔思路、得到启发。
我不知道其他译者会不会这么做，但我为此感到自豪。
其实我还有一个更大的心愿，就是希望读者在实际运用这些技术时写出自己的理解和体会，用自己的经验来帮助其他的读者。我希望能把这样的实践经验总结放在讨论区里，其中高水平的总结还可以在书籍再印的时候作为附录添加进去，从而帮助到更多的读者。
真心希望这个心愿在本书出版时能够实现。
此外，我在书中加入了一些译者注，标注了我在翻译过程中觉得有必要说明的一些问题，例如某些代码的变动、某些概念的通俗化解释、提醒读者注意的细节,等等。由于本人水平有限，虽然已尽全力查阅资料并自行验证，但翻译内容和译者注里难免会有不严谨或者不正确的地方，还望读者不吝指正。
本书的代码和数据可从官方GitHub下载：https://github.com/Apress/machine-lea-rning-r-2e。（第1版的下载链接是：https://github.com/Apress/machine-learning-using-r )
最后，真诚感谢我的家人。这本书覆盖的主题较多，翻译的周期较长，有他们的支持和激励，我才能保质保量地完成这个工作。

吴今朝
2019年9月

图书目录

译者序
前言
第1章　机器学习和R语言入门1
1.1　了解发展历程1
1.1.1　统计学习2
1.1.2　机器学习2
1.1.3　人工智能3
1.1.4　数据挖掘3
1.1.5　数据科学4
1.2　概率与统计5
1.2.1　计数和概率的定义5
1.2.2　事件和关系7
1.2.3　随机性、概率和分布9
1.2.4　置信区间和假设检验9
1.3　R语言入门13
1.3.1　基本组成部分13
1.3.2　R语言的数据结构14
1.3.3　子集处理15
1.3.4　函数和Apply系列17
1.4　机器学习过程工作流19
1.4.1　计划20
1.4.2　探索20
1.4.3　构建20
1.4.4　评估20
1.5　其他技术21
1.6　小结21
第2章　数据准备和探索22
2.1　规划数据收集23
2.1.1　变量类型23
2.1.2　数据格式24
2.1.3　数据源的类型29
2.2　初始数据分析30
2.2.1　初步印象30
2.2.2　把多个数据源组织到一起32
2.2.3　整理数据34
2.2.4　补充更多信息37
2.2.5　重塑38
2.3　探索性数据分析38
2.3.1　摘要统计量39
2.3.2　矩42
2.4　案例研究：信用卡欺诈46
2.4.1　数据导入46
2.4.2　数据变换47
2.4.3　数据探索48
2.5　小结50
第3章　抽样与重抽样技术51
3.1　介绍抽样技术51
3.2　抽样的术语52
3.2.1　样本52
3.2.2　抽样分布52
3.2.3　总群体的均值和方差53
3.2.4　样本均值和方差53
3.2.5　汇总的均值和方差53
3.2.6　抽样点53
3.2.7　抽样误差54
3.2.8　抽样率54
3.2.9　抽样偏误54
3.2.10　无放回的抽样54
3.2.11　有放回的抽样55
3.3　信用卡欺诈：总群体的统计量55
3.3.1　数据描述55
3.3.2　总群体的均值56
3.3.3　总群体的方差56
3.3.4　汇总的均值和方差56
3.4　抽样在业务上的意义59
3.5　概率和非概率抽样60
3.6　关于抽样分布的统计理论61
3.6.1　大数定律62
3.6.2　中心极限定理64
3.7　概率抽样技术67
3.7.1　总群体的统计量67
3.7.2　简单随机抽样70
3.7.3　系统性随机抽样75
3.7.4　分层随机抽样78
3.7.5　聚类抽样83
3.7.6　自助抽样88
3.8　蒙特卡罗方法：接受-拒绝93
3.9　小结95
第4章　R语言里的数据可视化96
4.1　ggplot2组件包简介97
4.2　世界经济发展指标97
4.3　折线图97
4.4　堆叠柱状图102
4.5　散点图106
4.6　箱形图107
4.7　直方图和密度图109
4.8　饼图113
4.9　相关图114
4.10　热点图116
4.11　气泡图117
4.12　瀑布图120
4.13　系统树图122
4.14　关键字云124
4.15　桑基图126
4.16　时间序列图127
4.17　队列图129
4.18　空间图130
4.19　小结133
第5章　特征工程135
5.1　特征工程简介135
5.2　了解工作数据136
5.2.1　数据摘要137
5.2.2　因变量的属性137
5.2.3　特征的可用性：连续型或
　　　分类型140
5.2.4　设置数据的假设141
5.3　特征排名141
5.4　变量子集的选择144
5.4.1　过滤器方法145
5.4.2　包装器方法148
5.4.3　嵌入式方法154
5.5　主成分分析158
5.6　小结161
第6章　机器学习理论和实践162
6.1　机器学习的类型163
6.1.1　有监督学习164
6.1.2　无监督学习164
6.1.3　半监督学习165
6.1.4　强化学习165
6.2　机器学习算法的类别165
6.3　实际环境的数据集168
6.3.1　房产售价168
6.3.2　购买偏好169
6.3.3　Twitter订阅和文章169
6.3.4　乳腺癌170
6.3.5　购物篮170
6.3.6　亚马逊美食评论170
6.4　回归分析171
6.5　相关分析172
6.5.1　线性回归174
6.5.2　简单线性回归175
6.5.3　多元线性回归177
6.5.4　模型诊断：线性回归180
6.5.5　多项回归190
6.5.6　逻辑回归193
6.5.7　logit变换194
6.5.8　几率比194
6.5.9　模型诊断：逻辑回归200
6.5.10　多项逻辑回归208
6.5.11　广义线性模型211
6.5.12　结论212
6.6　支持向量机213
6.6.1　线性SVM214
6.6.2　二元SVM分类模型214
6.6.3　多类别SVM216
6.6.4　结论217
6.7　决策树217
6.7.1　决策树的类型218
6.7.2　决策指标219
6.7.3　决策树学习方法221
6.7.4　集成树235
6.7.5　结论241
6.8　朴素贝叶斯方法241
6.8.1　条件概率241
6.8.2　贝叶斯定理241
6.8.3　先验概率242
6.8.4　后验概率242
6.8.5　似然和边际似然242
6.8.6　朴素贝叶斯方法243
6.8.7　结论247
6.9　聚类分析247
6.9.1　聚类方法简介248
6.9.2　聚类算法248
6.9.3　内部评估256
6.9.4　外部评估257
6.9.5　结论259
6.10　关联规则挖掘259
6.10.1　关联概念简介259
6.10.2　规则挖掘算法261
6.10.3　推荐算法267
6.10.4　结论273
6.11　人工神经网络273
6.11.1　人类认知学习273
6.11.2　感知器275
6.11.3　Sigmoid神经元276
6.11.4　神经网络的体系架构277
6.11.5　有监督与无监督的神经网络278
6.11.6　神经网络的学习算法279
6.11.7　前馈反向传播281
6.11.8　结论286
6.12　文本挖掘方法286
6.12.1　文本挖掘简介287
6.12.2　文本摘要288
6.12.3　TF-IDF289
6.12.4　词性标注291
6.12.5　关键字云295
6.12.6　文本分析：Microsoft Cognitive Services295
6.12.7　结论304
6.13　在线机器学习算法304
6.13.1　模糊C均值聚类305
6.13.2　结论308
6.14　构建模型的核对清单308
6.15　小结308
第7章　机器学习模型的评估309
7.1　数据集309
7.1.1　房产售价309
7.1.2　购买偏好311
7.2　模型性能和评估入门312
7.3　模型性能评估的目标313
7.4　总群体的稳定性指数314
7.5　连续型输出的模型评估318
7.5.1　平均绝对误差320
7.5.2　均方根误差321
7.5.3　R2322
7.6　离散型输出的模型评估325
7.6.1　分类矩阵325
7.6.2　灵敏度和特异性329
7.6.3　ROC曲线下的面积330
7.7　概率技术333
7.7.1　K折交叉验证333
7.7.2　自助抽样335
7.8　Kappa误差指标336
7.9　小结339
第8章　模型性能改进340
8.1　Caret组件包概述341
8.2　超参数简介343
8.3　超参数优化345
8.3.1　人工搜索346
8.3.2　人工网格搜索348
8.3.3　自动网格搜索349
8.3.4　最优搜索351
8.3.5　随机搜索353
8.3.6　自定义搜索354
8.4　偏误和方差权衡357
8.5　集成学习简介360
8.5.1　投票集成360
8.5.2　集成学习中的高级方法361
8.6　在R语言里演示集成技术364
8.6.1　装袋树364
8.6.2　决策树的梯度增强366
8.6.3　混合knn和rpart369
8.6.4　利用caretEnsemble进行堆叠370
8.7　高级主题：机器学习模型的贝叶斯优化374
8.8　小结379
第9章　时间序列模型380
9.1　时间序列的组成部分380
9.2　平稳性检验383
9.3　ACF和AR模型386
9.4　PACF和MA模型388
9.5　ARIMA模型391
9.6　具有AR误差的线性回归397
9.7　小结400
第10章　可扩展机器学习和相关技术402
10.1　分布式处理和存储402
10.1.1　GFS403
10.1.2　MapReduce404
10.1.3　R语言里的并行执行404
10.2　Hadoop生态系统407
10.2.1　MapReduce408
10.2.2　Hive411
10.2.3　Apache Pig414
10.2.4　HBase417
10.2.5　Spark418
10.3　在R语言环境下用Spark进行机器学习419
10.3.1　设置环境变量419
10.3.2　初始化Spark会话420
10.3.3　加载数据并运行预处理420
10.3.4　创建SparkDataFrame421
10.3.5　构建机器学习模型421
10.3.6　对测试数据进行预测422
10.3.7　终止SparkR会话423
10.4　在R语言里利用H2O进行机器学习423
10.4.1　安装组件包424
10.4.2　H2O集群的初始化424
10.5　小结425
第11章　用Keras和TensorFlow进行深度学习427
11.1　深度学习简介427
11.2　深度学习架构428
11.2.1　卷积神经网络428
11.2.2　递归神经网络429
11.2.3　生成对抗网络430
11.3　深度学习的工具集431
11.3.1　高级库431
11.3.2　后端引擎或框架431
11.3.3　硬件能力432
11.3.4　编程语言的选择432
11.3.5　云基础架构432
11.4　用例：识别Quora中的重复问题432
11.4.1　环境设置432
11.4.2　数据预处理433
11.4.3　基准模型434
11.4.4　Siamese递归架构435
11.4.5　Keras模型437
11.4.6　模型的摘要437
11.4.7　验证样本438
11.4.8　训练模型438
11.4.9　保存模型439
11.4.10　模型性能439
11.4.11　进行预测440
11.4.12　预测示例440
11.5　小结441