参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 236

开本 : 16

原书名 : R Machine Learning By Example

原出版社: Packt Publishing Ltd.

属性分类: 店面

包含CD : 无

绝版 : 未绝版

图书简介

图书前言

数据科学和机器学习是当今技术领域中的顶级流行语。从零售商店到世界500强企业，每个人都在努力使用机器学习从庞大的数据中获得有价值的信息，以发展其业务。借助强大的数据处理功能、丰富的机器学习包和活跃的开发者社区，R使用户能够构建复杂的机器学习系统，解决现实世界中的数据问题。
本书将带你踏上数据驱动的旅程，从最基础的R和机器学习开始，逐步学习如何解决实际问题。
本书内容
第1章概述本书的内容，帮助你熟悉R及其基础知识。该章还简短地介绍机器学习。
第2章通过解释机器学习的基本概念，深入研究机器学习。同时，还呈现各种类型的学习算法，以及现实世界中的一些示例。
第3章开始介绍第一个项目的第一部分，使用各种机器学习技术进行电子商务产品推荐、预测和模式分析。该章针对市场购物篮分析和关联规则挖掘，检测客户的购物模式和趋势，使用这些技术进行产品预测和推荐。这些技术在零售企业和电子商务商店（例如Target、Macy’s、Flipkart和Amazon）中广泛使用，用来进行产品推荐。
第4章介绍第一个项目（电子商务产品推荐、预测和模式分析）的第二部分。该章分析不同用户对电子商务产品的评论和评级，使用算法和技术（例如，用户协同过滤）设计一个推荐系统。
第5章开始介绍第二个项目，将机器学习应用到一个复杂的金融场景中，即处理信用风险检测和预测。该章介绍新的主题，研究1000名向银行申请贷款的用户的金融信用数据集。我们将使用机器学习技术检测具有潜在信用风险以及贷款后可能无法偿还的用户，同时对未来进行预测。该章还详细介绍数据集及其主要特征，讨论处理数据时将面临的主要挑战。最后总结适合解决这一问题的最佳机器学习技术。
第6章基于上一章的描述分析继续进行预测分析。这里，我们将使用几种机器学习算法来检测和预测哪些客户具有潜在信用风险，即贷款后可能无法偿还的用户。这最终将帮助银行做出数据驱动的决策，决定是否批准贷款申请。我们将涵盖几种有监督学习算法，并比较它们的性能。我们将讨论评估各种机器学习算法的性能和准确度的不同指标。
第7章介绍社交媒体分析。首先，我们将介绍社交媒体和通过Twitter的API收集数据的过程。该章将引导你从推文（tweet）中挖掘有用的信息（包括可视化实际案例的Twitter数据），推文的聚类和主题建模，解决这些问题面临的挑战、复杂度和策略。我们通过例子展示如何使用Twitter数据计算一些强大的度量指标。
第8章根据Twitter API的知识建立一个项目，基于该项目分析推文中的情感。这个项目呈现了多种机器学习算法，用于根据推文的情感进行分类。该章还对这些结果进行比较，帮助你理解这些算法的工作原理和运行结果之间的差异。
本书需要的软/硬件支持
以下软件适用于本书的所有章节：
Windows/Mac OS X/Linux
R 3.2.0（或以上）
RStudio Desktop 0.99（或以上）
对于硬件，没有特定的要求，因为R能在任何Mac、Linux或Windows系统的个人计算机上运行，但是物理内存最好不低于4GB，这样一些迭代算法可以更快地运行。
本书适用对象
如果你对使用先进的技术从数据中挖掘有用信息来进行数据驱动决策感兴趣，那么本书将指导你如何实现。虽然R的基本知识非常有用，但是在阅读本书时，不需要掌握数据科学的先验经验。掌握机器学习的先验知识十分有用，但这不是必要的。
本书约定
正文中的码字、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter句柄如下所示：“我们可以使用include命令包括其他上下文。”
命令行的输入或输出如下所示：

新的术语（new term）和重要词（important word）以粗体显示。
警告或者重要注释。
提示和技巧。
下载示例代码
你可以在网站http://www.packtpub.com上从你的账户中下载本书的示例代码文件。如果你在其他地方购买了这本书，你可以访问
http://www.packtpub.com/support网站并注册，就可以通过电子邮件方式获得相关的文件。
你也可以访问华章图书官网：http://www.hzbook.com，通过注册并登录个人账号，下载本书的源代码。
下载本书的彩图
我们还在一个PDF文件中向你提供了本书中屏幕截图和图表的彩色版本。彩色图片可以帮助你更好地理解输出中的变化关系。可以从
http://www.packtpub.com/ sites/default/files/downloads/Machine_Learning_With_R_Second_Edition_ ColoredImages.pdf下载

这个文件。

上架指导

计算机/人工智能/机器学习

作者简介

[印]拉格哈夫?巴利（Raghav Bali）,迪潘简?撒卡尔（Dipanjan Sarkar）著：暂无相关简介

译者简介

李洪成潘文捷译：暂无简介

译者序

随着大数据的概念变得越来越流行，对数据的探索、分析和预测成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理

论与工具，机器学习和数据挖掘成为时下非常热门的技术。R作为功能强大并且免费的数据分析工具，在机器学习领域获得了越来越多

用户的青睐。本书介绍了如何用R来进行实际应用中的机器学习，以及如何从数据中获取信息以帮助决策。
本书的作者Raghav Bali在机器学习领域具有丰富的实践经验。他在本书中介绍了多种机器学习算法，并且给出了机器学习最热门的3

个领域（涵盖电子商务、金融和社交媒体领域）中的案例。对于每一个实际案例，从对案例数据的探索、整理，到模型的建立和评估

，每一步都给出了详尽的步骤和R代码。读者从中可以掌握机器学习和R语言的应用与技巧，同时也可以学习相关的领域知识。
本书共分8章。第1章介绍了R语言和机器学习的基本概念与理论。第2章介绍了机器学习的核心概念和各种类型的机器学习算法与应用

。第3章到第8章以现实世界中的3个典型机器学习案例为线索，介绍了应用R进行机器学习和数据分析的整个过程。它们分别是：市场

购物篮分析和推荐系统、信用风险检测和预测的描述性分析与预测性分析、社交媒体数据分析。
R本身是一款十分优秀的数据分析和数据可视化软件，其中包含大量用于机器学习的添加包（package）。本书以实际的案例为主线，

通过机器学习算法的学习来组织内容，脉络清晰。读者只需要具有R的一些基本知识即可，不需要具备机器学习的深厚基础。不管是R

初学者，还是熟练的R用户，都能从书中找到对自己有用的内容。
我们有幸受机械工业出版社委托将此书译成中文，希望中文版的出版能够给国内读者学习R与机器学习带来方便。
在本书的翻译过程中，得到了王春华编辑的大力支持和帮助。本书的编辑盛思源老师具有丰富的经验，为本书的出版付出了大量的劳

动，这里对她们的支持和帮助表示衷心的感谢。本书的翻译工作得到了许多机器学习和R软件专家的帮助与支持，在此表示感谢。
由于时间和水平所限，难免会有不当之处，希望同行和读者多加指正。

李洪成

图书目录

译者序
前言
关于作者
关于审稿人
第1章　开始使用R语言和机器学习　1
1.1　探究R的基本内容　2
1.1.1　使用R作为科学计算器　2
1.1.2　向量运算　3
1.1.3　特殊值　5
1.2　R的数据结构　5
1.2.1　向量　6
1.2.2　数组和矩阵　8
1.2.3　列表　13
1.2.4　数据框　16
1.3　使用函数　20
1.3.1　内置函数　20
1.3.2　用户自定义函数　20
1.3.3　以参数形式传递函数　21
1.4　控制代码流　22
1.4.1　使用if、if-else和ifelse语句　22
1.4.2　使用switch语句　23
1.4.3　循环　23
1.5　高级结构　24
1.5.1　lapply和sapply函数　25
1.5.2　apply函数　26
1.5.3　tapply函数　27
1.5.4　mapply函数　28
1.6　进一步使用R　29
1.6.1　获得帮助　29
1.6.2　处理添加包　30
1.7　机器学习基础　30
1.7.1　机器学习——真正的含义是什么　30
1.7.2　机器学习——如何应用于现实世界　31
1.7.3　机器学习算法的类型　32
1.8　总结　33
第2章　让我们进行机器学习　34
2.1　理解机器学习　35
2.2　机器学习算法　35
2.3　算法家族　40
2.3.1　有监督学习算法　41
2.3.2　无监督学习算法　52
2.4　总结　57
第3章　应用市场购物篮分析预测顾客购买趋势　58
3.1　检测和预测趋势　59
3.2　市场购物篮分析　60
3.2.1　市场购物篮分析的真正含义　60
3.2.2　核心概念和定义　60
3.2.3　用于分析的技术　62
3.2.4　制定数据驱动的决策　63
3.3　评估产品列联矩阵　63
3.3.1　获取数据　64
3.3.2　分析和可视化数据　65
3.3.3　整体推荐　66
3.3.4　高级列联矩阵　67
3.4　频繁项集的生成　69
3.4.1　开始　69
3.4.2　数据检索和转换　69
3.4.3　建立项集关联矩阵　70
3.4.4　建立频繁项集生成工作流　72
3.4.5　检测购物趋势　74
3.5　关联规则挖掘　75
3.5.1　加载添加包和数据　76
3.5.2　探索性分析　76
3.5.3　检测和预测购物趋势　77
3.5.4　关联规则可视化　80
3.6　总结　80
第4章　建立产品推荐系统　82
4.1　理解推荐系统　83
4.2　推荐系统存在的问题　83
4.3　协同过滤器　84
4.3.1　核心概念和定义　84
4.3.2　协同过滤算法　85
4.4　建立推荐引擎　87
4.4.1　矩阵分解　88
4.4.2　算法实现　90
4.4.3　解释结果　94
4.5　产品推荐引擎实战　95
4.5.1　提取、转换并分析数据　96
4.5.2　模型准备和预测　99
4.5.3　模型评价　100
4.6　总结　102
第5章　信用风险检测和预测——描述分析　103
5.1　分析的类型　104
5.2　我们将要面临的挑战　104
5.3　什么是信用风险　105
5.4　获取数据　105
5.5　数据处理　107
5.5.1　处理缺失值　107
5.5.2　数据类型转换　108
5.6　数据分析和变换　109
5.6.1　建立分析实用函数　110
5.6.2　分析数据集　113
5.6.3　保存变换后的数据集　130
5.7　接下来的步骤　130
5.7.1　建立特征集　130
5.7.2　选择机器学习算法　131
5.8　总结　131
第6章　信用风险检测和预测——预测分析　133
6.1　预测分析　134
6.2　如何预测信用风险　135
6.3　预测模型中的重要概念　137
6.3.1　准备数据　137
6.3.2　建立预测模型　137
6.3.3　评估预测模型　138
6.4　获取数据　140
6.5　数据处理　141
6.6　特征选择　142
6.7　应用逻辑回归建立模型　144
6.8　应用支持向量机建立模型　148
6.9　应用决策树建立模型　156
6.10　应用随机森林建立模型　161
6.11　应用神经网络建立模型　165
6.12　模型比较和选择　169
6.13　总结　171
第7章　社交媒体分析：分析Twitter数据　172
7.1　社交网络（Twitter）　172
7.2　数据挖掘与社交网络　174
7.2.1　挖掘社交网络数据　175
7.2.2　数据和可视化　176
7.3　从Twitter API开始　179
7.3.1　概览　179
7.3.2　注册应用　180
7.3.3　链接/认证　181
7.3.4　提取推文示例　182
7.4　Twitter数据挖掘　183
7.4.1　常用词汇和关联　186
7.4.2　广泛使用的设备　191
7.4.3　层次聚类　192
7.4.4　主题建模　194
7.5　社交网络数据挖掘带来的挑战　197
7.6　参考文献　198
7.7　总结　198
第8章　Twitter数据的情感分析　200
8.1　理解情感分析　201
8.1.1　情感分析的关键概念　201
8.1.2　方法　204
8.1.3　应用　205
8.1.4　挑战　206
8.2　推文中的情感分析　206
8.2.1　极性分析　208
8.2.2　基于分类的算法　212
8.3　总结　223