首页>参考读物>计算机科学与技术>综合

R语言数据挖掘:实用项目解析
作者 : [印度]普拉迪帕塔?米什拉(Pradeepta Mishra) 著
译者 : 黄芸 译
出版日期 : 2017-05-23
ISBN : 978-7-111-56520-8
定价 : 49.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 197
开本 : 16
原书名 : R Data Mining Blueprints
原出版社: Packt Publishing Ltd.
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

图书前言

随着数据规模和种类的增长,应用数据挖掘技术从大数据中提取有效信息变得至关重要。这是因为企业认为有必要从大规模数据的实施中获得相应的投资回报。实施数据挖掘的根本性原因是要从大型数据库中发现隐藏的商机,以便利益相关者能针对未来业务做出决策。数据挖掘不仅能够帮助企业降低成本以及提高收益,还能帮助他们发现新的发展途径。
本书将介绍使用R语言(一种开源工具)进行数据挖掘的基本原理。R是一门免费的程序语言,同时也是一个提供统计计算、图形数据可视化和预测建模的软件环境,并且可以与其他工具和平台相集成。本书将结合R语言在示例数据集中的应用来阐释数据挖掘原理。
本书将阐述数据挖掘的一些主题,如数学表述、在软件环境中的实现,以及如何据此来解决商业问题。本书的设计理念是,读者可以从数据管理技术、探索性数据分析、数据可视化等内容着手学习,循序渐进,直至建立高级预测模型(如推荐系统、神经网络模型)。本书也从数据科学、分析学、统计建模以及可视化等角度对数据挖掘这一概念进行了综述。
本书内容
第1章 带领读者初识R编程基础,借助真实的案例帮助读者了解如何读写数据,了解编程符号和语法指令。这一章还给出了供读者动手实践的R脚本,以更好地理解书中的原理、术语以及执行特定任务的深层原因。之所以这样设计,是为了让没有太多编程基础的读者也能使用R来执行各种数据挖掘任务。这一章将简述数据挖掘的意义以及它与其他领域(诸如数据科学、分析学和统计建模)的关系,除此之外,还将展开使用R进行数据管理的讨论。
第2章 帮助读者理解探索性数据分析。探索数据包括数据集中变量的数值描述和可视化,这将使得数据集变得直观,并使我们能对其快速定论。对数据集有一个初步的理解很重要,比如选择怎样的变量进行分析、不同变量之间的关联,等等。创建交叉二维表有助于理解分类变量之间的关系,对数据集实施经典统计检验来验证对数据的种种假设。
第3章 涵盖从基础的数据可视化到调用R语言中的库实现高级的数据可视化。观察数字和统计能从多个侧面“告诉”我们关于变量的“故事”,而当图形化地了解变量和因子之间的关系时,它将展示另一个“故事”。可见,数据可视化将揭示数值分析和统计无法展现的信息。
第4章 帮助读者学习利用回归方法的预测分析基础,包括线性和非线性回归方法在R中的实现。读者不仅可以掌握所有回归方法的理论基础,也将通过R实践获得实际动手操作的经验。
第5章 介绍了一种产品推荐方法——购物篮分析(MBA)。这种方法主要是将交易级的商品信息关联,从中找出购买了相似商品的客户分类,据此推荐产品。MBA还可以应用于向上销售和交叉销售中。
第6章 介绍了什么是分类、聚类是如何应用到分类问题的、聚类用的是什么方法等内容,并对不同的分类方法进行了对比。在这一章,读者将了解使用聚类方法的分类基础知识。
第7章 涵盖以下内容及相应的R语言实现:推荐系统是什么,实现推荐的工作原理、类型和方法,使用R语言实现商品推荐。
第8章 使用R语言和一个实际数据集实现主成分分析(PCA)、奇异值分解(SVD)和迭代特征提取等降维技术。随着数据的量与类的增长,数据的维度也在随之增长。降维技术在不同领域都有很多应用,例如图像处理、语音识别、推荐系统、文本处理等。
第9章 讲解了多种类型的神经网络、方法,以及通过不同的函数来控制人工神经网络训练的神经网络变体。这些神经网络执行标准的数据挖掘任务,例如:采用基于回归的方法预测连续型变量,利用基于分类的方法预测输出水平,利用历史数据来预测数值变量的未来值,以及压缩特征从而识别重要特征以执行预测或分类。
准备工作
为了学习本书附带的例子和代码,读者需要从https://cran.r-project.org/下载R软件(也可以从https://www.rstudio.com/下载R Studio),然后安装。没有特定的硬件要求,只需要一台至少2GB RAM的计算机,适用于任何操作系统,包括MAC、Linux和Windows。
读者对象
本书适用于刚开始从事数据挖掘、数据科学或者预测建模的读者,也适用于有中等统计与编程水平的读者。基本的统计知识对于理解数据挖掘是必需的。阅读前几章并不需要编程知识。本书将讲解如何使用R语言进行数据管理和基本的统计分析。本书亦适用于学生、专业人员及有志成为数据分析师的读者。
排版约定
在本书中,为了区分不同内容,字体风格也会随之变化。以下是字体风格示意:
书中的代码、文件名、文件扩展名、路径名、URL地址、用户输入、推特标签看起来会是这样:“在处理ArtPiece数据集时,我们将通过一些与业务相关的变量来预测一个艺术作品是否值得购买。”
所有命令行的输入或输出在书中显示如下:
作者的话
如果读者对于本书所涉及的内容有疑问,可以在Twitter上搜索@mishra1_PK,我非常乐意为大家提供帮助。
非常感谢我的妻子Prajna和女儿Aarya,也要感谢我的朋友和工作中的同事在我完成本书的过程中给予我的支持与鼓励。
关于审稿人
Alexey Grigorev是一名熟练的数据科学家和软件工程师,有超过5年的专业经验。他现在是Searchmetrics Inc的一名数据科学家。在日常工作中,他热衷于使用R和Python进行数据清洗、数据分析和建模工作。他也是Packt出版的其他数据分析书籍的审稿人,比如《测试驱动的机器学习》与《掌握R数据分析》。

上架指导

计算机\数据挖掘

作者简介

[印度]普拉迪帕塔?米什拉(Pradeepta Mishra) 著:暂无相关简介

译者简介

黄芸 译:暂无简介

译者序

在这个信息爆炸的时代中,无论是个人还是企业,都是数据的产生者,同时也是数据价值的受益者。对于已经积累了大量数据的企业来说,通过数据挖掘来提升投资回报率(Return on Investment,ROI)或商业价值已成为刻不容缓的目标。
R语言凭借其健康的开源工具生态及简单易上手的语言特性,广泛应用于统计领域,并获得了数据分析爱好者们的青睐。R语言的主要用户群或许未曾想到,也正如数据挖掘人士未曾想到的是,用作统计分析工具的R语言也可以成为数据挖掘的利器。R语言的语言特性使其不仅适合数据分析人员使用,也适合所有试图从数据中获取个人在意的信息或者企业关注的业务价值的各行业人员使用。
本书是一本介绍使用R语言进行数据挖掘的指南书。既然是指南书,也就不要求读者有多么深厚的统计基础以及丰富的编程经验。本书将对所涉及的理论知识进行简单的介绍,清晰地列出相关公式与使用技术时的注意要点,还配有大量代码和图片,以帮助读者通过实践加深对概念的理解。为了给读者营造出一种清晰的数据挖掘项目流程感,本书按照“数据处理——数据探索——建立应用模型”这样的顺序组织编写,以求做到简洁而不失细节。此外,本书对数据处理中的棘手问题(譬如时间格式、缺失值的处理)均做出了详细指导,且由于数据探索在项目中的重要性,亦从统计角度到可视化角度给出了讲解。针对应用模型的建立,本书选取了现实中常见的模型进行介绍,由简单的回归模型开始,到应用广泛的购物篮分析、推荐系统构建,再到较复杂的神经网络模型。
本书的一大特色是结合了现实中广泛应用的数据案例,如零售业、制造业、信用评分、医疗业等的数据案例。通过本书的学习,读者不仅能够掌握一定的技术实战能力,也能从中得到一些有关业务应用的启发,最终学以致用。

黄 芸

图书目录

译者序
前言
第1章 使用R内置数据进行数据处理 1
1.1 什么是数据挖掘 2
1.2 R语言引论 4
1.2.1 快速入门 4
1.2.2 数据类型、向量、数组与矩阵 4
1.2.3 列表管理、因子与序列 7
1.2.4 数据的导入与导出 8
1.3 数据类型转换 10
1.4 排序与合并数据框 11
1.5 索引或切分数据框 15
1.6 日期与时间格式化 16
1.7 创建新函数 17
1.7.1 用户自定义函数 17
1.7.2 内置函数 18
1.8 循环原理——for循环 18
1.9 循环原理——repeat循环 19
1.10 循环原理——while循环 19
1.11 apply原理 19
1.12 字符串操作 21
1.13 缺失值(NA)的处理 22
小结 23
第2章 汽车数据的探索性分析 24
2.1 一元分析 24
2.2 二元分析 30
2.3 多元分析 31
2.4 解读分布和变换 32
2.4.1 正态分布 32
2.4.2 二项分布 34
2.4.3 泊松分布 34
2.5 解读分布 34
2.6 变量分段 37
2.7 列联表、二元统计及数据正态性检验 37
2.8 假设检验 41
2.8.1 总体均值检验 42
2.8.2 双样本方差检验 46
2.9 无参数方法 48
2.9.1 Wilcoxon符号秩检验 49
2.9.2 Mann-Whitney-Wilcoxon检验 49
2.9.3 Kruskal-Wallis检验 49
小结 50
第3章 可视化diamond数据集 51
3.1 使用ggplot2可视化数据 54
3.1.1 条状图 64
3.1.2 盒状图 65
3.1.3 气泡图 65
3.1.4 甜甜圈图 66
3.1.5 地理制图 67
3.1.6 直方图 68
3.1.7 折线图 68
3.1.8 饼图 69
3.1.9 散点图 70
3.1.10 堆叠柱形图 75
3.1.11 茎叶图 75
3.1.12 词云 76
3.1.13 锯齿图 76
3.2 使用plotly 78
3.2.1 气泡图 78
3.2.2 用plotly画条状图 79
3.2.3 用plotly画散点图 79
3.2.4 用plotly画盒状图 80
3.2.5 用plotly画极坐标图 82
3.2.6 用plotly画极坐标散点图 82
3.2.7 极坐标分区图 83
3.3 创建地理制图 84
小结 84
第4章 用汽车数据做回归 85
4.1 回归引论 85
4.1.1 建立回归问题 86
4.1.2 案例学习 87
4.2 线性回归 87
4.3 通过逐步回归法进行变量选取 98
4.4 Logistic回归 99
4.5 三次回归 105
4.6 惩罚回归 106
小结 109
第5章 基于产品数据的购物篮分析 110
5.1 购物篮分析引论 110
5.1.1 什么是购物篮分析 111
5.1.2 哪里会用到购物篮分析 112
5.1.3 数据要求 112
5.1.4 前提假设/要求 114
5.1.5 建模方法 114
5.1.6 局限性 114
5.2 实际项目 115
5.2.1 先验算法 118
5.2.2 eclat算法 121
5.2.3 可视化关联规则 123
5.2.4 实施关联规则 124
小结 126
第6章 聚类电商数据 127
6.1 理解客户分类 128
6.1.1 为何理解客户分类很重要 128
6.1.2 如何对客户进行分类 128
6.2 各种适用的聚类方法 129
6.2.1 K均值聚类 130
6.2.2 层次聚类 135
6.2.3 基于模型的聚类 139
6.2.4 其他聚类算法 140
6.2.5 聚类方法的比较 143
参考文献 143
小结 143
第7章 构建零售推荐引擎 144
7.1 什么是推荐 144
7.1.1 商品推荐类型 145
7.1.2 实现推荐问题的方法 145
7.2 前提假设 147
7.3 什么时候采用什么方法 148
7.4 协同过滤的局限 149
7.5 实际项目 149
小结 157
第8章 降维 158
8.1 为什么降维 158
8.2 降维实际项目 161
8.3 有参数法降维 172
参考文献 173
小结 173
第9章 神经网络在医疗数据中的应用 174
9.1 神经网络引论 174
9.2 理解神经网络背后的数学原理 176
9.3 用R语言实现神经网络 177
9.4 应用神经网络进行预测 180
9.5 应用神经网络进行分类 183
9.6 应用神经网络进行预测 185
9.7 神经网络的优缺点 187
参考文献 187
小结 187

教学资源推荐
作者: Larry Snyder; Calvin Lin
作者: 吴国伟 徐子川 姚琳 编著 郭禾 主审
作者: 彭波 主编
作者: 郑阿奇 主编 丁有和 刘毅 编著
参考读物推荐
作者: 中国人民大学 刘启升
作者: (美)Julie Dirksen 著
作者: [美]杰夫·戈塞尔夫(Jeff Gothelf),[美]乔什·赛登(Josh Seiden) 著