首页>参考读物>数学>概率论与数理统计

R统计应用开发实战
作者 : (印度) Prabhanjan Narayanachar Tattart 著
译者 : 程豪 译
出版日期 : 2015-04-08
ISBN : 978-7-111-49347-1
定价 : 59.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 250
开本 : 16
原书名 : R Statistical Application Development by Example Beginner's Guide
原出版社: Packt Publishing Ltd.
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

图书特色

系统讲解R应用开发的统计学基础,并针对不同问题给出具体的R实现代码
本书详细讲解统计学基本概念和R软件操作,几乎每个概念后面都有R软件实现的代码,以此说明R软件的优势和应用的多样性。
本书从一开始简单讨论数据类型,到最后探讨当前先进的统计模型CART,每一步都包含有用的数据和R代码作为示例。对于读者而言,本书不仅仅是简单的描述性数据总结,而是一次从探索性分析开始,历经线性回归建模,最后以logistic回归和CART结束的旅程。

通过阅读本书,你将学到:
实现不同数据类型的有效可视化
完成探索性数据分析:树立正确的态度,实现有效的推理
结合经典推断理论和现代的计算能力学习统计推断
深入探究回归模型,如连续型与离散型的线性回归和logistic回归
介绍CART——一种有效处理非线性问题的学习工具
内容简介
R是一套完整的数据处理、计算和制图的开源软件系统。本书用通俗易懂的语言对R在机器学习、数据挖掘等领域的应用进行深入浅出的讲解,细致地展示实现不同问题的R程序和运行结果,为广大读者快速学习和掌握R语言提供指导。
本书共10章,第1~5章介绍R软件和统计的基本知识,第6~10章详细讨论应用和现代回归树模型。第1章介绍数据特征,用R展示不同类型的变量和数据分类;第2章详细讲解如何用R实现数据的导入和导出;第3章分别对分类型和数值型数据讨论R的可视化问题;第4章研究探索性分析,展示用R实现对数据作初步分析的一些直观的技术和方法;第5章从似然函数和极大似然估计问题开始,通过R编程,选择一些具体的函数研究参数的置信区间,同时对重要统计量进行了比较均值的Z-检验和t-检验以及比较方差的F检验;第6章是线性回归分析的R实现问题,对因变量和自变量建立线性函数关系;第7章引入一个分类模型——logistic回归模型,并用ROC曲线识别更好的分类模型;第8章介绍标准化的回归模型,探讨过拟合问题并给出示例;第9章提出基于树的回归模型,利用R进行建模,形成分类回归机制;第10章运用R解决分类回归等问题,用装袋法(bagging算法)和随机森林比较分类回归的两处改善。

作者简介
Prabhanjan Narayanachar Tattar 现就职于戴尔全球分析公司的客户服务分析部,担任班加罗尔大学的戴尔公司商业分析顾问。他有多年的R软件使用经验,并曾研发过gpk和ACSWR两个软件包,出版了《A Course in Statistics with R》。他还曾在IBS-GK Shukla青年生物统计学家奖(2005年)和Dr. U.S. Nair奖的评选中均获得青年统计学家的荣誉称号。

译者简介
程豪 中国人民大学统计学博士在读,主要研究方向为机器学习、数据挖掘、统计预测、社会网络及结构方程模型。他担任了10多个课题的主要负责人和研究员,合作发表论文6篇,并在“海峡两岸CATI与数据挖掘合作20周年暨第十届中国数据挖掘与商业智能研讨会”中做报告。2014年获得“汇丰杯”中国高校SAS数据分析大赛冠军。除本书外,还曾参与翻译《R语言编程艺术》。

图书前言

开放源代码的R软件正在迅速成为统计领域优先考虑的应用软件,而且在它已适用的丰富的科学网络中,R软件也被用到机器学习、数据挖掘等领域。对整个社会来讲,数学理论和统计应用相结合确实具有标志性,R软件在其中起着举足轻重的作用。本书在用R语言建立统计模型方面算是一次简洁易懂的尝试,即使是那些对统计和R不太熟悉的读者,也可参考阅读。在不同背景的同事和朋友使用这个软件的过程中,我发现许多人对学习这方面的知识都很感兴趣,而且会将其应用在他们的研究领域,帮助他们在涉及不确定性的分析中做出适当的决策。如果是十年前,我的朋友可能会满足于有人推荐一本有用的参考书。仅此而已!几乎在所有的领域,该项工作均已通过计算机完成,而且他们可以以电子表、数据库形式获得数据,有时也可以获得普通的文本格式数据。对于一个合适的统计学模型,会有这样一个不变的问题:“使用什么软件?”我可以仅仅用一个字母来回答:“R!”为什么要使用R?因为它确实是一个简单的决定,并且在过去的7年间成为我学术研究时的伙伴。在本书里,这些经历已经转化为各章的具体内容,以及较清晰的R语言建模分析。
与我的那些有志于统计建模的同事和朋友交流的一个意外收获是,我了解到他们对这一主题的学习曲线。克服困难的第一步是介绍绝大部分初学者都会熟悉的基本概念,比如数据。只是在细微处有些不同,而且我坚信介绍自身领域的内容会激励读者在他们的路上走得更远。针对大多数统计软件,R会提供模块和使用包,而且使用包几乎覆盖了多数最近发明的统计学方法。本书的前5章以基础知识和R软件为主体,因此包括了R基础知识、数据可视化、探索性数据分析和统计推断。
基础知识部分会使用有趣的例子来加以说明,并且为后5章建立框架。这部分首先介绍了回归模型、线性和logistic回归,这些是应用部分最重要的研究热点。这种讨论实质上更普遍,而且这种方法也很容易应用于不同的领域。最后两章受到了布雷曼(Breiman)学校的启发,因此详细介绍了分类和回归树的现代方法,并且用实际的数据集进行了说明。
本书的主要内容
第1章通过问卷和数据集介绍不同类型的数据。在一些有趣的背景下,该章详细说明了统计模型的需求。然后简要介绍了R软件安装和相关使用包。通过介绍R程序讨论了离散型和连续型随机变量。
第2章首先简单介绍了R语言基础知识。该章通过清晰、简洁的例子讨论了数据帧、向量、矩阵和列表。然后详细介绍了如何从外面导入csv、xls和其他格式的数据。该章还涉及了为其他软件从R写入数据/对象,并且在最后介绍了包含在R会话管理上的一个对话。
第3章分别针对分类型和数值型数据集讨论了有效的图表展示方法。对于分类型数据,可以用来作条形图、散点图、样条和镶嵌图,以及四折图;而对于连续型/数值型数据,可以作直方图、箱线图和散点图。同时该章也简单介绍了ggplot2的使用方法。
第4章涵盖了初级数据分析所用到的很直观的技术和方法。作为初级分析的步骤,探索性数据分析(EDA)的可视化技术(如茎叶图,字母值,以及对耐抗线、平滑数据和中位数平滑的建模方法)会给出很独到的见解。
第5章首先强调了似然函数和极大似然估计。通过用一些针对具体问题而定义的函数来研究参数的置信区间。本章还介绍了一些重要的统计检验,包括比较均值的Z-检验和t-检验、卡方检验和比较方差的F-检验。
第6章的线性回归分析建立了结果变量和解释变量集之间的线性关系。这个线性回归模型使用了很多潜在的假设,而且这些假设都可以用一些验证方法进行证明。一个模型可能受到一个简单的观测、一个简单的因变量取值或一个解释变量的影响。该章深入讨论了统计度量,帮助去除一个或更多的异常情况。给定很多协变量,利用模型选择方法可以发现一个有效的模型。
第7章讨论的是,当因变量是一个二分类变量时,logistic回归模型会被用作一个分类模型。通过模型的残差,对模型进行统计诊断和有效性验证,可以实现优化。受试者工作特征曲线也会被用来识别一个更好的分类模型。
第8章就前两章提出的模型的过度拟合问题进行讨论。岭回归明显减少了一个模型过度拟合的问题,而且样条模型也为下一章讨论的模型奠定了基础。
第9章提出了一个基于树的回归模型。这些树最初是使用R函数进行建模的,最终的树也通过基本的代码重新进行调整,而这些代码有助于理解分类回归机制。
第10章用bagging算法和随机森林比较分类回归的两处改进。该章通过一个数据集帮助读者巩固从第6章~第10章介绍的所有模型。
第1章~第5章是R软件和统计的基本知识,而第6章~第10章详细讨论了应用和现代回归模型。
在本书的最后给出了参考文献。
阅读本书前的准备工作
R是学习本书时唯一需要的软件,下载网址为:http://www.cran.r-project.org/。在一个R语言工作环境中完成任务时,将会用到R软件包。在R软件包RSADBE中可以获得本书中的数据集,RSADBE是本书英文书名的缩写,详见网址:http://www.cran.r-project.org/web/packages/RSADBE/index.html。
本书的读者对象
本书适合有一定统计学基础而且在他们的领域需要统计学应用的读者阅读。前7章对于统计学的任何硕士研究生均是有用的,如果想进一步学习也可以很容易完成本书其他章节的阅读并获得分类回归的应用知识。
勘误与相关资源
如果你发现任何错误,请访问下面的网址进行反馈http://www.packtpub.com/submit-errata。选择相应图书,点击勘误表提交表单的链接,并且录入勘误的细节。一旦你的反馈被证实,你的提交表将会被接收而且会上传到我们的网站,或者被添加到已经存在的勘误表中。本书的相关资源可登录华章网站(www.hzbook.com)本书页面下载。

上架指导

计算机\程序设计

封底文字

本书详细讲解统计学基本概念和R软件操作,几乎每个概念后面都有R软件实现的代码,以此说明R软件的优势和应用的多样性。
本书从一开始简单讨论数据类型,到最后探讨当前先进的统计模型CART,每一步都包含有用的数据和R代码作为示例。对于读者而言,本书不仅仅是简单的描述性数据总结,而是一次从探索性分析开始,历经线性回归建模,最后以logistic回归和CART结束的旅程。
通过阅读本书,你将学到:
 实现不同数据类型的有效可视化
 完成探索性数据分析:树立正确的态度,实现有效的推理
 结合经典推断理论和现代的计算能力学习统计推断
 深入探究回归模型,如连续型与离散型的线性回归和logistic回归
 介绍CART—一种有效处理非线性问题的学习工具

作者简介

(印度) Prabhanjan Narayanachar Tattart 著:暂无简介

译者简介

程豪 译:暂无简介

译者序

随着R在各个数据分析领域的广泛应用,学习运用R语言处理和分析问题越来越受到人们的关注。然而,国内关于R语言应用方面的著作并未详尽地介绍其在统计学领域的使用和开发。而且对于非统计学专业,或并未接受过编程训练的朋友,在使用R语句进行数据分析时,很容易出现不知如何处理,以及得出结果后不知如何进行解释等问题。本书从应用的角度对有分析需求或有学习兴趣的朋友给予一定的指导,为读者详细展示了数据获取—数据分析—统计建模—解释说明整个过程。
在翻译本书时,我竭尽全力注重每个细节,希望可以尽己之所能,还原作者的研究成果,并清晰简洁地呈现给读者。但是译文也可能会存在一些问题,还请大家见谅并予以指正。
在此还要感谢我的导师易丹辉教授对我孜孜不倦的教诲,让我用踏实认真的态度完成整本书的翻译和审校。感谢我的家人,谢谢他们一路走来对我的陪伴、包容和理解。最后,我要特别感谢我的至爱刘钰洁,大学同学李倩、刘双和翟树芬,研究生同学蔡丽、鲁韶菲和宋丹,感谢他们利用自己宝贵的时间和精力参与本书翻译和审校工作,并对他们所付出的辛苦和汗水表示诚挚的敬意。
希望本书可以对广大有需求的读者有所帮助。

图书目录

译者序
前言
第1章 数据特征 1
1.1 问卷调查及其组成部分 1
1.2 在计算机科学中的不确定性研究 5
1.3 R安装 6
1.3.1 使用R包 7
1.3.2 RSADBE——本书的R包 8
1.3.3 离散分布 9
1.3.4 离散均匀分布 10
1.3.5 二项分布 11
1.3.6 超几何分布 13
1.3.7 负二项分布 14
1.3.8 泊松分布 15
1.4 连续分布 16
1.4.1 均匀分布 16
1.4.2 指数分布 17
1.4.3 正态分布 18
1.5 本章小结 20
第2章 数据导入和导出 21
2.1 data.frame和其他格式数据 21
2.1.1 常数、向量和矩阵 21
2.1.2 列表对象 28
2.1.3 data.frame对象 30
2.1.4 表对象 33
2.2 函数read.csv、read.xls以及外来程序包 35
2.3 导出数据/图表 41
2.3.1 导出R对象 41
2.3.2 导出图表 41
2.4 管理一个R会话 43
2.5 本章小结 45
第3章 数据可视化 46
3.1 分类数据的可视化技术 47
3.1.1 条形图 47
3.1.2 点图 52
3.1.3 脊柱图、马赛克图 54
3.1.4 饼图和四折图 58
3.2 连续型变量数据的可视化 59
3.2.1 箱线图 60
3.2.2 直方图 62
3.2.3 散点图 66
3.2.4 帕累托图 70
3.3 ggplot概述 71
3.4 本章小结 73
第4章 探索性分析 75
4.1 基本汇总统计量 75
4.1.1 百分位数、四分位数和中位数 76
4.1.2 折页数 76
4.1.3 四分位极差 77
4.2 茎叶图 80
4.3 字母值 83
4.4 数据变换 84
4.5 袋状图:二元箱线图 86
4.6 耐抗线 88
4.7 平滑数据 90
4.8 中位数平滑 93
4.9 本章小结 95
第5章 统计推断 97
5.1 极大似然估计 98
5.1.1 可视化似然函数 98
5.1.2 寻找极大似然估计 101
5.1.3 使用fitdistr函数 103
5.2 置信区间 105
5.3 假设检验 108
5.3.1 二项式检验 109
5.3.2 比例检验和卡方检验 111
5.3.3 基于正态分布检验:单样本 113
5.3.4 基于正态分布检验:两样本 118
5.4 本章小结 121
第6章 线性回归分析 122
6.1 简单线性回归模型 123
6.1.1 随意选择参数会发生什么 123
6.1.2 建立一个简单线性回归模型 126
6.1.3 ANOVA及置信区间 128
6.1.4 模型验证 129
6.2 多元线性回归模型 133
6.2.1 平均K个简单线性回归模型或建立一个多元回归模型 134
6.2.2 建立一个多元线性回归模型 136
6.2.3 多元线性回归模型的ANOVA和置信区间 137
6.2.4 有用的残差图 139
6.3 回归诊断 141
6.3.1 杠杆点 142
6.3.2 影响点 142
6.3.3 DFFITS 和DFBETAS 143
6.4 多重共线性问题 143
6.5 选择模型 145
6.5.1 逐步选择 145
6.5.2 基于准则的方法    146
6.6 本章小结 150
第7章 logistic回归模型 151
7.1 二元回归问题 151
7.2 probit回归模型 153
7.3 logistic 回归模型 155
7.4 模型验证和诊断 160
7.4.1 广义线性模型的残差图 160
7.4.2 广义线性模型的影响点和控制点 163
7.5 接收操作曲线 166
7.6 德国的信用甄别数据集的logistic回归 168
7.7 本章小结 171
第8章 正规化回归模型 172
8.1 过度拟合问题 172
8.2 回归样条 176
8.2.1 基函数 176
8.2.2 分段线性回归模型 176
8.2.3 自然三次样条函数和一般的B样条曲线 179
8.3 线性模型的岭回归 183
8.4  logistic回归模型的岭回归 187
8.5 再看模型评估 188
8.6 本章小结 193
第9章 分类与回归树 194
9.1 递归划分法 194
9.1.1 划分数据 196
9.1.2 第一个树 197
9.2 构造回归树 200
9.3 构造分类树 209
9.4 德国信用数据集的分类树 215
9.5 树的修剪和完善 218
9.6 本章小结 220
第10章 分类与回归树及其他 222
10.1 分类与回归树的改进 222
10.2 Bagging 225
10.2.1 bootstrap算法 225
10.2.2 bagging算法 227
10.3 随机森林 230
10.4 整合 233
10.5 本章小结 238
参考文献 239

教学资源推荐
作者: (美)Kai Lai Chung 著
作者: (美)George E.P.Box, J.Stuart Hunter, William G.Hunter 著
作者: Russell C.Walker
作者: [美] 谢尔登·M.罗斯(Sheldon M. Ross) 著
参考读物推荐
作者: [美] 贝内迪克特·格罗斯(Benedict Gross) 乔·哈里斯(Joe Harris) 埃米莉·里尔(Emily Riehl) 著