统计分析:以R与Excel为分析工具
作者 : [美]康拉德·卡尔伯格(Conrad Carlberg) 著
译者 : 程豪 译
出版日期 : 2018-09-29
ISBN : 978-7-111-61001-4
定价 : 59.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 240
开本 : 16
原书名 : R for Microsoft Excel Users: Making the Transition for Statistical Analysis
原出版社: Pearson Education USA(Shawn)
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

统计分析能够帮助人们发掘有利于生产生活的规律和价值,为相关决策提供依据和参考。本书为熟悉Excel操作的人士提供通向R语言的实用性指南。借助R与Excel工具系统阐述统计分析方法、技术。通过两种软件的比较,围绕描述性统计、回归分析、方差分析、logistic回归、主成分分析几大模块,详细举出所需函数及代码,有效帮助读者在类比中掌握R语言,实现从Excel到R的过渡。

图书特色

统计分析
以R与Excel为分析工具
[ 美 ] 康拉德·卡尔伯格(Conrad Carlberg) 著
程豪 译
R for Microsoft Excel Users
Making the Transition for Statistical Analysis

图书前言

父亲曾经告诉我,在学术界,研究问题像木桩,各种应用程序像刀,因为木桩很小,所以伐木的刀需要格外锋利,否则难以砍下木桩,解决棘手的问题。这曾是高校教职人员不断争论的话题。我还听过很多不同的其他版本。当看见人们在讨论应用程序R和Microsoft Excel的区别时,我又想起了这句话。那种感觉异常强烈。
如果说我对R和Excel存在个人偏好,那么你可能认为我更倾向于选择Excel。自20世纪80年代末以来,我一直使用Excel作定量分析。无论是金融分析还是统计推断,Excel都能帮助我很好地解决问题。作为一名顾问,如果客户的系统中安装了Excel并且他们能熟练操作,那么这对我来说意义非凡。
Excel可以展示出很多统计分析内部(“黑匣子”)的细节。客户尽管没必要掌握从原始数据到最终概率表达的所有细节,但也需要知道这些细节可查,以便应对不时之需。
此外,Excel还是一种功能强大的学习工具。Excel的工作表函数和求解器Solver可以构建二元logistic回归模型。完全理解统计分析的最佳方法就是从头开始完成整个操作。
从更技术的角度来说,Excel并不是理想的统计应用程序。(Excel从不在考虑范围内。)这是因为自从30年前Excel首次发布以来,你还是会发现它在统计性能上的一些缺陷和错误,但SAS、SPSS、Stata、Minitab等软件不存在这些不足。在此期间,Microsoft已经解决和修正了很多统计功能方面的问题。但是,解决LINEST()函数中常数为0的问题比较麻烦,需要对传统代数矩阵进行QR分解。从Excel 2016 的分析功能来看,这些问题仍然存在。
但是,Excel确实有助于统计分析,尤其是用VBA新增功能修复本地工作表函数时,Excel的帮助更大。另一方面,Excel能够处理的统计问题有限。比如,习惯于分析损益表和资产负债表的Excel用户,很容易达到初级、中级的统计分析水平(如多元回归)。Excel在处理统计问题方面也仅限于此。
R则有所不同。你很难举出R无法处理的统计问题。作为另一种免费开源软件,学会使用R完全是另一回事。我们主要通过命令行界面和菜单结构实现R的操作。(也可以通过一些图形用户界面使用R,在我看来这些界面都不令人满意。)下面列出R的一些特征:
R语言是区分大小写的,使用时要确保正确使用大小写字母。例如,Anova和anova在R中是两个不同的函数。尽管这两个函数都可返回方差分析表(方差分析的首字母缩略词即为函数名),但只有一个函数可以正确处理单元格观测数不同的因子分析。
再比如,函数XLGetRange可以直接导入Excel工作表数据,为后续分析做准备。但是,最好不要输入xlgetrange,因为R会显示无法找到目标函数xlgetrange。
R不存在明确的数据格式管理规则。存在这样一类函数,需要通过设置一些函数参数来决定函数结果的小数位数。还有一类函数,需要通过options语句或print语句来提供这些信息。在某些情况下,可以将字符作为整数中的千位分隔符,对于分数等数值,需要再次使用字符作为分隔符。
R中反斜杠的作用与文件地址中的反斜杠不同。以前,可能常用反斜杠指定一个路径,比如,csv文件的地址如下:C:\Users\Fred\Desktop\jr.csv。
但如果在R的read.csv函数中用反斜杠读入文件,则会出现错误。
R不用单个反斜杠分隔子文件夹和文件夹。R中的单个反斜杠解释为一个转义符。如果想要指定文件路径,则必须输入两个反斜杠:

或者使用斜杠:

现在,这些规则可以称为一些“小麻烦”,而不是“错误”或者“缺陷”。R与Excel在LINEST()中返回回归系数的顺序问题类似,R与Excel中的函数CORREL()和PEARSON()等价。然而,这些代表着成功学会用R进行统计分析的阻碍。
上面提到的问题仅仅是一些例子。那么,如何充分利用这一免费且功能广泛的应用程序,而不受这些“小麻烦”的影响呢?在我看来,唯一的方法是多加练习,熟能生巧。
但是,如果你习惯用Excel做统计分析,我知道你会做哪些分析。你会得到均值、标准差、中位数等描述性统计量和置信区间等推断统计量,以便更好地理解数据的分布特征。这些统计分析工作会用到诸如AVERAGE()的工作表函数和数据分析插件等应用工具。
对于简单的相关关系和不同因子水平下数值变量的双变量分析,通常会用到Excel工作表函数,如CORREL()、带趋势线的散点图和数据透视表。
可以用多元回归分析多变量的样本数据。对于这类统计推断问题,Excel中的TREND()和LINEST()函数,以及数据分析插件中的回归工具,都是有用的方法。
你可能不想止步于对不同因子水平下数值变量的简单统计分析,也不想仅仅完成对数据总体的统计推断。这时可以用方差分析法(ANOVA),即用标准的工作表函数完成ANOVA,同时得到上述的统计分析和推断结果。数据分析插件中的工具同样能够达到相同的效果。
或许,你还想进一步研究二分类结局变量(如购买/不购买)的概率,作为以生产线等为因子、页面停留时间等为协变量的函数。那么你需要使用前面提到的logistic回归,使用LN()和EXP()以及求解器Solver来确定方程表达式,预测二分类结局变量。
甚至还有可能,Excel的统计分析功能已无法满足你的需求,需要用VBA代码从相关矩阵提取主成分。主成分分析法是处理数据集中可测变量过多的一种标准方法,它可以在Excel工作表中将这些变量降维为少数几个潜变量。
此外,你可能还常常在Excel中进行一些其他的统计分析工作,但上面列出的应该是你会在Excel中进行的绝大多数分析工作。这些都可为学习R打下理想的基础。
假定你一开始关注的是R中与Excel处理任务相同的函数。那么随后,你可以关注与Excel操作最为类似的5或10个R程序。通过比较这两个应用程序的运行结果,你可以像熟悉Excel中类似功能一样熟悉这5或10个R函数。
通过上述学习方法可以减少学习R的难度。这样,你就突破了现有的分析限制。你的数据集可能至少包括两个因子并且每个单元格的观测数不同,或者包括一个因子和一个协变量,你需要使用方差分析法。尽管这些分析过程需要付出很大努力,但是你仍有充足的理由用Excel解决这些问题。
但如果你已经尝试用R的ANOVA函数处理平衡因子设计,那么在处理不平衡因子设计时只需要验证需要设置的选项。接下来的一小步是知道如何通过方差分析检验因子和协变量交互效应。尽管Excel能够展示分析的内部过程,但在细节设置方面有些不足。相比之下,R看起来更具吸引力。
这些就是我在本书中采取的方法。能够用Excel进行统计分析的你,应该至少熟悉前面提到的一些常用分析方法:单变量描述性统计、双变量分析、一元回归和多元回归、方差和协方差分析、logistic回归和主成分分析。
作为引言或者综述,我会给出这些分析在Excel中的实现过程。我也会展示如何用R得到相同的正确结果,包括安装哪些软件包以及如何获取这些软件包。这样你就可以在特定情况下做出选择:也许,Excel适合于需要逐步解释分析过程的你,而R适合于对Excel持怀疑态度,直接完成运行,得到翔实分析结果的你。
从未用过R的读者可能会在第1章讨论的内容中发现一些不同于Excel的新知识。
致谢
感谢Charlotte Kughen和Michael Turner。Charlotte过去一直指导我写书,Michael提供了简化清楚的技术建议。我很高兴感受到他们为本书的付出—因为本书的目的是覆盖两种应用程序,而不仅仅是一种,所以本书看起来有些难度。也要感谢Trina MacDonald将这些内容整理到一起。

上架指导

数学\统计学

封底文字

Microsoft Excel可以用来完成很多统计分析,但成千上万的用户和分析师却正在遭遇瓶颈。而作为一种功能强大的开源编程语言,R包含丰富的软件包和绘图技术,可以帮助我们更好地完成统计分析。本书作者融合自己多年的实践经验,全面、系统阐释使用Excel和R进行统计分析的实用技术、方法及技巧,准确展示了如何从Excel和R中收获更多。
  在本书中,作者首先回顾如何在Excel中完成重要的任务,然后指导你在R中完成相同的任务——包括软件包的选择、获取和安装。除此之外,书中还讲解了在哪种情况下以及如何使用Excel和R,并比较了每种工具的优劣。
  本书表述清晰易懂,将基本统计理论和反映真实世界挑战的相关实例结合起来。读完此书,你将能够得心应手地用R解决各种问题——包括很多Excel无法处理的问题。
  ·轻松过渡到R和其截然不同的用户界面
  ·列举R中丰富的软件包
  ·在Excel和R间高效移动数据
  ·使用R描述性统计分析工具DescTools,包括二值变量分析
  ·在R和Excel中完成回归分析与统计推断
  ·分析方差和协方差,包括单因子和因子化ANOVA
  ·对Solver的logistic回归使用R的mlogit软件包和glm函数
  ·用R和Excel分析时间序列和主成分

 

作者简介

[美]康拉德·卡尔伯格(Conrad Carlberg) 著:作者简介
康拉德·卡尔伯格(Conrad Carlberg)是美国量化分析、数据分析和管理应用程序(如Microsoft Excel、SAS和Oracle)领域的知名专家,也是微软Excel最有价值专家(MVP)。他拥有科罗拉多大学统计学博士学位,在高级分析技术应用方面近30年从业经验,并撰写了多部有关Excel量化分析的著作,包括《Statistical Analysis:Microsoft Excel 2010 》和《Predictive Analysis:Microsoft Excel》等。他的公司(www.conrardcarlberg.com)致力于各种公司日常涉及的销售、员工、客户管理和其他运营数据库系统数据的量化分析。

译者简介

程豪 译:暂无简介

译者序

统计分析能够帮助人们发掘有利于生产生活的规律和价值,为相关决策提供依据和参考。统计分析工具的正确选择和使用,既能体现出数据处理硬件技术的进步,又能满足信息数字化和网络迅速发展的实际需求。作为基础分析软件,Excel简单易懂、方便快捷,在基础研究、行政管理等领域应用广泛。但随着数据急速膨胀,统计分析的内容不断扩大,不仅需要完成数据整理、模型构建、可视化等环节,还需要借助功能强大的分析工具,丰富方法模型的内容,加强研究学习的深度,呈现分析结果的特色。作为一种功能强大的开源编程语言,R语言包含丰富的软件包和绘图技术,能帮助我们完成数据分析,构建统计模型,展现研究结果。
本书为熟悉Excel操作的人士提供通向R语言的实用指南。通过两种软件的比较,围绕描述性统计、回归分析、方差分析、logistic回归、主成分分析几大模块,详细举出所需函数及代码,有效帮助读者在类比中学习掌握R语言,实现从Excel到R的过渡。
从大学开始,本人花了9年时间学习统计学。《The Elements of Statistical Learning》《复杂数据统计方法—基于R的应用》以及《An Introduction to Statistical Learning with Application in R》对我的影响很大。让我在深入学习数据挖掘与机器学习、社会网络分析、结构方程模型、分位回归和缺失数据理论方法的同时,关注R、Python、SAS等软件的编程与实现。这类编程软件不但可以帮助我们训练大脑的逻辑,验证改进方法的效果,而且有助于我们获得研究结论。也正因如此,我才致力于向广大读者推荐编程类软件,灵活多样地实现个性化需求,完成深度研究任务。
虽然我独立翻译过《Python数据可视化》《预测分析建模:Python与R语言实现》和《R统计应用开发实战》,参与翻译过《商务与经济统计》和《R语言编程艺术》,也参与编写过《大数据挖掘与统计机器学习》,但本次翻译与以往不太一样。它让我重新认识了Excel和R之间的区别与联系,用不同软件示范处理同一问题,为广大读者提供多种选择。
记得在中国人民大学“毕业十星”之“学术之星”的获奖感言中,我曾写道:对我而言,翻译是一种特殊的休息方式。与音乐一样,知识的传播没有国界。因此,翻译不仅是知识表达语言的转换,更是一次学习和交流的机会。与原作者对话,高山仰止,受益匪浅;与读者对话,高山流水,闻过则喜。我喜欢这种自由创作的休息方式,更乐意在翻译中发现自己的不足。
最后,非常感谢机械工业出版社的编辑。感谢刘钰洁参与第4章初稿的校对工作,程悦参与第5章、第6章初稿的校对工作。
感谢中国科协创新战略研究院的各位领导和同事。感谢我的博士导师—中国人民大学的易丹辉教授。感谢我的爷爷奶奶、爸爸妈妈以及各位亲朋好友,是他们给了我前行的动力和勇气。
鉴于个人时间与水平有限,如有纰漏,向您致歉,还望海涵。同时也请各位读者予以反馈,不吝赐教!

程豪

图书目录

译者序
作者简介
前言
第1章 从Excel到R的过渡1
1.1 调整预期2
1.1.1 分析数据:软件包3
1.1.2 存储和排列数据:数据框3
1.2 用户界面4
1.3 特殊字符5
1.3.1 使用波浪线5
1.3.2 使用赋值运算符<-8
1.4 获取R11
1.5 扩展包13
1.6 运行脚本14
1.7 从Excel向R导入数据16
1.8 从R向Excel导出数据24
1.8.1 导出为CSV文件25
1.8.2 直接导出25
第2章 描述性统计29
2.1 Excel中的描述性统计29
2.1.1 使用描述性统计工具31
2.1.2 理解结果32
2.1.3 对R中的Pizza文件使用Excel描述性统计工具36
2.2 使用R的DescTools软件包40
2.3 输入一些有用的命令41
2.3.1 控制符号类型41
2.3.2 报告统计量44
2.3.3 对名义变量运行Desc函数53
2.4 用Desc运行双变量分析54
2.4.1 两个数值型变量55
2.4.2 按因子划分数值型变量60
2.5 用一个因子分析另一个因子:列联表70
2.5.1 Pearson卡方74
2.5.2 似然比76
2.5.3 Mantel-Haenszel卡方检验78
2.5.4 估计关系的强弱80
第3章 用Excel和R做回归分析82
3.1 工作表函数82
3.1.1 CORREL()函数83
3.1.2 COVARIANCE.P()函数84
3.1.3 SLOPE()函数85
3.1.4 INTERCEPT()函数87
3.1.5 RSQ()函数90
3.1.6 LINEST()函数92
3.1.7 TREND()函数95
3.2 统计推断函数96
3.2.1 T.DIST函数97
3.2.2 F.DIST函数99
3.3 Excel中的其他回归分析资源101
3.3.1 回归工具101
3.3.2 图的趋势线105
3.4 R中的回归分析106
3.4.1 相关和一元回归106
3.4.2 分析多元回归模型110
3.4.3 R中的模型比较113
第4章 用Excel和R进行方差和协方差分析118
4.1 单因子方差分析118
4.1.1 使用Excel的工作表函数119
4.1.2 使用ANOVA:单因子工具120
4.1.3 对ANOVA使用回归方法122
4.2 使用R进行单因子ANOVA124
4.2.1 设置数据124
4.2.2 安排ANOVA表125
4.2.3 带缺失值的单因子ANOVA128
4.3 因子化ANOVA130
4.3.1 Excel中的平衡双因子设计131
4.3.2 平衡的双因子设计和ANOVA工具133
4.3.3 使用回归进行双因子ANOVA设计135
4.3.4 用R分析平衡因子化设计141
4.4 分析Excel和R中的不平衡双因子设计144
4.4.1 区分三种情况148
4.4.2 效应的指定方法153
4.5 Excel和R中的多元比较程序154
4.5.1 Tukey的HSD方法155
4.5.2 Newman-Keuls方法158
4.5.3 在Excel和R中使用Scheffé程序161
4.6 Excel和R中的协方差分析165
4.6.1 在Excel中用回归进行ANCOVA165
4.6.2 用R进行ANCOVA168
第5章 用Excel和R进行logistic回归173
5.1 线性回归和名义变量中的问题174
5.1.1 概率问题175
5.1.2 用几率代替概率177
5.1.3 使用几率的对数178
5.2 从对数几率到概率180
5.2.1 重新编码文本变量180
5.2.2 定义名称181
5.2.3 计算logit182
5.2.4 计算几率182
5.2.5 计算概率183
5.2.6 得到对数似然183
5.3 配置Solver185
5.3.1 安装Solver185
5.3.2 用Solver进行logistic回归185
5.4 logistic回归中的统计检验189
5.4.1 logistic回归中的R2和t189
5.4.2 似然比检验190
5.4.3 约束条件和自由度193
5.5 用R的mlogit软件包进行logistic回归195
5.5.1 运行mlogit软件包195
5.5.2 比较模型和mlogit200
5.6 用R中的glm函数201
第6章 主成分分析203
6.1 用Excel进行主成分分析204
6.1.1 浏览对话框205
6.1.2 主成分工作表:R矩阵及逆矩阵207
6.1.3 主成分工作表:特征值和特征向量210
6.1.4 变量的公因子方差212
6.1.5 因子得分213
6.2 Excel中的旋转因子215
6.3 用R语言进行主成分分析217
6.3.1 准备数据217
6.3.2 调用函数219
6.3.3 R中的最大方差法旋转222

教学资源推荐
作者: (美)Robert V. Hogg,Joseph W. McKean,Allen T. Craig 著
作者: (美)George E.P.Box, J.Stuart Hunter, William G.Hunter 著
参考读物推荐
作者: [乌克兰]安德烈·加霍夫(Andrii Gakhov) 著
作者: [美] 朱迪亚·珀尔(Judea Pearl)
作者: [美] 贝内迪克特·格罗斯(Benedict Gross) 乔·哈里斯(Joe Harris) 埃米莉·里尔(Emily Riehl) 著