本书介绍可以帮助读者处理真实数据分析挑战的概念和技能。它涵盖了概率论、统计推断、线性回归和机器学习等概念。它还帮助读者提升如下技能:R编程、数据清洗、数据可视化、预测算法构建、使用UNIX/Linux shell组织文件、使用Git和GitHub进行版本控制以及可复制的文档准备。全书分为六个部分,分别为R、数据可视化、统计与R、数据清洗、机器学习和生产力工具。
哈佛大学教授编写,内容源自哈佛大学数据科学系列课程
作者在GitHub提供源码下载,一本书带你同时入门数据科学与R语言编程
计算机\数据科学
“我认为本书非常适合那些想要尝试用数据科学入门课程取代统计学入门课程——甚至计算机科学入门课程的学校。”
—— Arend Kuyper,美国西北大学
“这是一本很好的数据科学和现代R语言编程入门书,全书提供了大量R语言的应用实例。书中提供了与所讨论主题相关的多个扩展阅读链接,可以作为当代数据科学和编程的一个非常有用的资料来源,助力学生和研究人员开展项目。”
—— Technometrics
“本书将教你如何使用R处理数据,并取得最大收获。我强烈推荐这本书给所有使用R学习数据科学的人。”
—— Maria Ivanchuk,ISCB News
本书介绍的概念和技能可以帮助你解决现实世界的数据分析挑战。它涵盖概率、统计推断、线性回归和机器学习等概念,可以帮助你培养诸如R编程、数据整理、数据可视化、预测算法构建、使用UNIX/Linux框架(shell)组织文件、使用Git和GitHub进行版本控制,以及可复现文档准备等技能。
作者通过案例研究,真实地模仿了数据科学家的经历。他首先提出具体的问题,然后通过数据分析来回答这些问题,因此,概念的介绍是在回答问题的过程中进行的。涉及的案例研究数据包括:美国各州的枪杀率、学生报告的身高、世界卫生和经济趋势、疫苗对传染病发病率的影响、2007—2008年的金融危机、美国总统选举预测、组建棒球队、手写数字图像处理和电影推荐系统。
本书可用于数据科学基础课。阅读本书不需要具备R语言的知识,尽管有一些编程经验可能更有帮助。
[美]拉斐尔·A. 伊里萨里(Rafael A.Irizarry) 著:拉斐尔·A. 伊里萨里(Rafael A.Irizarry)是哈佛大学应用统计学教授,丹娜-法伯癌症研究所(Dana-Farber Cancer Institute)的数据科学系主任、应用统计学教授,也是美国统计协会(American Statistical Association)的会员。在过去的20年里,他曾在包括基因组学、声音工程和公共卫生等多个领域从事相关工作。他以开源软件的形式传播数据分析挑战的解决方案,这些软件被作为工具广泛下载和使用。他还在哈佛大学开设了几门数据科学课程以及受欢迎的在线课程。