教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 337

开本 : 16

原书名 : Practical Data Science with R

原出版社: Waterside Productions,Inc.

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

数据分析与挖掘方面的最新力作，结合目前最流行的开源软件R语言，以业界真实应用案例为背景，阐述数据分析与挖掘的实用方法及方法。

图书特色

本书是所有数据科学家都应该拥有的一部独一无二、举足轻重的书籍。
——　引自Jim Porzak的序言，Bay Area R Users Group联合创始人
覆盖了端到端的全部过程，从数据探索到建模再到交付结果。
——　Nezih Yigitbasi，Intel公司
对志向高远的年轻数据科学家和经验丰富的数据科学家而言，本书充满了有用的宝石。
——　Fred Rahmanian，西门子医疗
使用真实的示例进行数据分析，强烈推荐。
——　Kostas Passadis博士，IPTO

业务分析师和开发者正在逐步收集、组织和分析关键的业务数据，并基于这些数据制作报表。在不需要太多学术理论或高等数学知识的情况下，R语言及其相关的工具提供了一种简单的处理日常数据科学任务的方法。
本书讨论如何应用R程序设计语言和有用的统计技术处理日常的业务情况，并通过市场营销、商务智能和决策支持领域的示例，阐述了如何设计实验（比如A/B检验）、如何建立预测模型以及如何向不同层次的受众展示结果。

本书主要内容：
面向商务专业人士的数据科学
使用R语言进行统计分析
全面介绍从规划到交付的整个数据科学项目生命周期
大量立竿见影的使用案例
有效地展现数据的要点
本书读者不需要具备数据科学知识，但是应具备一些基本的统计学、R语言或者其他脚本语言知识。

作者简介：
尼娜·朱梅尔（Nina Zumel）现在是Win-Vector LLC的首席顾问。她曾是SRI International（SRI International是一个独立的非盈利研究机构）的科学家，及一家定价优化公司的首席科学家，并创办了一家合同研究公司。

约翰·芒特（John Mount）现在是Win-Vector LLC的首席顾问。他曾是生物技术领域的计算科学家和股票交易算法的设计者，并且在Shopping.com领导一个研究团队。

图书前言

本书正是我们在自学数据科学时所希望得到的那本书，我们可从中了解哪些主题和技能的集合构成了数据科学。它也是我们希望发给客户和同行的书。本书的目的是讲解统计学、计算机科学和机器学习等学科中对于数据科学极为重要的内容。
数据科学利用了来自实验科学、统计学、报表技术、分析技术、可视化技术、商务智能、专家系统、机器学习、数据库、数据仓库、数据挖掘和大数据技术等各个领域的工具，正是因为我们需要如此多的工具，因此需要一个能够涵盖全部内容的学科。数据科学本身与这些工具和技术的区别，在于数据科学的核心目标是将有效的决策支持模型部署到实际生产环境中。
我们的目标是从实用的、面向实践的角度来展现数据科学，通过在真实数据上的可运行的练习题，我们设法达到这一目标，全书给出了10个重要的数据集。我们认为这种方式能举例说明我们到底想要讲授什么，还能演示说明在真实世界项目中所必需的全部预备步骤。
贯穿全书，我们讨论实用的统计学和机器学习概念，给出具体的代码示例，探索如何与非专业人士开展合作以及如何向他们讲解。我们期待，即使你不能在这些主题中发现新意，这本书也能够在你还未想到的其他一两个主题上闪出一道灵光。
关于本书
本书讨论数据科学的概念和方法：数据科学领域主要使用统计学、机器学习和计算机科学的成果来建立预测模型。由于数据科学具有宽泛性，所以有必要对其展开一些讨论并对本书所涉及的方法加以界定。
什么是数据科学
统计学家William S. Cleveland将数据科学定义为一个比统计学自身大得多的跨学科领域。而我们定义数据科学为一种管理过程，该过程能够将假设和数据转换成可应用的预测。典型的预测分析目标例子有：预测谁将在选举中获胜、什么样的商品放在一起销售更好、哪些贷款将被拖欠或者什么网上广告将被点击等。数据科学家负责获取数据、管理数据、选择建模技术、编写代码以及验证结果。
由于数据科学领域涉及众多的学科，所以它通常进行“二次调用”。我们遇到的许多优秀数据科学家原本是程序设计者、统计学家、业务分析师或科技工作者，他们在原有知识储备的基础上再多学一些技术，就成为了优秀的数据科学家。这一观察促成了本书的写法：通过具体地介绍在真实数据上执行的各个通用的项目开发步骤，来介绍数据科学家所需的实用技能。对于这些开发步骤，有的你将比我们懂得更多，有的你会更快地掌握，有的还需要你进一步深入研究。
数据科学的大多数理论基础来源于统计学，但正如我们所知，数据科学强烈地受到技术学和软件工程方法学的影响，并且在计算机科学和信息技术所驱动的各个子领域中得到了极大的发展。下面通过列举一些著名的案例来体会数据科学的若干工程风格：
Amazon的商品推荐系统
Google的广告评估系统
LinkedIn的人脉推荐系统
Twitter的趋势话题
Walmart的消费者需求预测系统
上述系统有许多共同特点：
所有系统均建立在大规模数据集基础之上。它们并非一定属于大数据领域，不过如果仅使用小数据集的话，这些系统将无法成功。为了管理数据，这些系统需要源自计算机科学的概念：数据库理论、并行程序设计理论、流数据技术以及数据仓库。
这些系统大多是在线或实时运行的。当数据科学团队部署一个决策程序或打分程序时，目的是要用于直接做出决策或直接向许多终端用户展示结果，而非只是产生单一的报表或分析结果。生产部署阶段是校正结果的最后机会，因为数据科学家不会长期留在现场来解决存在的缺陷。
所有系统均允许出错，但出错率的上限是不容讨价还价的。
这些系统不需考虑因果关系，如果它们能发现有用的相关性，就算作是成功的。它们不必非要从结果中正确地找出导致该结果的原因。
本书讲授构建这样的系统时所需要的原理和工具，包括：通用的任务、开发步骤和成功地交付这样的项目所使用的工具。我们强调整个工作过程—如何进行项目管理，如何与其他人合作，以及如何对非专业人士展现结果。
导读路线图
本书涵盖如下内容：
如何对数据科学处理过程本身进行管理。数据科学家必须有能力来衡量和跟踪他们自己的项目。
如何应用在数据科学项目中常用的最强的统计和机器学习技术。可将本书看作一系列有明确工作目标的练习，需使用程序设计语言R去实现真实的数据科学工作。
如何向各种利益相关者进行结果展现，包括管理人员、用户、部署团队等。必须用具体的术语向混合类型的受众解释你的工作，并且使用他们所熟悉的语言来表达，而不要坚持使用专门领域的技术术语。对于数据科学项目的结果展现，你无法绕开这一障碍。
我们使用循序渐进的方式来安排本书的内容，其详细内容组织如下：
第一部分描述数据科学处理过程的主要目标和技术，强调协作和数据。
第1章讨论作为一名数据科学家如何开展工作，第2章介绍如何将数据装载到R系统，并演示如何启动R系统开始工作。
第3章讲授首先要在数据中寻找什么，以及用于刻画数据特征和理解数据的重要步骤。在做数据分析之前，必须准备好数据，另外必须修正数据中存在的问题，第4章介绍如何处理这些问题。
第二部分从刻画数据特征转到如何构建有效的预测模型上来。第5章提供将业务需求映射到技术评价和建模技术的初始词典。
第6章讲授如何通过记忆化训练数据构建模型。这种记忆化模型虽然概念上简单却非常有效。第7章进展到具有显式加性结构的模型问题，这种功能结构增加了进行有益的内插值和外插值，以及辨识重要变量和效果的能力。
第8章描述当项目中没有可用的带标签的训练数据时，还能够做什么。第9章介绍用于改进模型预测性能和修正具体建模问题的高级建模方法。
第三部分从建模问题再回到处理过程上来，展示如何交付建模结果。第10章演示如何管理、文档编制和部署模型。第11章介绍如何针对不同的受众给出有效的展现方法。
附录部分包括关于R系统、统计学和其他可用工具的补充技术细节。附录A介绍如何安装R系统、如何启动工作以及如何运用其他工具（如SQL）。附录B是关于一些重要统计学思想的最新资料。附录C讨论附加的工具和研究思路。参考文献提供参考文献资料并介绍今后的研究机遇。
书中的学习材料是根据目标和任务来组织的，相关的工具在需要时才被引入。每一章的主题均以一个带有相关数据集的代表性项目为背景展开讨论。在学习全书的过程中，你将接触10个实质性项目。本书提供的所有数据集均保存在本书的GitHub资料库中（https://github.com/WinVector/zmPDSwR），你可以下载整个资料库（这是一个zip压缩文件，GitHub服务之一），然后将该库复制到你的机器上，也可以根据需要只复制单个文件。
致读者
为学习和运行本书的例子，你需要熟悉一些R语言、统计学以及SQL数据库（某些例子涉及）的知识，建议你手头准备一些好的入门教材。在学习这本书之前，你不必是一位R语言、统计学和SQL方面的专家，但应该能够很轻松地自学本书提及却不能完整讲解的内容。
对于R语言，我们推荐参考Robert Kabacoff的《R in Action，2nd Edition》（www.manning.com/kabacoff2/）以及与本书相关的网站Quick-R（www.statmethods.net）。对于统计学，我们推荐参考David Freedman、Robert Pisani和Roger Purves的《Statistics，4th Edition》。对于SQL，我们推荐参考Joe Celko的《SQL for Smarties，4th Edition》。
总体上，我们所期望的理想读者应该是这样的：
对工作示例感兴趣。通过学习这些示例，你将至少学会一种方法，能够完成一个项目的所有步骤。你必须乐于尝试简单的脚本编写和程序设计以充分利用这本书。对于我们给出的每个示例，你应该尝试改变它，并且预料到会有某些失败（你的改变不奏效）和某些成功（你的改变优于示例）。
对R语言的统计系统有所了解并且乐于用R语言编写短的脚本和程序。除Kabacoff的书（《R in Action》）外，我们在参考文献中还推荐了几本好书。我们用R语言解决具体的问题。为了理解正在进行什么处理，你需要运行那些示例，并且阅读额外的文档以理解那些在本书中没有展示的变种命令。
对概率、均值、标准差和显著性等基本的统计学概念有一些经验。我们在需要时会引入这些概念，对于工作示例，你可能还需要阅读一些额外的参考文献。我们给出某些术语的定义，并提供某些主题的参考文献和合适的博客，但我们认为在某些主题上你需要自己在互联网上进行搜索。
一台安装有R系统和其他工具的计算机（OS X、Linux或Windows），以及用于下载有关工具和数据集的互联网。我们强烈地建议你进行示例学习，用R系统help()命令学习各种方法，并且跟踪学习某些补充的参考文献。
书中没有什么
本书不是一本R语言的使用手册。我们使用R语言具体地展示数据科学项目的重要步骤，通过示例讲授足够的R语言知识，但不熟悉R语言的读者需要查阅附录A以及许多优秀的R语言书籍和使用指南。
本书不是一系列案例研究集合。我们更强调方法和技术，在本书中给出案例数据和代码仅仅是为了确保我们给出的建议是具体的、可用的。
本书不是一本大数据方面的书。我们认为大多数有意义的数据科学问题出现在数据库级别或文件级别等可管理的大小规模上（通常比内存更大，但还未大到难以管理的程度）。有价值的数据是能够将测量到的条件映射到依赖于它们的结果上，但产生这些数据往往是代价高昂的，因而在实际应用中通常会限制这些数据的规模。而对于某些报表生成、数据挖掘和自然语言处理任务，才需要进入大数据领域。
本书不是一本理论方面的书。对于任何一种技术，我们不会强调其绝对严格的理论。数据科学的目标应该是支持灵活性，提供很多可用的好技术。并且，当某个技术能够用于解决手头问题时，深入地研究该技术。此外，由于要直接使用R语言代码，所以在本书正文中使用R代码符号，而没用美观的编辑公式。
本书也不是给机器学习多面手使用的。我们只强调那些已经用R语言实现了的方法。对于每种方法，我们介绍其操作的理论并表明该方法有何优点。我们一般不讨论如何实现这些方法（即便这种实现是容易的），因为这些信息是随处可得的。
编码约定及下载
本书是以示例驱动方式叙述的，我们在GitHub资料库（https://github.com/WinVector/zmPDSwR）中提供了准备好的示例数据，它们用R语言进行编码并且链接到初始源，你可以在线查询该库或者将其复制到你自己的机器上。由于从zip压缩文件中复制代码比从本书的电子版中复制和粘贴更容易，我们也提供了产生所有结果的程序代码以及在书中出现的几乎所有的图表（作为一个zip文件）（https://github.com/WinVector/zmPDSwR/raw/master/CodeExamples.zip）。你也可以从Manning出版社的网站（www.manning.com/PracticalDataSciencewithR）下载这些代码。
我们鼓励你在阅读本书时尽力实现这些R代码示例，即便在讨论数据科学中相当抽象的概念时，我们也会用具体的数据和代码来展示示例，在每章均给出了指向该章内容所参考的具体数据集的链接。
在本书中，代码均采用特殊字体书写，以将它们与正常文字区别开来，具体的变量和值采用类似的格式，抽象的数学符号则采用斜体。R是一种数学语言，许多短语都用到了上述两种字体。在我们的示例中，任何提示符（如“>”和“$”）都可以忽略掉。内嵌结果用R的注释符“#”作为前缀来标识。
软硬件要求
为学习示例，需要安装有Linux、OS X或Windows操作系统的计算机，并且安装了相关的软件（安装方法在附录A给出），我们推荐的所有软件都是完全跨平台的、免费使用的、开源的。
建议至少安装如下软件：
R系统：http://cran.r-project.org。
各种来自CRAN的程序包（由R自身使用install.packages()命令安装并使用library()命令激活）。
版本控制工具Git：http://git-scm.com。
RStudio：一个集成了编辑器、执行和绘图的开发环境—http://www.rstudio.com。
支持系统命令的bash shell，它嵌入在Linux和OS X系统中，能够通过安装Cygwin （http://www.cygwin.com）添加到Windows系统。我们不写任何脚本，所以对于一个经验丰富的Windows shell用户，如果能将我们的bash命令转换成对应的Windows命令，也可以不安装Cygwin。
关于封面插图
本书英文版的封面图片题为“1703年的中国女子服饰”。该插图是从Thomas Jefferys于1757年至1772年在伦敦出版的《各国古今服饰大全（共4卷）》中得到的，其扉页上说明这些都是手工着色的铜版画，用阿拉伯树胶加固。Thomas Jefferys（1719～1771）被称作“国王乔治三世时代的地理学家”。他是一名英国绘图师，是当时顶级的地图供应商。他为政府和其他公务团体制作和印刷地图，生产了世界各地、特别是北美地区的商业地图和地图集。作为一名绘图师，他对其曾勘查和绘图地区的服饰习俗也感兴趣，这些服饰均出色地展示在这部4卷本的服饰大全中。
在18世纪，着迷于遥远的世界并为了愉悦而去旅行还是件新事物，类似这样的服饰大全很受欢迎，因为它们能够将其他国家的风土人情介绍给远行的实际旅行者和足不出户的空想旅行家。Jefferys卷中各种各样的绘图生动地展示了几百年前世界各国的独特性。现在，着装标准发生了变化，在那个时代不同国家和地区之间存在的丰富多彩的差异性已经变得模糊不清，常常难以将一个地区与另一个地区的居民通过服饰区分开来。或许，从乐观角度来看这个问题，我们已经将文化和视觉的多样性转换为形形色色的个体生活—或者是一种更多形式的、有趣的知识技术型生活。
在这个很难将两本不同计算机书籍区分开来的时代，Manning出版社根据Jefferys在3个世纪前的图画所重现的国家习俗的丰富多样性，设计了计算机系列丛书的封面，以赞美计算机行业的创造性和主动性。
致谢
感谢所有阅读过本书草稿并提出意见的评论者及同行等，尤其是Aaron Colcord、Aaron Schumacher、Ambikesh Jayal、Bryce Darling、Dwight Barry、Fred Rahmanian、 Hans Donner、Jeelani Basha、Justin Fister、Kostas Passadis博士、Leo Polovets、Marius Butuc、 Nathanael Adams、Nezih Yigitbasi、Pablo Vaselli、Peter Rabinovitch、Ravishankar Rajagopalan、Rodrigo Abreu、Romit Singhai、Sampath Chaparala和Zekai Otles。他们的意见、质询和修改大大地改善了这本书的质量。特别感谢George Gaines，他在这本书出版之前对原稿进行了全面的技术审核。
特别感谢开发编辑Cynthia Kane，感谢她在照料我们写作过程中给予的有益建议和表现出的无比耐心。同样的感谢送给Benjamin Berg、Katie Tennant、Kevin Sullivan以及Manning出版公司的其他编辑们，他们竭尽全力，消去了书中的粗糙痕迹，剔除了书中的技术瑕疵。
此外，还要感谢我们的同行David Steier、UC Berkeley 信息科学学院的Anno Saxenian教授、Doug Tygar以及所有其他有意使用本书作为教材的教师。
还要感谢Jim Porzak，他邀请作者之一John Mount到Bay Area R Users Group做演讲。他作为本书的热情支持者，还为本书撰写了序言。在我们疲劳、沮丧甚至怀疑我们为什么要承担这一艰苦任务的日子里，他的关注不断地提醒我们：人们需要我们正在做的这件事，也需要我们做这件事的方法。没有他的鼓励，这本书将难以完成。

上架指导

计算机科学/大数据分析与处理

封底文字

“本书是所有数据科学家都应该拥有的一部独一无二、举足轻重的书籍。”
——引自Jim Porzak的序言，Bay Area R Users Group联合创始人
“覆盖了端到端的全部过程，从数据探索到建模再到交付结果。”
——Nezih Yigitbasi，Intel公司
“对志向高远的年轻数据科学家和经验丰富的数据科学家而言，本书充满了有用的宝石。”
——Fred Rahmanian，西门子医疗
“使用真实的示例进行数据分析，强烈推荐。”
——Kostas Passadis博士，IPTO

业务分析师和开发者正在逐步收集、组织和分析关键的业务数据，并基于这些数据制作报表。在不需要太多学术理论或高等数学知识的情况下，R语言及其相关的工具提供了一种简单的处理日常数据科学任务的方法。

本书讨论如何应用R程序设计语言和有用的统计技术处理日常的业务情况，并通过市场营销、商务智能和决策支持领域的示例，阐述了如何设计实验（比如A/B检验）、如何建立预测模型以及如何向不同层次的受众展示结果。

本书主要内容
 面向商务专业人士的数据科学
 使用R语言进行统计分析
 全面介绍从规划到交付的整个数据科学项目生命周期
 大量立竿见影的使用案例
 有效地展现数据的要点

本书读者不需要具备数据科学知识，但是应具备一些基本的统计学、R语言或者其他脚本语言知识。

图书序言

如果你是一名刚入门的数据科学家，或者是一个想要从事数据科学工作的新手，那么本书（以下简称PDSwR）将为你的起步提供帮助。如果你正在从事数据科学工作，PDSwR一书将填补你的知识缺口，甚至使你重新审视日常使用的工具—就我本人体会而言确实如此。
虽然目前已有很多介绍如何使用R语言进行统计和建模的优秀书籍，但却很少有介绍如何在组织机构中应用数据科学进行管理的好书。在将坚实的技术内容与具体的实际相结合并脚踏实地指导如何进行实践方面，本书是独一无二的，我对此的期待丝毫不亚于本书作者Nina和John这两位专家。
我初识John时，他正在早期的Bay Area R Users Group（湾区R用户群）中分享使用R语言过程中的悲欢苦乐。此后，我和Nina、John在同一家公司合作完成了几个项目。在比Bay Area R Users Group更大的群以及Berkeley R-Beginners（伯克利R初学者群）中，John讲解了PDSwR一书中的早期思想。基于作为一名数据科学家所取得的实践经验，John直率地表达了有关数据科学工作的明确看法。PDSwR一书反映出John和Nina关于如何从事数据科学的确切观点—使用哪些工具、采用的处理过程、使用的重要方法、人际交流的重要性等，这些都讲得一清二楚。
因此，这对我而言是非常完美的，特别是我与他们持有98%的相同观点（我唯一吹毛求疵之处是在SQL方面—但那仅是因为我的工作经历不同，而不是存在什么根本性分歧）。他们用清晰文字所表达出的意义，使你更加关注数据科学的技艺，而不必为选择什么工具或什么方法而纠结，正是这种缜密使得PDSwR一书非常实用。下面让我们来看些细节。
实用工具集：R语言本身是规定好了的，RStudio是一个精选的IDE（集成开发环境）。自从RStudio推出后，我们就一直在使用它，现在它已经发展成一个出色的工具—在最新的版本中集成了调试工具。PDSwR一书中第三个主要工具是Hadley Wickham的ggplot2，尽管R语言在传统上提供了优秀的图形和可视化工具，但ggplot2将其可视化提高到一个新的水平（我的实用心得：仔细查看Hadley或他的学生的任何R工具包）。除了这些主要工具之外，PDSwR一书还介绍了必要的辅助工具：适合于大型数据集的SQL DBMS，支持源代码版本控制的Git和GitHub，用于文档生成的knitr工具包。
实用数据集：学习数据科学的唯一途径是通过实践来掌握它。在典型的教学数据集到真实世界数据之间存在很大的距离，PDSwR一书在供学习所用的（简单）数据集与真实世界中杂乱的数据集之间做了一个很好的折中。PDSwR一书引领你学会如何通过探索一个新的数据集去发现数据中的问题，以及如何在必要时对数据进行清洗和转换。
实用人际关系：数据科学是一门关于为你的客户解决真实世界问题的科学—这些客户可能是一名咨询师或者你的机构中的一员。无论是哪种情形，你都要与多种个性的人打交道，他们拥有各自的动机、技能和责任。作为承担实际工作的咨询师，Nina和John对此有深入的理解。在数据科学项目进行过程中，要充分理解这些角色，PDSwR一书在强调这个重要性方面也是独一无二的。
实用建模技术：PDSwR一书的大部分内容是关于如何建模的。首先，全面概述了建模处理过程，包括如何选择要使用的建模方法，以及在完成模型后如何度量该模型的质量。该书指导你掌握今后工作中所需要的最实用的建模方法，并直观地讲解了每种建模方法的基础理论。本书使用具体的实例贯穿全书—在作者的GitHub网站上提供了代码和数据。最重要的是，本书介绍了使用技巧和陷阱，并在每一节的结尾给出了实用的要点。
简而言之，本书是所有数据科学家都应该拥有的一部独一无二、举足轻重的书籍。

Jim Porzak
资深数据科学家、Bay Area R Users Group联合创始人

作者简介

[美]尼娜·朱梅尔（Nina Zumel）约翰·芒特（John Mount）著：尼娜?朱梅尔（Nina Zumel）现在是Win-Vector LLC的首席顾问。她曾是SRI International（SRI International是一个独立的非盈利研究机构）的科学家，及一家定价优化公司的首席科学家，并创办了一家合同研究公司。
约翰?芒特（John Mount）现在是Win-Vector LLC的首席顾问。他曾是生物技术领域的计算科学家和股票交易算法的设计者，并且在Shopping.com领导一个研究团队。

译者简介

于戈鲍玉斌王大玲等译：暂无简介

译者序

数据科学是关于如何从数据中获取知识的一门新兴学科，主要通过统计学、机器学习和计算机科学等方法，开发面向应用领域的数据科学项目，在数据的基础上建立预测模型，并部署到实际生产环境中，用于解决生产经营、行政管理、科学研究等许多重要领域中的实际问题。数据科学为大数据分析和应用提供理论基础和方法学, 在当今大数据时代中，数据科学显得尤为重要。
本书正是一本介绍如何在组织机构中使用R语言将数据科学的理论和方法应用到实际生产中，并对其数据进行管理和分析预测的书籍。正在从事数据科学及相关技术研究的我们，在看到本书的英文版时，立刻被其中的内容所吸引—本书从数据科学处理过程的描述出发，以读者容易理解的现实生活中的实际案例为分析对象，以预测模型的构建及评价为主线，最终落实到处理结果的交付。本书丰富的内容以及这种独特的组织结构从一个全新的实战视角为我们展现了一幅从数据科学理论、R语言和系统到它们在工程实践中的应用，有理论、有方法、有案例、有分析、有结果的精彩画卷，将抽象的统计分析理论和机器学习的方法，利用R语言和系统生动直观地展现在读者面前。通过翻译这本书，我们从中收获颇多、受益颇丰。
本书的作者Zumel博士和Mount博士在数据科学项目的咨询、分析、设计和开发方面，具备系统的理论知识和丰富的实践经验，本书从实用的、面向实践的角度较为系统、全面地展现了数据科学的主要内容，并结合大量的实际项目案例，详细地讲解了数据科学项目的开发过程和关键技术。本书无论对于初学者还是有经验者，都是一本非常有价值的参考书。
本书具有以下几个特点：
1.内容系统全面。详尽介绍了数据科学项目中基础数据的准备技术、预测模型的建模技术，以及数据模型的部署和应用技术。
2.表达通俗易懂。按照数据科学项目开发的过程，循序渐进、由浅入深地介绍了数据科学项目的基础理论、开发步骤和开发技术。
3.实践指导性强。结合真实数据集的分析和处理，给出了大量R语言源代码，为读者今后开发实际项目提供了宝贵的参考和借鉴。
本书由东北大学计算机科学与工程学院于戈、鲍玉斌、王大玲、张一飞、冷芳玲、张天成、赵志滨、寇月、聂铁铮翻译。其中，前言和第7章由王大玲负责，第1章由于戈负责，第2章和第6章由鲍玉斌负责，第3章和第10章由张一飞负责，第4章和第9章由冷芳玲负责，第5章和第8章由张天成负责，第11章由赵志滨负责，附录A和附录B由寇月负责，附录C由聂铁铮负责，词汇和索引表由鲍玉斌、于戈负责。全书由于戈和鲍玉斌统稿和审校。
本书涉及数据库、软件工程、机器学习、统计学等多个领域，理论和实践方面的内容较多，尽管译者在数据库管理、数据仓库、数据挖掘、机器学习等方面具有一定的教学和科研经验，但毕竟水平有限，难免存在不足之处，敬请专家和读者批评指正。

译　者
2016年1月

图书目录

译者序
序言
前言
第一部分　数据科学引论
第1章　数据科学处理过程2
1.1　数据科学项目中的角色2
1.2　数据科学项目的阶段4
1.2.1　制定目标5
1.2.2　收集和管理数据5
1.2.3　建立模型7
1.2.4　模型评价和批判8
1.2.5　展现和编制文档9
1.2.6　模型部署和维护10
1.3　设定预期11
1.4　小结12
第2章　向R加载数据14
2.1　运用文件中的数据14
2.1.1　在源自文件或URL的良结构数据上使用R15
2.1.2　在欠结构数据上使用R17
2.2　在关系数据库上使用R19
2.2.1　一个生产规模的示例20
2.2.2　从数据库向R系统加载数据23
2.2.3　处理PUMS数据25
2.3　小结28
第3章　探索数据29
3.1　使用概要统计方法发现问题30
3.2　用图形和可视化方法发现问题34
3.2.1　可视化检测单变量的分布35
3.2.2　可视化检测两个变量间的关系42
3.3　小结51
第4章　管理数据52
4.1　清洗数据52
4.1.1　处理缺失值52
4.1.2　数据转换56
4.2　为建模和验证采样61
4.2.1　测试集和训练集的划分61
4.2.2　创建一个样本组列62
4.2.3　记录分组63
4.2.4　数据溯源63
4.3　小结63
第二部分　建模方法
第5章　选择和评价模型66
5.1　将业务问题映射到机器学习任务67
5.1.1　解决分类问题67
5.1.2　解决打分问题68
5.1.3　目标未知情况下的处理69
5.1.4　问题到方法的映射71
5.2　模型评价71
5.2.1　分类模型的评价72
5.2.2　打分模型的评价76
5.2.3　概率模型的评价78
5.2.4　排名模型的评价82
5.2.5　聚类模型的评价82
5.3　模型验证84
5.3.1　常见的模型问题的识别 84
5.3.2　模型可靠性的量化85
5.3.3　模型质量的保证86
5.4　小结88
第6章　记忆化方法89
6.1　KDD和KDD Cup 200989
6.2　构建单变量模型91
6.2.1　使用类别型特征92
6.2.2　使用数值型特征94
6.2.3　使用交叉验证估计过拟合的影响96
6.3　构建多变量模型97
6.3.1　变量选择97
6.3.2　使用决策树99
6.3.3　使用最近邻方法102
6.3.4　使用朴素贝叶斯105
6.4　小结108
第7章　线性回归与逻辑斯谛回归110
7.1　使用线性回归110
7.1.1　理解线性回归110
7.1.2　构建线性回归模型113
7.1.3　预测114
7.1.4　发现关系并抽取建议117
7.1.5　解读模型概要并刻画系数质量118
7.1.6　线性回归要点122
7.2　使用逻辑斯谛回归123
7.2.1　理解逻辑斯谛回归123
7.2.2　构建逻辑斯谛回归模型124
7.2.3　预测125
7.2.4　从逻辑斯谛回归模型中发现关系并抽取建议129
7.2.5　解读模型概要并刻画系数130
7.2.6　逻辑斯谛回归要点136
7.3　小结137
第8章　无监督方法138
8.1　聚类分析138
8.1.1　距离139
8.1.2　准备数据 140
8.1.3　使用hclust()进行层次聚类142
8.1.4　k-均值算法150
8.1.5　分派新的点到簇154
8.1.6　聚类要点156
8.2　关联规则156
8.2.1　关联规则概述156
8.2.2　问题举例157
8.2.3　使用arules程序包挖掘关联规则158
8.2.4　关联规则要点165
8.3　小结165
第9章　高级方法探索166
9.1　使用bagging和随机森林方法减少训练方差167
9.1.1　使用bagging方法改进预测167
9.1.2　使用随机森林方法进一步改进预测170
9.1.3　bagging和随机森林方法要点173
9.2　使用广义加性模型学习非单调关系173
9.2.1　理解GAM174
9.2.2　一维回归示例174
9.2.3　提取非线性关系178
9.2.4　在真实数据上使用GAM179
9.2.5　使用GAM实现逻辑斯谛回归182
9.2.6　GAM要点183
9.3　使用核方法提高数据可分性183
9.3.1　理解核函数184
9.3.2　在问题中使用显式核函数187
9.3.3　核方法要点190
9.4　使用SVM对复杂的决策边界建模190
9.4.1　理解支持向量机190
9.4.2　在人工示例数据中使用SVM192
9.4.3　在真实数据中使用SVM195
9.4.4　支持向量机要点197
9.5　小结197
第三部分　结果交付
第10章　文档编制和部署200
10.1　buzz数据集200
10.2　使用knitr产生里程碑文档202
10.2.1　knitr是什么202
10.2.2　knitr 技术详解204
10.2.3　使用knitr编写buzz数据文档205
10.3　在运行时文档编制中使用注释和版本控制208
10.3.1　编写有效注释208
10.3.2　使用版本控制记录历史209
10.3.3　使用版本控制探索项目213
10.3.4　使用版本控制分享工作217
10.4　模型部署220
10.4.1　将模型部署为R HTTP服务220
10.4.2　按照输出部署模型222
10.4.3　要点223
10.5　小结224
第11章　有效的结果展现226
11.1　将结果展现给项目出资方227
11.1.1　概述项目目标228
11.1.2　陈述项目结果229
11.1.3　补充细节230
11.1.4　提出建议并讨论未来工作231
11.1.5　向项目出资方展现的要点232
11.2　向最终用户展现模型232
11.2.1　概述项目目标232
11.2.2　展现模型如何融入用户的工作流程233
11.2.3　展现如何使用模型235
11.2.4　向最终用户展现的要点236
11.3　向其他数据科学家展现你的工作236
11.3.1　介绍问题236
11.3.2　讨论相关工作237
11.3.3　讨论你的方法238
11.3.4　讨论结果和未来工作239
11.3.5　向其他数据科学家展现的要点240
11.4　小结240
附录A　使用R和其他工具241
附录B　重要的统计学概念263
附录C　更多的工具和值得探索的思路292
参考文献297
索引299