首页>参考读物>计算机科学与技术>数据库

数据科学概念与实践(原书第2版)
作者 : [美]维贾伊·库图(Vijay Kotu) 巴拉·德斯潘德(Bala Deshpande) 著
译者 : 黄智濒 白鹏 译
出版日期 : 2020-09-04
ISBN : 978-7-111-66304-1
定价 : 119.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 368
开本 : 16
原书名 : Data Science: Concepts and Practice, Second Edition
原出版社: Elsevier (Singapore) Pte Ltd
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

数据科学已经成为从数据中提取价值的基本工具,任何企业都可以将数据收集、存储和处理作为其业务的一部分。本书搭建了一个易于理解的概念框架,帮助读者掌握数据科学的基础知识,并在学习理论的过程中同步使用RapidMiner平台进行实践。书中将分享实用的数据分析方法,讨论如何揭示隐藏的模式和关系,无论你是新手还是专家,都能借助这些方法做出更好的决策和预测。本书非常适合商务用户、数据分析师、商务分析师、工程师和分析专家以及任何与数据打交道的人。

图书特色

数据科学
概念与实践(原书第2版)
[ 美 ]     维贾伊·库图(Vijay Kotu)
     巴拉·德斯潘德(Bala Deshpande) 著
黄智濒 白鹏  译
Data Science
Concepts and Practice,Second Edition

图书前言

我们的目标是介绍数据科学。
我们将为你提供基础数据科学概念的综述以及实际实施的分步指导——足以让你开始这个激动人心的旅程。
为什么要有数据科学?
我们可以用尽各类形容词来描述数据的增长趋势。技术革命带来了以有意义的方式处理、存储、分析和理解大量不同数据的需求。但是,除非对其进行操作,否则存储数据的价值为零。数据体量和种类的规模对组织提出了新的要求,以便快速发现隐藏的关系和模式。这就是数据科学技术被证明非常有用的地方。它们越来越多地进入了商业和政府职能部门的日常活动,无论是确定哪些客户可能在其他地方开展业务,还是使用社交媒体来描绘流感大流行。
数据科学是从数据中提取价值的技术汇总。数据科学中使用的一些技术历史悠久,源于应用统计、机器学习、可视化、逻辑和计算机科学。一些技术刚刚达到应有的普及程度,大多数新兴技术都经历了所谓的“炒作周期”。这是一种将夸张或炒作的数量与新兴技术产生的生产力进行对比的方式。炒作周期有三个主要阶段:膨胀期望的高峰、幻灭的低谷和生产力的高原。第三阶段是指技术的成熟和价值创造阶段。数据科学的炒作周期表明它处于成熟阶段。这是否意味着数据科学已停止增长或已达到饱和点?一点也不。相反,该学科已超出其最初的市场营销应用范围,并已发展到在技术、互联网领域、医疗保健、政府、金融和制造业方面的应用。
为什么要写本书?
本书的目标有两个:以易于理解的方式阐明许多数据科学技术背后的基本概念;帮助基本掌握数学知识的人在他们的组织中实现这些技术,而无须编写任何程序代码。
除了数据科学的实用价值之外,我们还想向你展示其学习算法是优雅、美观且极其有效的。一旦学习了学习算法的概念,你将永远不会以相同的方式查看数据。
要阐明概念,必须构建数据科学模型。 虽然有许多数据科学工具可用于执行算法和开发应用程序,但解决数据科学问题的方法在这些工具中是相似的。我们希望选择一个功能齐全、开源、免费、基于图形用户界面的数据科学工具,以便读者可以遵循这些概念并实施数据科学算法。 RapidMiner是一个领先的数据科学平台,符合要求,因此,我们将其用作实现每章介绍的数据科学算法的配套工具。
谁能使用本书?
本书中描述的概念和实现适用于每天使用数据的业务员、分析师和技术人员。读者将全面了解可用于预测和发现模式的不同数据科学技术,为给定的数据问题选择正确的技术,并且能够创建通用分析过程。
我们试图按照一个过程来描述这一知识体系,重点是引入目前广泛使用的大约30种关键算法。我们在以下框架中提出这些算法:
1)每种算法的高级实际用例。
2)以简单的语言解释算法如何工作。许多算法在统计学和计算机科学中具有坚实的基础。在描述中,我们试图在更广泛的受众可理解性和学术严谨性之间取得平衡。
3)使用RapidMiner详细介绍实现过程,并使用示例数据集描述常用的设置和参数选项。你可以从配套网站(www.IntroDataScience.com)下载这些过程,我们建议你通过构建实际的数据科学过程来跟进学习。
分析师,财务、工程、营销和业务专业人员,或任何分析数据的人,很可能会在现在或不久的将来使用数据科学技术。对于离实际数据科学过程一步之遥的业务经理而言,重要的是了解这些技术的可能性和不可能性,以便提出正确的问题并设定适当的期望。虽然通过标准商业智能工具对数据进行基本的电子表格分析、切片和切块将继续构成业务中数据探索的基础,但数据科学技术对于在组织中建立完整的分析大厦是必要的。

维贾伊·库图,美国加利福尼亚州
巴拉·德斯潘德博士,美国密歇根州

上架指导

计算机\数据科学

封底文字

人工智能和数据科学正处于一个关键的商业拐点,这是自互联网诞生以来所未见的变革潜力。本书为有志于理解这一潜力的从业者和商业领袖创建了一份全面而强大的清单,是你用数据科学和人工智能赢得胜利的基础。
——安德鲁·J. 沃尔特,IT和商业服务副总裁(退休),P&G

这本书是帮助分析团队迅速弥合数据科学技能差距的重要著作。先进的分析方法和机器学习实践应用将使读者有能力处理高价值的用例。
——彼得·李,首席执行官,RapidMiner

本书可帮助读者快速入门数据分析实践。书中涵盖从数据准备、分类和回归到深度学习和时间序列预测等主题,通过RapidMiner即用型配置,读者可以直接将这些方法用于所面临的问题,从而实现从理论到实践的快速过渡。
——海科·保尔海姆教授,曼海姆大学

如果你是一名商业领袖或新上任的管理人员,希望进一步理解数据科学概念,并且利用这一领域推动业务和做出更好的决策,那么本书就是你的试金石。如果你是一名资质尚浅的数据科学家,希望在该领域建立更坚实的基础,并且更好地在现实世界中应用其概念和技术,那么本书也是你的试金石。
——杰夫·鲁萨考,首席执行官,Boosted

图书序言

自从本书第1版(2014年)出版以来,已经发生了很多变化。几乎每一天媒体上都有关于数据科学、机器学习或人工智能的新闻。有趣的是,许多新闻都持怀疑态度,即便不是负面的基调。但所有文章都强调了两件事:数据科学和机器学习最终会成为主流,而且目前人们对此知之甚少。本书的读者在这方面肯定会做得更好。本书是一份有价值的资源,它不仅讲授如何在实践中使用数据科学,还阐述了基本概念的工作原理。
数据科学和机器学习是快速发展的领域,这就是为什么第2版反映了该领域的许多变化。几年前,我们曾提及很多关于“数据挖掘”和“预测分析”的讨论,而现在已经为更广泛的领域确定了“数据科学”一词。更重要的是:现在人们普遍认为机器学习是许多当前技术突破的核心。对于在这个领域工作的所有人来说,这真是令人激动的时刻!
我见识过由数据科学和机器学习而产生的不可思议的影响,也看到过失败的例子。它们有什么区别?在大多数情况下,组织机构在数据科学和机器学习方面的尝试都失败了,它们在错误的环境中使用了这些技术。如果你只需要做出一个重大决策,那么数据科学模型就不是很有用。通过让你更轻松地访问做决策所需的数据,分析法仍可以帮助你解决此类问题,或者以可消费的方式呈现数据。但最终,那些单一的重大决策往往具有战略意义。建立一个机器学习模型来帮助你做出这个决定是不值得的,通常它们也不会产生比自行决定更好的结果。
数据科学和机器学习可以真正发挥作用的地方是:这些先进的模型可以在你需要快速做出大量类似的决策时提供最大价值。这方面的例子是:
在需求快速变化的市场中定义产品价格。
提供电子商务平台交叉销售的报价。
是否批准信用。
检测流失风险高的客户。
阻止欺诈交易。
还有很多其他方面。
你可以看到,能够访问所有相关数据的人可以在几秒或几分钟内做出这些决策,而这类人离不开数据科学,因为他们每天都需要做出数百万次这种类型的决策。假设每天要筛选5000万客户的数据库,以识别具有高流失风险的客户,任何人都不可能人工做到这一点,但对于机器学习模型来说则完全没问题。
因此,人工智能和机器学习的最大价值并不是支持我们做出重大的战略决策。当我们操作模型并自动执行数百万个决策时,机器学习可带来最大价值。对这种现象的最简短的描述之一来自吴恩达(Andrew Ng),他是AI领域的著名研究员。吴恩达这样描述人工智能可以做的事情:“一个普通人用不到一秒钟完成的思维任务,我们现在或者在不久的将来可能会使用AI自动地完成它。”
我同意他的这种描述,而且我喜欢吴恩达强调这些模型的自动化和操作化——因为这是最大的价值所在。我唯一不同意的是他选择的时间单位,已经可以安全地说是一分钟而不是一秒钟。
然而,快速的变化以及数据科学的无处不在也强调了奠定正确基础的重要性。请记住,机器学习并不是全新的。自20世纪50年代以来,它一直是一个活跃的研究领域。今天使用的一些算法已经存在了200多年。第一个深度学习模型是在20世纪60年代开发的,1984年创造了“深度学习”这个术语。这些算法现在已被很好地理解。理解它们的基本概念将有助你为正确的任务选择正确的算法。
为了向你提供支持,本书还增加了一些关于深度学习和推荐系统的章节。另一个重点领域是文本分析和自然语言处理。在过去几年中,很明显最成功的预测模型除了使用更传统的表格格式外,还使用了非结构化输入数据。最后,时间序列预测的扩展会让你开始使用业务中应用最广泛的数据科学技术之一。
更多算法可能意味着存在复杂性增加的风险。但是,由于RapidMiner平台的简单性以及根据本书中的许多实际例子来看,情况并非如此。我们将继续迈向数据科学和机器学习的大众化之旅。这一过程会一直持续,直至数据科学和机器学习像数据可视化或Excel那样无处不在。当然,我们不能在一夜之间神奇地将每个人都变成数据科学家,但可以为人们提供工具来帮助他们实现个人发展目标。这本书是这次旅行中唯一需要的导游。

因戈·米尔斯瓦
RapidMiner 公司创始人
美国马萨诸塞州

译者序

数据科学是一门充满变革的多领域交叉学科。它与新兴的人工智能、深度学习、大数据,以及古老的线性代数、概率论、统计学、模糊数学、逼近论、凸分析、数值算法等多门学科有着密切的关系。实际上,数据科学与大数据专业是最近几年才新设立的本科专业。
从数据的产生、预处理、知识建模到知识应用,数据科学的整个过程中都存在着各类挑战和问题。从大数据技术和智能技术两个不同的角度看数据科学,会产生不同的知识框架和知识体系。
本书从智能技术的角度出发,着眼于从数据中提炼知识的整个过程所面临的技术问题和任务,主要描述了分类、回归、关联分析、聚类、异常检测、推荐引擎、特征选择、时间序列预测、深度学习和文本挖掘等问题。本书围绕这些数据科学任务进行组织,对许多重要的技术概念和实现方法进行了深入的讨论;对每种算法的工作原理和实现方法,以及实践中可能遇到的问题做了详细的介绍。书中使用RapidMiner可视化地展示了数据处理过程,描述了常用的设置和参数选项,使得读者可以很快上手实践典型的智能处理技术,从而更深刻地认识和了解这些技术。本书还从数据应用指导的视角,与典型机器学习任务相结合,深入浅出地介绍了与数据科学密切关联的常见的机器学习任务和模型,相信读者一定能从中受益。
译者一直在从事数值模拟、数据分析、大数据处理和设计应用等方面的实践和科研工作,特别是开展了结合数据科学和智能技术的航天空气动力学大数据方向的分类、分析、挖掘处理与建模等方面的初步探索和应用尝试,并相信数据科学会在以航空航天为代表的科技和工业领域拥有广阔的前景和潜力。对于这些领域的基础研究而言,数据科学会用于发现新的物理力学现象、新的规律、新的机理和原理,帮助科学家做出开创性的研究工作;对于工程设计而言,数据科学会用于数据分析、模型建立、分类识别、控制和优化设计等问题。就目前的情况来看,数据科学在音视频识别和分类技术方面已经取得了突飞猛进的发展,在金融、安防、客服等领域得到了广泛的应用,已经遍布于我们的生活和工作。对于以航空航天为代表的众多科技和工业领域的基础研究、技术攻关和产品设计而言,数据科学尤其是智能技术同样引起了广泛的热情乃至狂热追捧。但这方面的工作与涉及国民经济领域的海量大数据的特征有所不同,存在鲜明的自身特点和需求。应该说这方面的很多工作仍旧处于研究探索阶段,距离实际的应用或者说距离人们的期望还有比较大的差距。由此,虽然译者前期开展了很多相关领域的研究和探索,但在翻译的过程中,依然感受到本书涉及面广,介绍内容多,既有原理又有实践。为此译者力求准确反映原著所表达的思想、概念和技术原理,希望能对相关的研究者、技术人员和学生有所帮助。但受限于译者的学术技术水平,翻译中难免有错漏瑕疵之处,恳请读者朋友批评指正,译者不胜感激。
最后,感谢家人和朋友的支持与帮助。感谢在本书翻译过程中做出贡献的人,特别是北京邮电大学董丹阳、法天昊、常霄、傅广涛、丁哲伦、黄淮、黎哲、靳梦凡、王言麟、杨闫猛和张涵等,以及北京三帆中学黄天量。还要感谢机械工业出版社华章分社的各位编辑,以及北京邮电大学计算机学院和中国航天空气动力技术研究院的大力支持。

智能通信软件与多媒体北京市重点实验室
计算智能与可视化实验室
黄智濒 白鹏
2020年5月于北京邮电大学

图书目录

赞誉
译者序
序言
前言
致谢
作者简介
第1章 简介 1
1.1 AI、机器学习和数据科学 2
1.2 什么是数据科学 3
1.2.1 提取有意义的模式 3
1.2.2 构建表示模型 3
1.2.3 统计、机器学习和计算的结合 4
1.2.4 学习算法 4
1.2.5 相关领域 4
1.3 数据科学的案例 5
1.3.1 体量 5
1.3.2 维度 5
1.3.3 复杂问题 6
1.4 数据科学的分类 6
1.5 数据科学的算法 7
1.6 本书路线图 8
1.6.1 数据科学入门 8
1.6.2 练习使用RapidMiner 8
1.6.3 核心算法 9
参考文献 11
第2章 数据科学过程 12
2.1 先验知识 13
2.1.1 目标 13
2.1.2 主题范围 14
2.1.3 数据 14
2.1.4 因果关系与相关性 15
2.2 数据准备 15
2.2.1 数据探索 15
2.2.2 数据质量 16
2.2.3 缺失值 16
2.2.4 数据类型和转换 16
2.2.5 转换 17
2.2.6 异常值 17
2.2.7 特征选择 17
2.2.8 数据采样 17
2.3 建模 18
2.3.1 训练数据集和测试数据集 18
2.3.2 学习算法 19
2.3.3 模型评估 20
2.3.4 集成模型 20
2.4 应用 21
2.4.1 生产准备 21
2.4.2 技术整合 21
2.4.3 响应时间 21
2.4.4 模型刷新 22
2.4.5 同化 22
2.5 知识 22
参考文献 23
第3章 数据探索 24
3.1 数据探索的目标 24
3.2 数据集 25
3.3 描述性统计 26
3.3.1 单变量探索 27
3.3.2 多变量探索 28
3.4 数据可视化 30
3.4.1 单变量的可视化 31
3.4.2 多变量的可视化 34
3.4.3 可视化高维数据 38
3.5 数据探索的路线图 40
参考文献 41
第4章 分类 42
4.1 决策树 42
4.1.1 工作原理 42
4.1.2 实现过程 47
4.1.3 小结 55
4.2 规则归纳 56
4.2.1 工作原理 58
4.2.2 实现过程 60
4.2.3 小结 63
4.3 k-NN(k-近邻) 63
4.3.1 工作原理 64
4.3.2 实现过程 69
4.3.3 小结 71
4.4 朴素贝叶斯 71
4.4.1 工作原理 72
4.4.2 实现过程 77
4.4.3 小结 79
4.5 人工神经网络 80
4.5.1 工作原理 82
4.5.2 实现过程 84
4.5.3 小结 86
4.6 支持向量机 87
4.6.1 工作原理 89
4.6.2 实现过程 91
4.6.3 小结 95
4.7 集成学习 95
4.7.1 工作原理 97
4.7.2 实现过程 98
4.7.3 小结 105
参考文献 105
第5章 回归方法 107
5.1 线性回归 107
5.1.1 工作原理 108
5.1.2 实现过程 112
5.1.3 检查点 117
5.2 逻辑回归 120
5.2.1 工作原理 122
5.2.2 实现过程 124
5.2.3 总结要点 127
5.3 总结 127
参考文献 127
第6章 关联分析 128
6.1 挖掘关联规则 129
6.1.1 项集 130
6.1.2 规则生成 132
6.2 Apriori算法 133
6.3 频繁模式增长算法 136
6.3.1 工作原理 136
6.3.2 实现过程 138
6.4 总结 141
参考文献 141
第7章 聚类 142
7.1 k-means聚类 145
7.1.1 工作原理 147
7.1.2 实现过程 149
7.2 DBSCAN聚类 153
7.2.1 工作原理 153
7.2.2 实现过程 155
7.3 自组织映射 158
7.3.1 工作原理 159
7.3.2 实现过程 161
参考文献 166
第8章 模型评估 168
8.1 混淆矩阵 169
8.2 ROC和AUC 170
8.3 提升曲线 172
8.4 实现过程 174
8.5 总结 177
参考文献 178
第9章 文本挖掘 179
9.1 工作原理 180
9.1.1 词频–逆文档频率 180
9.1.2 词语 181
9.2 实现过程 184
9.2.1 实现1:关键词聚类 184
9.2.2 实现2:预测博客作者的性别 187
9.3 总结 193
参考文献 194
第10章 深度学习 195
10.1 AI冬天 197
10.1.1 AI冬天:20世纪70年代 197
10.1.2 冬季解冻:20世纪80年代 198
10.1.3 人工智能的春夏:2006年至今 200
10.2 工作原理 201
10.2.1 神经网络的回归模型 201
10.2.2 梯度下降法 202
10.2.3 需要反向传播 204
10.2.4 分类超过2个:softmax 205
10.2.5 卷积神经网络 207
10.2.6 密集层 211
10.2.7 随机失活层 211
10.2.8 循环神经网络 212
10.2.9 自动编码器 213
10.2.10 相关AI模型 213
10.3 实现过程 214
10.4 总结 217
参考文献 218
第11章 推荐引擎 219
11.1 推荐引擎的概念 221
11.2 协同过滤 225
11.2.1 基于邻域的方法 226
11.2.2 矩阵分解 233
11.3 基于内容的过滤 238
11.3.1 用户画像的计算 239
11.3.2 有监督学习方法 245
11.4 混合推荐器 249
11.5 总结 250
参考文献 251
第12章 时间序列预测 253
12.1 时间序列分解 256
12.1.1 经典分解 258
12.1.2 实现过程 258
12.2 基于平滑的方法 260
12.2.1 简单预测方法 260
12.2.2 指数平滑 261
12.2.3 实现过程 263
12.3 基于回归的方法 264
12.3.1 回归 265
12.3.2 周期性回归 266
12.3.3 集成移动平均自回归模型 268
12.3.4 周期性ARIMA 272
12.4 机器学习方法 274
12.4.1 窗口化 275
12.4.2 神经网络自回归 280
12.5 性能评估 282
12.5.1 验证数据集 282
12.5.2 滑动窗口验证 283
12.6 总结 284
参考文献 285
第13章 异常检测 286
13.1 概念 286
13.1.1 异常点的原因 286
13.1.2 异常检测技术 288
13.2 基于距离的异常点检测 289
13.2.1 工作原理 290
13.2.2 实现过程 291
13.3 基于密度的异常点检测 293
13.3.1 工作原理 293
13.3.2 实现过程 294
13.4 局部异常因子 295
13.4.1 工作原理 295
13.4.2 实现过程 296
13.5 总结 297
参考文献 298
第14章 特征选择 299
14.1 分类特征选择方法 299
14.2 主成分分析 301
14.2.1 工作原理 301
14.2.2 实现过程 302
14.3 基于信息理论的过滤 306
14.4 基于卡方的过滤 307
14.5 包裹式特征选择 309
14.6 总结 313
参考文献 313
第15章 RapidMiner入门 314
15.1 用户界面和术语 314
15.2 数据导入和导出工具 317
15.3 数据可视化工具 320
15.4 数据转换工具 321
15.5 采样和缺失值工具 324
15.6 优化工具 327
15.7 与R的集成 332
15.8 总结 332
参考文献 333
附录 数据科学算法的比较 334

教学资源推荐
作者: Thomas M.Connolly, Carolyn E.Begg
作者: [美] 亚伯拉罕·西尔伯沙茨 (Abraham Silberschatz) [美] 亨利·F. 科思 (Henry F. Korth) [印] S. 苏达尔尚(S. Sudarshan) 著
作者: 寿建霞 毛国红 张繁
作者: 何玉洁 编著
参考读物推荐
作者: (美)Koletzke,P. Dorsey,D.P.
作者: [美]亚历克斯·彼得罗夫(Alex Petrov) 著
作者: Steve Bobrowske