首页>参考读物>计算机科学与技术>综合

实用数据分析(原书第2版)
作者 : [美]赫克托·奎斯塔(Hector Cuesta)桑帕斯·库马尔(Dr.Sampath Kumar) 著
译者 : 刁晓纯 译
丛书名 : 大数据技术丛书
出版日期 : 2017-09-08
ISBN : 978-7-111-57921-2
定价 : 59.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 248
开本 : 16
原书名 : Practical Data Analysis,Second Edition
原出版社:
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

本书详细阐释了机器学习技术、社会化网络分析以及计量经济学,可以帮助你了解数据的性质,并把它转化为洞察力。
作者结合自身丰富的实践经验,循序渐进地讲解了各种实用数据分析技术。首先通过OpenRefine探索数据准备和转换的基础知识;其次介绍应用D3.js探索和分析数据;然后通过垃圾邮件分类、预测黄金价格、找出Facebook中的朋友集群等实用项目,深入剖析机器学习技术,如分类、回归、集群,讲解如何解决文本分类、模拟、时间序列预测和社会化媒体等方面的问题;最后介绍如何在Python和MongoDB中通过MapReduce来分析大量Twitter数据的情感问题。

图书特色

本书提供了一系列将数据转化为洞察力的现实案例。书中覆盖了广泛的数据分析工具和算法,用于进行分类分析、聚类分析、数据可视化、数据模拟以及预测。本书的目标是帮助读者了解数据从而找到相应的模式、趋势、相互关系以及洞察力。书中所包括的实用项目充分利用了MongoDB、D3.js和Python语言,并采用代码片段和详细描述的方式向读者呈现本书的核心概念。

通过阅读本书,你将学会:
数据分析的基本原理和数据分析步骤。
数据清洗工具OpenRefine的使用方法。
在JavaScript可视化框架下应用D3.js语言来实现各类数据的可视化方法。
应用朴素贝叶斯算法。
应用动态时间规整方法来寻找图像间的相似性。
使用随机漫步算法和可视化的D3.js动画技术来模拟股票价格。
核岭回归的原理以及使用方法。
使用支持向量机的方法进行分类分析。
应用Gephi从Facebook获取社交媒体图谱并实现可视化。
应用Twitter的应用程序编程接口来获取Twitter的数据。
在MongoDB数据库中进行分组、过滤和聚合等操作。
在MongoDB数据库中应用MapReduce编程模型。
Wakari平台的使用方法。
在Cloudera VM上使用分布式文件系统及数据环境。
Apache Spark的主要特征。

内容简介

本书共15章:第1章探讨数据分析的基本原理和数据分析步骤;第2章解释如何清洗并准备数据;第3章展示在JavaScript可视化框架下应用D3.js来实现各类数据的可视化方法;第4章介绍如何应用朴素贝叶斯算法来区分垃圾邮件;第5章讲解应用动态时间规整方法寻找图像间的相似性;第6章介绍使用随机游走算法和可视化的D3.js动画技术模拟股票价格;第7章介绍核岭回归(KRR)的原理以及应用;第8章描述如何使用支持向量机方法进行分类分析;第9章介绍应用细胞自动机方法对传染病进行建模;第10章解释如何应用Gephi从Facebook获取社交媒体图谱并实现可视化;第11章介绍如何应用Twitter数据进行情感分析;第12章介绍如何使用MongoDB进行数据处理和聚合;第13章详细介绍如何在MongoDB数据库中应用MapReduce编程模型;第14章介绍如何应用Jupyter和Wakari开展线上数据分析;第15章介绍如何使用Apache Spark处理数据。

作者简介
赫克托·奎斯塔(Hector Cuesta)
Dataxios(一家机器智能研发公司)的创始人及首席数据科学家,拥有信息学士及计算机科学硕士学位。他在金融、零售、金融科技、在线学习、人力资源等领域提供数据驱动产品设计的咨询服务。可以关注他的推特:https://twitter.com/hmCuesta。

桑帕斯·库马尔(Dr. Sampath Kumar)
Telangana 大学应用统计系的助理教授和系主任,拥有5年研究生教学经验,有超过4年的工作经验。他是SAS和MATLAB软件高级编程人员,擅长利用SPSS、SAS、R、Minitab、MATLAB等软件进行数据统计。他在不同的应用学科和纯统计专业,如预测建模、应用回归分析、多变量数据分析、运营管理等方面具有教学经验。

图书前言

本书提供了一系列将数据转化为重要结论的现实案例。书中覆盖了广泛的数据分析工具和算法,用于进行分类分析、聚类分析、数据可视化、数据模拟以及预测。本书旨在帮助读者了解数据从而找到相应的模式、趋势、相互关系以及重要结论。
书中所包括的实用项目充分利用了MongoDB、D3.js和Python语言,并采用代码片段和详细描述的方式呈现本书的核心概念。
本书主要内容
第1章探讨数据分析的基本原理和数据分析步骤。
第2章解释如何清洗并准备好数据来开展分析,同时介绍数据清洗工具OpenRefine的使用方法。
第3章展示在JavaScript可视化框架下应用D3.js语言来实现各类数据的可视化方法。
第4章介绍应用朴素贝叶斯(Naive Bayes)算法来区分垃圾文本的一种二元分类法。
第5章展示一个应用动态时间规整方法来寻找图像间相似性的项目。
第6章解释如何使用随机漫步算法和可视化的D3.js动画技术来模拟股票价格。
第7章介绍核岭回归(Kernel Ridge Regression,KRR)的原理以及如何使用此方法和时间序列数据来预测黄金价格。
第8章描述如何使用支持向量机的方法进行分类分析。
第9章介绍对流行病进行模拟计算的基本概念并解释如何应用细胞自动机方法、D3.js和JavaScript语言来模拟流行病爆发。
第10章解释如何应用Gephi从Facebook获取社交媒体图谱并使之实现可视化。
第11章解释如何应用Twitter的应用程序编程接口(API)来获取Twitter的数据。读者也将看到如何改进文本分类分析方法并将其应用于情感分析。这一过程在自然语言工具包(Natural Language Toolkit, NLTK)中应用了朴素贝叶斯算法。
第12章介绍在MongoDB数据库中进行基本操作以及分组、过滤和聚合的方法。
第13章详细介绍如何在MongoDB数据库中应用MapReduce编程模型。
第14章解释如何使用Wakari平台,同时介绍在IPython中运用pandas进行数据处理和使用PIL图像处理库的方法。
第15章介绍如何在Cloudera VM上使用分布式文件系统及数据环境。最后,利用实际案例介绍Apache Spark的主要特征。
阅读准备
使用本书需要掌握如下技术:
Python
OpenRefine
D3.js
mlpy
NLTK
Gephi
MongoDB
读者对象
本书主要面向那些希望能够实际开展数据分析和数据可视化的软件开发人员、分析人员、计算机科学家。同时,本书也希望能够为读者提供包含时间序列数据、数值型数据、多维度数据和社交媒体数据、文本型数据等多种数据形式的实际案例,以帮助读者获得对数据分析的真知灼见。
读者不需要具备数据分析的经验,但仍需要对统计学和Python编程有基础性的了解。
下载本书相关资源
读者可登录华章网站(http://www.hzbook.com)下载本书的相关资源。

上架指导

计算机\数据挖掘

封底文字

本书提供了一系列将数据转化为洞察力的现实案例。书中覆盖了广泛的数据分析工具和算法,用于进行分类分析、聚类分析、数据可视化、数据模拟以及预测。本书的目标是帮助读者了解数据从而找到相应的模式、趋势、相互关系以及洞察力。书中所包括的实用项目充分利用了MongoDB、D3.js 和Python 语言,并采用代码片段和详细描述的方式向读者呈现本书的核心概念。

通过阅读本书,你将学到:
数据分析的基本原理和数据分析步骤。
数据清洗工具OpenRefine的使用方法。
在JavaScript 可视化框架下应用D3.js 语言来实现各类数据的可视化方法。
应用朴素贝叶斯算法。
应用动态时间规整方法来寻找图像间的相似性。
使用随机漫步算法和可视化的D3.js 动画技术来模拟股票价格。
核岭回归的原理以及使用方法。
使用支持向量机的方法进行分类分析。
应用Gephi 从Facebook 获取你的社交媒体图谱并使之实现可视化。
应用Twitter 的应用程序编程接口来获取Twitter 的数据。
在MongoDB 数据库中进行基本操作以及分组、过滤和聚合的方法。
如何在MongoDB 数据库中应用MapReduce 编程模型。
Wakari 平台的使用方法。
如何在Cloudera VM 上使用分布式文件系统及数据环境。
Apache Spark 的主要特征。

译者序

早在2013年7月,因为参加了“数据驱动企业分析变革商业”2013第三届大数据世界论坛,认识了机械工业出版社的编辑王春华。当时从事数据方面的工作已经3年多,身处国内大型央企,我所涉及的数据分析工作非常广泛,既跨越了银行保险、公共服务、电子商务及速递物流等行业,也包含了对客户、渠道、价格、实物网效率、经营业绩等多方面的分析。在当时的工作中遇到了很多问题,既有组织方面的,也有方法效率方面的,王编辑推荐我阅读本书第1版原著,并且我也有幸参予翻译了部分章节。令人惊喜的是,书中所介绍的广泛案例、先进的方法以及诸多便利的工具都对数据分析工作有很多帮助和值得借鉴的地方。
针对本书,我的主要体会有三方面:
第一,本书包含丰富的案例。书中介绍的案例涉及垃圾邮件的分类分析、图像匹配、流行病暴发事件分析、社交网络的数据获取和分析、对文本型数据进行情感分析、股票价格以及黄金价格走势分析等。
第二,本书所涉内容包含了数据分析的全流程,包括了数据准备和处理、多类型建模、数据可视化展示等。初次接触数据分析的读者可以由浅入深地了解分析的全貌。
第三,本书充分体现了大数据的特点,既介绍了对结构化数据的处理也介绍了对非结构化数据的处理,数据类型丰富。书中所涉数据包括时间序列数据、数值型数据、多维度数据和社交媒体数据、文本型数据等多种形式,可以帮助读者获得对数据分析的真知灼见。
时隔几年,机械工业出版社联系上我,询问我是否愿意翻译本书第2版,我二话不说接下了这个任务,这几年随着数据工作方面的积累,对于本书,除了有更深的体会,也重新回顾、整理了当年翻译的内容。随着“大数据”技术的发展,本书最后一章也新增了对Cloudera VM和Apache Spark的介绍,使读者了解其在大数据领域的地位,并掌握一些常见的方法和操作。这又是一次温故而知新的历程。
书中部分内容是按照原文直译的,难免有不完整或者偏颇的地方,请读者批评指正,也欢迎广大读者与我交流沟通,我的邮箱是jacqueline_dut@hotmail.com。

刁晓纯
2017年6月

图书目录

译者序
作者简介
审校者简介
前言
第1章 开始1
1.1 计算机科学1
1.2 人工智能2
1.3 机器学习2
1.4 统计学2
1.5 数学2
1.6 专业领域知识3
1.7 数据、信息和知识3
1.7.1 数据、信息和知识之间的相互性3
1.7.2 数据的本质4
1.8 数据分析过程5
1.8.1 问题6
1.8.2 数据准备6
1.8.3 数据探索7
1.8.4 预测建模7
1.8.5 结果可视化8
1.9 定量与定性数据分析9
1.10 数据可视化的重要性9
1.11 大数据10
1.12 自我量化12
1.12.1 传感器和摄像头12
1.12.2 社交网络分析13
1.13 本书的工具和练习13
1.13.1 为什么使用 Python14
1.13.2 为什么使用mlpy14
1.13.3 为什么使用D3.js14
1.13.4 为什么使用 MongoDB15
1.14 小结15
第2章 数据预处理16
2.1 数据源16
2.1.1 开源数据17
2.1.2 文本文件18
2.1.3 Excel文件18
2.1.4 SQL数据库18
2.1.5 NoSQL数据库19
2.1.6 多媒体20
2.1.7 网页检索20
2.2 数据清洗22
2.2.1 统计方法23
2.2.2 文本解析23
2.2.3 数据转化25
2.3 数据格式25
2.3.1 CSV26
2.3.2 JSON27
2.3.3 XML28
2.3.4 YAML29
2.4 数据归约30
2.4.1 过滤及抽样30
2.4.2 分箱算法30
2.4.3 降维31
2.5 开始使用OpenRefine工具32
2.5.1 text facet33
2.5.2 聚类33
2.5.3 文本过滤器34
2.5.4 numeric facet34
2.5.5 数据转化35
2.5.6 数据输出36
2.5.7 操作历史记录36
2.6 小结37
第3章 可视化38
3.1 可视化概述39
3.2 利用网页版的可视化39
3.3 探索科学可视化39
3.4 在艺术上的可视化40
3.5 可视化生命周期40
3.6 可视化不同类型的数据41
3.6.1 HTML41
3.6.2 DOM42
3.6.3 CSS42
3.6.4 JavaScript43
3.6.5 SVG43
3.7 开始使用D3.js43
3.7.1 柱状图44
3.7.2 饼图48
3.7.3 散点图50
3.7.4 单线图52
3.7.5 多线图55
3.8 交互与动画59
3.9 社交网络中的数据61
3.10 可视化分析的摘要62
3.11 小结62
第4章 文本分类63
4.1 学习和分类63
4.2 贝叶斯分类64
4.3 E-mail主题测试器65
4.4 数据66
4.5 算法68
4.6 分类器的准确性71
4.7 小结73
第5章 基于相似性的图像检索74
5.1 图像相似性搜索74
5.2 动态时间规整75
5.3 处理图像数据集77
5.4 执行DTW77
5.5 结果分析79
5.6 小结81
第6章 模拟股票价格82
6.1 金融时间序列82
6.2 随机漫步模拟83
6.3 蒙特卡罗方法84
6.4 生成随机数85
6.5 用D3.js实现86
6.6 计量分析师91
6.7 小结93
第7章 预测黄金价格94
7.1 处理时间序列数据94
7.2 平滑时间序列97
7.3 线性回归100
7.4 数据—历史黄金价格101
7.5 非线性回归101
7.5.1 核岭回归102
7.5.2 平滑黄金价格时间序列104
7.5.3 平滑时间序列的预测105
7.5.4 对比预测值106
7.6 小结107
第8章 使用支持向量机的方法进行分析108
8.1 理解多变量数据集109
8.2 降维111
8.2.1 线性无差别分析112
8.2.2 主成分分析112
8.3 使用支持向量机114
8.3.1 核函数115
8.3.2 双螺旋问题116
8.3.3 在mlpy中实现SVM116
8.4 小结119
第9章 应用细胞自动机的方法对传染病进行建模120
9.1 流行病学简介120
9.2 流行病模型122
9.2.1 SIR模型122
9.2.2 使用SciPy来解决SIR模型的常微分方程123
9.2.3 SIRS模型124
9.3 对细胞自动机进行建模125
9.3.1 细胞、状态、网格和邻域126
9.3.2 整体随机访问模型127
9.4 通过D3.js模拟CA中的SIRS模型127
9.5 小结135
第10章 应用社交图谱136
10.1 图谱的结构136
10.1.1 无向图137
10.1.2 有向图137
10.2 社交网络分析137
10.3 捕获Facebook图谱138
10.4 使用Gephi再现图谱139
10.5 统计分析142
10.6 度的分布144
10.6.1 图谱直方图145
10.6.2 集中度146
10.7 将GDF转化为JSON148
10.8 在D3.js环境下进行图谱可视化150
10.9 小结154
第11章 分析Twitter数据155
11.1 解析Twitter数据155
11.1.1 tweet156
11.1.2 粉丝156
11.1.3 热门话题156
11.2 使用OAuth访问Twitter API157
11.3 开始使用Twython158
11.3.1 利用Twython进行简单查询159
11.3.2 获取时间表数据163
11.3.3 获取粉丝数据165
11.3.4 获取地点和趋势信息167
11.3.5 获取用户数据168
11.3.6 API流169
11.4 小结171
第12章 使用MongoDB进行数据处理和聚合172
12.1 开始使用MongoDB172
12.1.1 数据库173
12.1.2 集合175
12.1.3 文件175
12.1.4 Mongo shell175
12.1.5 Insert/Update/Delete176
12.1.6 查询177
12.2 数据准备178
12.2.1 使用OpenRefine进行数据转换179
12.2.2 通过PyMongo插入文件180
12.3 分组182
12.4 聚合框架184
12.4.1 流水线184
12.4.2 表达式185
12.5 小结186
第13章 使用MapReduce方法188
13.1 MapReduce概述188
13.2 编程模型189
13.3 在MongoDB中使用MapReduce190
13.3.1 map函数190
13.3.2 reduce函数191
13.3.3 使用Mongo shell191
13.3.4 使用Jupyter193
13.3.5 使用PyMongo194
13.4 过滤输入集合195
13.5 分组和聚合196
13.6 在tweet中统计高频词汇198
13.7 小结201
第14章 使用Jupyter和Wakari进行在线数据分析202
14.1 开始使用Wakari202
14.2 开始使用Jupyter记事本205
14.3 通过PIL进行图像处理208
14.3.1 打开图像208
14.3.2 显示图像直方图208
14.3.3 过滤209
14.3.4 操作211
14.3.5 转化212
14.4 开始使用pandas213
14.4.1 处理时间序列213
14.4.2 通过数据框架来操作多变量数据集215
14.4.3 分组、聚合和相关219
14.5 分享你的记事本221
14.6 小结224
第15章 使用Apache Spark处理数据225
15.1 数据处理平台226
15.1.1 Cloudera 平台226
15.1.2 安装Cloudera VM227
15.2 分布式文件系统概述229
15.2.1 使用Hadoop分布式文件系统(HDFS)的具体步骤229
15.2.2 利用HUE的Web界面来进行文件管理230
15.3 Apache Spark概述231
15.3.1 Spark的生态系统231
15.3.2 Spark编程模型232
15.3.3 Apache启动的介绍性操作样例234
15.4 小结235

教学资源推荐
作者: 赵绪辉
作者: 周启海
作者: [加]约翰·沃特罗斯(John Watrous) 著
作者: 赖晓晨 江贺 韩瑜 编著
参考读物推荐
作者: 李冰 刘富强 王嘉男 等编著
作者: (美)S.Ilango Kumaran
作者: 方志刚 编著李斌 张露 审校(加内封里)