参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 247

开本 : 16

原书名 : 实用数据分析

原出版社: Packt Publishing Ltd.

属性分类: 店面

包含CD : 无

绝版 : 未绝版

图书简介

图书特色

资深数据分析咨询师多年经验结晶，内容全面而深入，为高效利用数据分析工具和算法进行数据分析提供翔实指导
通过大量典型数据分析案例，全面阐释分类分析、聚类分析、数据可视化及预测方面的各种技术和方法，为快速掌握并灵活运用数据分析技术提供最佳实践指南

当前众多中小型企业都面临着大量的数据，但缺乏实用的技术支持定量分析。通过使用最新的开源技术，利用数据分析技术能够帮助这些企业提供更好的客户服务，可视化客户需求，增强对未来产品性能的洞见力。本书详细阐释了机器学习技术、社会化网络分析以及计量经济学，可以帮助你了解数据的性质，并把它转化为洞察力。
作者结合自身丰富的实践经验，循序渐进地讲解了各种实用数据分析技术。首先通过OpenRefine探索数据准备和转换的基础知识；其次介绍应用D3.js探索和分析数据；然后通过垃圾邮件分类、预测黄金价格、找出Facebook中的朋友集群等实用项目，深入剖析机器学习技术，如分类、回归、集群，讲解如何解决文本分类、模拟、时间序列预测和社会化媒体等方面的问题；最后介绍如何在Python和MongoDB中通过MapReduce来分析大量Twitter数据隐藏的情感问题。

通过阅读本书，你将学到：
从数据分析项目中得到有意义的结果
可视化你的数据，找出趋势和相关性
建立你自己的图像相似性搜索引擎
了解如何从时间序列数据中预测数值
在MongoDB中探索MapReduce框架
创建D3.js互动式模拟

作者简介
Hector Cuesta 资深数据分析咨询师，为金融服务、社会化网络、在线学习和人力资源等多个行业提供软件工程与数据分析方面的咨询服务。他是墨西哥州自治大学计算机科学系的讲师，主要研究领域涉及计算流行病学、机器学习、计算机视觉、高性能计算、大数据、模拟和数据可视化。他是《Software Guru》杂志的专栏作家，并且在一些国际期刊和会议中发表多篇科学论文。业余时间，他是乐高机器人和树莓派的狂热爱好者。

资深数据分析咨询师多年经验结晶，通过大量典型数据分析案例，全面而深入地讲解分类分析、聚类分析、数据可视化及预测方面的各种技术和方法，为快速掌握并灵活运用数据分析技术提供最佳实践指南。
本书共14章：第1章探讨数据分析的基本原理和数据分析步骤；第2章解释如何清洗并准备数据；第3章展示在JavaScript可视化框架下应用D3.js来实现各类数据的可视化方法；第4章介绍如何应用朴素贝叶斯算法来区分垃圾邮件；第5章讲解应用动态时间规整方法寻找图像间的相似性；第6章介绍使用随机游走算法和可视化的D3.js动画技术模拟股票价格；第7章介绍核岭回归（KRR）的原理以及应用；第8章描述如何使用支持向量机方法进行分类分析；第9章介绍应用细胞自动机方法对传染病进行建模；第10章解释如何应用Gephi从Facebook获取社会化媒体图谱并使之实现可视化；第11章介绍如何应用Twitter数据进行情感分析；第12章介绍如何使用MongoDB进行数据处理和聚合；第13章详细介绍如何在MongoDB数据库中应用MapReduce编程模型；第14章介绍如何应用IPython和Wakari开展线上数据分析。

图书前言

本书提供了一系列现实中将数据转化为洞察力的案例。书中覆盖了广泛的数据分析工具和算法，用于进行分类分析、聚类分析、数据可视化、数据模拟以及预测。本书的目标是帮助你了解数据从而找到相应的模式、趋势、相互关系以及洞察力。
书中所包括的实用项目充分利用了MongoDB、D3.js和Python语言并采用代码片段和详细描述的方式向读者呈现本书的核心概念。
本书组织结构
第1章探讨数据分析的基本原理和数据分析步骤。
第2章解释如何清洗并准备好数据来开展分析，同时介绍了数据清洗工具OpenRefine的使用方式。
第3章展示在JavaScript可视化框架下应用D3.js语言来实现各类数据的可视化方法。
第4章介绍了应用朴素贝叶斯算法（Na ve Bayes）来区分垃圾文本的一种二元分类法。
第5章展示了一个应用动态时间规整方法来寻找图像间相似性的项目。
第6章解释了如何使用随机游走算法和可视化的D3.js动画技术来模拟股票价格的内容。
第7章介绍核岭回归（Kernel Ridge Regression，KRR）的原理以及如何使用此方法和时间序列数据来预测黄金价格。
第8章描述如何使用支持向量机的方法进行分类分析。
第9章介绍了对流行病进行模拟计算的基本概念并解释如何应用细胞自动机方法、D3.js和JavaScript语言来实现对流行病爆发的模拟。
第10章解释如何应用Gephi从Facebook获取你的社会化媒体图谱并使之实现可视化。
第11章解释如何应用Twitter的应用程序编程接口（API）来获取Twitter的数据。读者也将看到如何改进文本分类分析方法并将其应用于情感分析。这一过程是在自然语言工具包（Natural Language Toolkit, NLTK）中应用了朴素贝叶斯算法。
第12章介绍在MongoDB数据库中进行基本操作以及进行分组、过滤和聚合的方法。
第13章详细介绍如何在MongoDB数据库中应用MapReduce编程模型。
第14章解释了如何使用Wakari平台，同时介绍了IPython中运用Pandas进行数据处理和使用PIL图像处理库的方法。
附录提供书中所使用的软件工具的详细安装信息。
本书技能要求
使用本书的基本要求是掌握如下技术：
Python
OpenRefine
D3.js
mlpy
Natural Language Toolkit (NLTK)
Gephi
MongoDB
本书读者对象
本书主要面向那些希望能够实际开展数据分析和数据可视化的软件开发人员、分析人员、计算机科学家。同时，本书也希望能够为读者提供包含时间序列数据、数值型数据、多维度数据和社会化媒体数据、文本型数据等多种数据形式的、内容完备的真实项目，以帮助读者获得对数据分析的真知灼见。读者不需要具备数据分析的经验，但仍需要对统计学和Python编程有基础性的了解。
本书排版约定
在本书中，你将发现很多文本格式的差别，用来区分不同类型的信息。下面给出了一些文本格式的例子以及对这些文本格式的解释。
代码段会采用如下格式：

当我们希望你注意某段特别的代码时，我们会着重标注相关的文字和信息，具体如下：

任何命令行的输入和输出都将采用如下方式：

新术语和重要的文字将被加粗。你在屏幕、菜单或者对话框中看到的文字示例将会采用如下方式进行显示，例如：“接下来我们能够看到如下的屏幕显示，我们将点击Map Reduce 选项。”
下载示例代码
通过你的账户登录http://www.packtpub.com，你能够在示例代码文件夹中找到你在Packt出版社网站所购买的全部书籍。如果你的书籍是在其他地方采购的，那么可以登录http://www.packtpub.com/support 进行注册，我们将通过电子邮件的方式直接将示例代码文件发送给你。
勘误声明
尽管我们已经竭尽所能来确保我们的内容准确无误，但错误难免存在。如果你在我们的任何一本书中发现了任何错误，无论是正文还是代码，对于你所反馈的信息我们都将非常感激。这样能够帮助其他读者避免困惑，同时也能够帮助我们提升该书后续版本的质量。如果你找到任何勘误，请通过http://www.packtpub.com/submit-errata进行反馈，具体路径是：选择你的书籍，点击勘误提交表格的链接，然后输入勘误的详细内容。一旦你所提供的勘误被确认，你的提交将被接受，相关勘物内容将上传到我们的网站，或者增加到任何现有相关的勘误主题栏目中。任何已有的勘误结果可以在http://www.packtpub.com/support网址查到，并可以通过栏目标题进行选择。

上架指导

计算机\数据挖掘

封底文字

当前众多中小型企业都面临着大量的数据，但缺乏实用的技术支持定量分析。通过使用最新的开源技术，利用数据分析技术能够帮助这些企业提供更好的客户服务，可视化客户需求，增强对未来产品性能的洞见力。本书详细阐释了机器学习技术、社会化网络分析以及计量经济学，可以帮助你了解数据的性质，并把它转化为洞察力。
作者结合自身丰富的实践经验，循序渐进地讲解了各种实用数据分析技术。首先通过OpenRefine探索数据准备和转换的基础知识；其次介绍应用D3.js探索和分析数据；然后通过垃圾邮件分类、预测黄金价格、找出Facebook中的朋友集群等实用项目，深入剖析机器学习技术，如分类、回归、集群，讲解如何解决文本分类、模拟、时间序列预测和社会化媒体等方面的问题；最后介绍如何在Python和MongoDB中通过MapReduce来分析大量Twitter数据的情感问题。
通过阅读本书，你将学到：
·从数据分析项目中得到有意义的结果
·可视化你的数据，找出趋势和相关性
·建立你自己的图像相似性搜索引擎
·了解如何从时间序列数据中预测数值
·为你的社会化媒体图形创建一个交互式的可视化
·在MongoDB中探索MapReduce框架
·创建D3.js互动式模拟

作者简介

（美）Hector Cuesta 著：暂无简介

译者简介

刁晓纯陈堰平译：暂无简介

译者序

2013年7月20日，我参加了“数据驱动企业分析变革商业”2013第三届大数据世界论坛。期间一个偶然的机会我认识了机械工业出版社的编辑王春华。当时我对她介绍说，我在中国邮政集团公司从事数据方面的工作已经有3年了，作为国内大型央企我们所开展的数据分析涉及非常广泛的范围，既跨越了银行保险、公共服务、电子商务及速递物流等行业，也包括了对客户、渠道、价格、实物网效率、经营业绩等多方面的分析。但是我们也遇到了很多问题，包括组织方面的，也有方法效率方面的。带着这些工作中的问题，我问她有没有相关方面的书籍可供参考。她没有直接回答我，却推荐了这本书，说感兴趣的话可以分享给国内的读者。就这样一来二去，我抱着探索和尝试的精神，利用2013年春节假期对本书进行了翻译。令人惊喜的是，本书所介绍的广泛案例、先进的方法以及诸多便利的工具都对数据分析工作有很多帮助和值得借鉴的地方。在翻译过程中，我的主要体会有三方面：
第一，本书包含丰富的案例。本书介绍的案例涉及垃圾邮件的分类分析、图像匹配案例、流行病暴发事件分析、社交网络的数据获取和分析、对文本型数据进行情感分析、股票价格以及黄金价格走势等。其中图像匹配的案例让我想到了很多，现实生活中我经常会看到一些漂亮的实物，但是除了一些品牌以外，的确很难找到具体的出处。如果可以上传拍摄到的图片，再通过图像匹配技术在互联网上找到最贴近的网上商家，那么这种大数据技术的应用方式可以更大范围地扩展电子商务交易的范畴。
第二，本书所涉内容包含了数据分析全流程，包括了数据准备和处理、多类型建模、数据可视化展示等。初次接触数据分析的读者可以由浅入深地了解分析的全貌。
第三，本书充分体现了大数据的特点，既介绍了对结构化数据的处理也介绍了对非结构化数据的处理，数据类型丰富。书中所涉数据包括时间序列数据、数值型数据、多维度数据和社交媒体数据、文本型数据等多种数据形式，可以帮助读者获得对数据分析的真知灼见。
本书是我和陈堰平共同翻译的成果，我负责翻译除了第6章和第7章以外的全部内容。后期机械工业出版社的编辑做了大量的文字整理工作。因为大数据是一个比较新颖的领域，一些术语在业界还没有得到统一，书中会有一些内容是按照原文的直意进行翻译，难免有不完整或者偏颇的地方，欢迎广大读者与我交流沟通，我的邮箱是jacqueline_dut@hotmail.com，请大家批评指正。

刁晓纯

图书目录

译者序
序
前言
评审者简介
致谢
第1章　开始　1
1.1　计算机科学　1
1.2　人工智能　1
1.3　机器学习　2
1.4　统计学　2
1.5　数学　2
1.6　专业领域知识　2
1.7　数据、信息和知识　3
1.8　数据的本质　3
1.9　数据分析过程　4
1.9.1　问题　5
1.9.2　数据准备　5
1.9.3　数据探索　5
1.9.4　预测建模　6
1.9.5　结果可视化　6
1.10　定量与定性数据分析　7
1.11　数据可视化的重要性　7
1.12　大数据　8
1.12.1　传感器和摄像头　9
1.12.2　社会化网络分析　10
1.12.3　本书的工具和练习　11
1.12.4　为什么使用Python　11
1.12.5　为什么使用mlpy　11
1.12.6　为什么使用D3.js　12
1.12.7　为什么使用MongoDB　12
1.13　小结　12
第2章　数据准备与处理　13
2.1　数据源　13
2.1.1　开源数据　14
2.1.2　文本文件　14
2.1.3　Excel文件　15
2.1.4　SQL数据库　15
2.1.5　NoSQL数据库　16
2.1.6　多媒体　17
2.1.7　网页检索　17
2.2　数据清洗　19
2.2.1　统计方法　20
2.2.2　文本解析　20
2.2.3　数据转化　21
2.3　数据格式　22
2.3.1　CSV　 22
2.3.2　JSON　24
2.3.3　XML　25
2.3.4　YAML　26
2.4　开始使用OpenRefine工具　27
2.4.1　Text facet　27
2.4.2　聚类　27
2.4.3　文件过滤器　28
2.4.4　numeric facet　29
2.4.5　数据转化　29
2.4.6　数据输出　30
2.4.7　处理历史　31
2.5　小结　31
第3章　数据可视化　32
3.1　数据导向文件　32
3.1.1　HTML　33
3.1.2　DOM　33
3.1.3　CSS　34
3.1.4　JavaScript　34
3.1.5　SVG　34
3.2　开始使用D3.js　34
3.2.1　柱状图　35
3.2.2　饼图　39
3.2.3　散点图　41
3.2.4　单线图　43
3.2.5　多线图　46
3.3　交互与动画　49
3.4　小结　52
第4章　文本分类　53
4.1　学习和分类　53
4.2　贝叶斯分类　54
4.3　E-mail主题测试器　55
4.4　数据　56
4.5　算法　57
4.6　分类器的准确性　61
4.7　小结　62
第5章　基于相似性的图像检索　63
5.1　图像相似性搜索　63
5.2　动态时间规整　64
5.3　处理图像数据集　65
5.4　执行DTW　66
5.5　结果分析　68
5.6　小结　70
第6章　模拟股票价格　71
6.1　金融时间序列　71
6.2　随机游走模拟　72
6.3　蒙特·卡罗方法　73
6.4　生成随机数　73
6.5　用D3.js实现　74
6.6　小结　80
第7章　预测黄金价格　82
7.1　处理时间序列数据　82
7.2　平滑时间序列　85
7.3　数据——历史黄金价格　87
7.4　非线性回归　88
7.4.1　核岭回归　88
7.4.2　平滑黄金价格时间序列　90
7.4.3　平滑时间序列的预测　91
7.4.4　对比预测值　92
7.5　小结　93
第8章　使用支持向量机的方法进行分析　94
8.1　理解多变量数据集　94
8.2　降维　97
8.2.1　线性无差别分析　98
8.2.2　主成分分析　98
8.3　使用支持向量机　100
8.3.1　核函数　101
8.3.2　双螺旋问题　101
8.3.3　在mlpy中执行SVM　102
8.4　小结　105
第9章　应用细胞自动机的方法对传染病进行建模　106
9.1　流行病学简介　106
9.2　流行病模型　108
9.2.1　SIR模型　108
9.2.2　使用SciPy来解决SIR模型的常微分方程　108
9.2.3　SIRS模型　110
9.3　对细胞自动机进行建模　111
9.3.1　细胞、状态、网格和邻域　111
9.3.2　整体随机访问模型　111
9.4　通过D3.js模拟CA中的SIRS模型　112
9.5　小结　120
第10章　应用社会化图谱　121
10.1　图谱的结构　121
10.1.1　间接图谱　121
10.1.2　直接图谱　122
10.2　社会化网络分析　122
10.3　捕获Facebook图谱　123
10.4　使用Gephi对图谱进行再现　126
10.5　统计分析　128
10.6　度的分布　129
10.6.1　图谱直方图　130
10.6.2　集中度　131
10.7　将GDF转化为JSON　133
10.8　在D3.js环境下进行图谱可视化　135
10.9　小结　139
第11章　对Twitter数据进行情感分析　140
11.1　解析Twitter数据　140
11.1.1　tweet　140
11.1.2　粉丝　141
11.1.3　热门话题　141
11.2　使用OAuth访问API　142
11.3　开始使用Twython　143
11.3.1　简单查询　144
11.3.2　处理时间表　147
11.3.3　处理粉丝　149
11.3.4　处理地点和趋势信息　151
11.4　情感分类　153
11.4.1　ANEW　154
11.4.2　语料库　154
11.5　使用NLTK　155
11.5.1　单词包　156
11.5.2　朴素贝叶斯　156
11.5.3　tweet的情感分析　158
11.6　小结　159
第12章　使用MongoDB进行数据处理和聚合　160
12.1　开始使用MongoDB　160
12.1.1　数据库　161
12.1.2　集合　161
12.1.3　文件　162
12.1.4　Mongo shell　162
12.1.5　Insert/Update/Delete　163
12.1.6　Queries查询　163
12.2　数据准备　165
12.2.1　使用OpenRefine进行数据转换　165
12.2.2　通过PyMongo来插入文件　167
12.3　分组　169
12.4　聚合框架　172
12.4.1　流水线　173
12.4.2　表达式　174
12.5　小结　175
第13章　使用MapReduce方法　176
13.1　MapReduce概述　176
13.2　编程模型　177
13.3　在MongoDB中使用MapReduce　178
13.3.1　map函数　178
13.3.2　reduce函数　178
13.3.3　使用Mongo shell　179
13.3.4　使用UMongo　180
13.3.5　使用PyMongo　182
13.4　过滤输入集合　184
13.5　分组和聚合　184
13.6　文字云对tweet中最常见的积极词汇进行可视化　186
13.7　小结　191
第14章　使用IPython和Wakari进行在线数据分析　192
14.1　开始使用Wakari　192
14.2　开始使用IPython记事本　195
14.3　通过PIL进行图像处理简介　197
14.3.1　打开一个图像　197
14.3.2　图像直方图　198
14.3.3　过滤　198
14.3.4　操作　200
14.3.5　转化　201
14.4　使用Pandas　202
14.4.1　处理时间序列　202
14.4.2　通过数据框架来操作多变量数据集　206
14.4.3　分组、聚合和相关　208
14.5　使用IPython进行多机处理　211
14.6　分享你的记事本　212
14.7　小结　214
附录　环境搭建　215