Python数据科学导论
作者 : [法]戴维?西伦(Davy Cielen),亚诺 D. B. 梅斯曼(Arno D. B. Meysman),穆罕默德•阿里(Mohamed Ali) 著
译者 : 王艳 刘义 于晨昕 王丽娜 陈南 译
出版日期 : 2017-08-16
ISBN : 978-7-111-57826-0
定价 : 59.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 234
开本 : 16
原书名 : Introducing Data Science: Big Data, Machine Learning, and More, Using Python tools
原出版社: Manning Publications
属性分类: 教材
包含CD :
绝版 :
图书特色

如果你想通过大量的实例对数据科学进行快速的了解,请从本书开始!               —— Alvin Raj, Oracle
数据科学海洋的导航图。                                              —— Marius Butuc, Shopify
涵盖了数据科学过程的方方面面……                                 —— Heather Campbell, Kainos
进入数据科学领域的必读物。                             —— Hector Cuesta,Big Data Bootcamp


许多公司需要掌握数据科学技术的开发人员,以完成从网络社交媒体到机器学习类的项目。也许你对如何让自己成为数据科学家感到困惑,本书可以帮助你迈出第一步。

本书阐述了数据科学的基本概念,并指导你完成数据科学家最基础的工作。在这里,你将探索数据可视化、图数据库、NoSQL的使用以及数据科学的过程。你将使用Python语言以及Python库亲身体验处理大规模数据库带来的挑战。你会发现Python处理数据集能力之强大(数据被存储在多个系统之中),数据的迁移速度如此之快(靠单一的机器是无法完成的)。同时,本书使用了当前最流行的Python库函数Scikit-learn和StatsModels。在阅读完本书后,将会为你的数据科学生涯打下坚实的基础。

本书涵盖:
大数据处理
机器学习简介
使用Python处理数据
编写数据科学算法

内容简介

本书是一本优秀的数据科学入门教材,由资深数据科学家撰写,不仅全面、系统地阐述了数据科学相关知识,还将教会你如何培养大脑洞察连接的能力,如何以事实为依据分析演绎出结论,以及如何从过去的经历中汲取经验。
全书共9章,第1章和第2章系统介绍大数据科学的背景知识及框架结构,其中第1章重点介绍数据科学及大数据,并给出Hadoop应用实例;第2章介绍数据科学处理过程。第3~5章逐步深入介绍机器学习相关知识,其中第3章侧重于介绍如何处理内存中的数据集;第4章介绍在一台计算机上处理大数据集所使用的方法及工具;第5章更进一步介绍如何利用多台计算机处理数据集。第6~9章介绍数据科学中几个比较有趣的主题,其中第6章介绍NoSQL;第7章介绍如何将数据科学应用到数据流中;第8章介绍文本挖掘;第9章以若干HTML5工具的应用介绍数据可视化和原型应用程序的构建。此外,附录A~D介绍Elasticsearch搜索引擎、Neo4j、MySQL数据库以及Python代码包的安装和设置。

作者简介

戴维·西伦
(Davy Cielen)
经验丰富的企业家、作家及大学教授。他与本书另两位作者是Optimately 和 Maiton两家数据科学公司的创始人和管理合伙人,他们专注于各个领域的数据科学项目及其解决方案。Davy是法国里尔IESEG管理学院的副教授,一直从事大数据科学领域的教学和科研工作。

亚诺 D. B. 梅斯曼
(Arno D. B. Meysman)
企业创始人及数据科学家。作为数据科学家,Arno兴趣广泛,致力于医学、零售和游戏分析。他认为将数据的洞察分析与想象相结合,将在很大程度上帮助我们更好地改善这个世界。

穆罕默德·阿里
(Mohamed Ali)
企业家及数据科学咨询顾问。他的兴趣集中于数据科学及可持续发展的项目。

图书前言

本书传递的知识永存我们心中。人类之所以为人类,人类之所以是现在的样子,数据科学技术功不可没。这本书不仅介绍计算机驱动的数据科学相关知识,还将教给读者洞察连接的能力,以及如何以事实为依据演绎出结论,如何从过去的经历中汲取经验。人类比地球上的任何其他生物更依赖于大脑。人类的生存依赖于人脑,人类在大自然中的位置完全取决于人脑的特性。古往今来,这一战略解决了人类所面临的所有问题,在不久的将来,人类也不太可能改变它。
当谈到原始计算时,人类的大脑只能引领我们走到目前的境地。现在,我们每天都接收到海量的数据,人脑分析已经无法跟上大数据时代信息所包含的潜在内容,我们已掌握的知识更难以满足人类的好奇心。因此,我们利用机器为我们做一部分工作,比如:模式识别,创建连接,以及为人类的众多问题探寻答案。
对知识永无止境的探索是人类的基因,依赖计算机为人类完成一些力所能及的工作是我们的使命。
致谢
非常感谢Manning出版社所有参与本书制作的人员,在你们的帮助下本书得以顺利出版。
感谢Ravishankar Rajagopalan对本书的书稿做了全面细致的技术校对,感谢Jona-than Thoms和 Michael Roberts给了许多专业的建议。另外感谢众多的评审人员,他们在本书的制作过程中提供了许多极有价值的意见反馈,他们是:Alvin Raj, Arthur Zubarev, Bill Martschenko, Craig Smith, Filip Pravica, Hamideh Iraj, Heather Campbell, Hector Cuesta, Ian Stirk, Jeff Smith, Joel Kotarski, Jonathan Sharley, J鰎n Dinkla, Marius Butuc, Matt R. Cole, Matthew Heck, Meredith Godar, Rob Agle, Scott Chaussee, Steve Rogers。
首先,我想感谢我的妻子Filipa,她给了我灵感和动力,让我得以战胜所有的困难。感谢她在我的职业生涯和创作这本书的过程中,始终陪伴在我身边。感谢她担负起家庭的重担,当我不在的时候独自照顾我们的小女儿,让我有了充裕的时间去追求我的目标并实现抱负。谨以此书向我的妻子致敬,非常感谢她为我们的小家庭所做的无私奉献。
同时,我想感谢我的女儿Eva以及我未出生的儿子,他们给了我极大的欢乐并让我笑口常开。他们活泼有趣、充满爱心,是上帝送给我的最好的礼物,也是我所期望的最完美的小孩,和他们在一起总是充满了乐趣。
特别要感谢我的父母,谢谢他们对我长期以来的支持。他们无尽的爱和鼓励让我从容完成了这本书,实现了人生的一个阶段目标,并继续我人生新的旅程。
同时,真诚地感谢同我一起共事的小伙伴们,谢谢大家齐心协力,一起攻坚了一个又一个难题。特别要感谢Mo和Arno,他们给了我最有力的支持和很好的建议。非常感激大家在本书的创作过程中付出的时间和精力,你们棒极了!没有你们,我可能都不会写这本书。
最后,真诚地感谢每一位支持我、理解我的朋友们。我常常忙得没有空闲时间,谢谢你们的关爱和一如既往的支持,让我能够专心创作并完成这本书。

Davy Cielen
非常感谢我的家庭和我的朋友们,他们在我完成本书的过程中,给了我一如既往的支持和鼓励。外面的新鲜事物很多,能在家完成这本书的创作真的很不容易,谢谢大家!特别要感谢我的父母,我的兄弟Jago,还有我亲爱的女朋友Delphine。不管我有什么疯狂的想法和离奇的举动,你们一直坚守在我身边,不离不弃。
同时,谢谢我的教母,还有我的教父,他正在与癌症作斗争,但他们的积极乐观让生活充满了希望。
还要感谢我的朋友们,他们给我买啤酒。也谢谢我女朋友Delphine的父母,她的兄弟Karel和未过门的妻子Tess,谢谢你们的热情款待和美味佳肴。
大家为了美好的生活而努力奋斗着。
最后并且是最重要的一点,我想谢谢本书的合著者也是我的铁哥们Mo,以及本书的另一位合著者Davy,谢谢你们深刻的洞察和独特见解。为了成为一名企业家和数据科学家,我们每天共享跌宕起伏的人生,这是一段多么精彩的旅程,我相信我们的未来会更精彩。

Arno D. B. Meysman
首先最重要的一点是我要感谢我的未婚妻Muhuba,谢谢她的爱、理解、关心和包容。最后,感谢Davy和Arno,和他们一起度过了很多开心时光并让我们的创业梦想成真。他们坚持不懈的奉献是我完成本书至关重要的资源。

Mohamed Ali

上架指导

计算机\数据库

封底文字

许多公司需要掌握数据科学技术的开发人员,以完成从网络社交媒体到机器学习类的项目。也许你对如何让自己成为数据科学家感到困惑,本书可以帮助你迈出第一步。

本书阐述了数据科学的基本概念,并指导你完成数据科学家所需要的最基础工作。在这里,你将探索数据可视化、图数据库、NoSQL的使用以及数据科学的过程。你将使用Python语言以及Python库亲身体验处理大规模数据库带来的挑战。你会发现Python处理数据集能力之强大(数据被存储在多个系统之中),数据的迁移速度如此之快(靠单一的机器是无法完成的)。同时,本书使用了当前最流行的Python库函数Scikit-learn和StatsModels。在阅读完本书后,将会为你的数据科学生涯打下坚实的基础。

本书涵盖:
• 大数据处理
• 机器学习简介
• 使用Python处理数据
• 编写数据科学算法

“如果你想通过大量的实例对数据科学进行快速的了解,请从本书开始!”—— Alvin Raj, Oracle
“数据科学海洋的导航图。”——Marius Butuc, Shopify
“涵盖了数据科学过程的方方面面……” —— Heather Campbell, Kainos
“进入数据科学领域的必读物。” —— Hector Cuesta,Big Data Bootcamp

作者简介

[法]戴维?西伦(Davy Cielen),亚诺 D. B. 梅斯曼(Arno D. B. Meysman),穆罕默德•阿里(Mohamed Ali) 著:暂无简介

译者简介

王艳 刘义 于晨昕 王丽娜 陈南 译:暂无简介

译者序

数据科学是一门新兴的学科,最早在20世纪60年代被提出,但当时并未受到学术界的广泛关注和认可。1996年在日本召开的“数据科学、分类和相关方法”会议,已经将数据科学作为会议主题词。目前,数据科学的研究在各个领域受到越来越多的关注。
数据科学的理论基础包括统计学、机器学习、数据可视化以及某一特定领域的知识。其研究内容包括数据科学基础理论、数据预测模型、数据计算以及数据管理。研究过程包括:数据的获取;对数据集的观测,并发现整体特征;进行数据分析,例如使用数据挖掘技术;发现数据规律,并完成数据预测。
本书第1、2章介绍了数据科学的理论背景和框架,为本书其他章节的学习提供了基础。第3~5章介绍了将机器学习应用在不同的大数据集上的案例。第6~9章介绍了数据科学中一些有趣的主题,如NoSQL数据库、文本挖掘等。在阅读本书前,建议读者对SQL、Python、HTML5以及统计或机器学习有一些了解。本书作者Davy Cielen、Aron D. B. Meysman和Mohamed Ali具有丰富的大数据及数据科学经验,他们分别在比利时和英国联合创立了两家数据科学公司,专注于大数据处理及数据科学相关的研究,并为很多大公司提供数据科学领域的咨询工作。
本书由多位译者联合翻译,其中,王艳翻译了前言、第2、4章和附录D;王丽娜翻译了第1章和第5章;刘义翻译了第3、8章以及附录C;于晨昕翻译了第6、7章以及附录A和附录B;陈南翻译了第9章。感谢机械工业出版社华章分社的编辑在翻译过程中提出的诸多宝贵建议。由于译者的水平及经验有限,难免存在错误和纰漏,恳请广大读者指正。

译者
2017年3月

图书目录

译者序
前言
关于本书
关于作者
关于封面插图
第1章 大数据世界中的数据科学1
1.1 数据科学和大数据的好处和用途2
1.2 数据种类3
1.2.1 结构化数据3
1.2.2 非结构化数据3
1.2.3 自然语言数据4
1.2.4 计算机数据4
1.2.5 图类数据5
1.2.6 音频、视频和图像数据5
1.2.7 流数据6
1.3 数据科学过程6
1.3.1 设置研究目标6
1.3.2 检索数据6
1.3.3 数据准备7
1.3.4 数据探索7
1.3.5 数据建模7
1.3.6 展示与自动化7
1.4 大数据生态系统与数据科学7
1.4.1 分布式文件系统7
1.4.2 分布式编程框架9
1.4.3 数据集成框架9
1.4.4 机器学习框架9
1.4.5 NoSQL数据库10
1.4.6 调度工具10
1.4.7 基准测试工具10
1.4.8 系统部署11
1.4.9 服务开发11
1.4.10 安全11
1.5 Hadoop工作示例介绍11
1.6 本章小结16
第2章 数据科学过程17
2.1 数据科学过程概述17
2.2 步骤1:定义研究目标并创立项目章程19
2.2.1 了解研究的目标和背景20
2.2.2 创立项目章程20
2.3 步骤2:检索数据20
2.3.1 从存储在公司内部的数据开始21
2.3.2 不要害怕去购买数据21
2.3.3 检查数据质量以预防问题发生22
2.4 步骤3:数据的清洗、整合以及转换22
2.4.1 数据清洗22
2.4.2 尽可能早地修正错误27
2.4.3 从不同的数据源整合数据28
2.4.4 数据转换30
2.5 步骤4:探索性数据分析32
2.6 步骤5:构建模型35
2.6.1 模型与变量的选择35
2.6.2 模型执行36
2.6.3 模型诊断与模型比较39
2.7 步骤6:展示结果并在其上搭建应用程序40
2.8 本章小结40
第3章 机器学习42
3.1 什么是机器学习,为什么需要关注它42
3.1.1 机器学习在数据科学中的应用43
3.1.2 机器学习在数据科学过程中的使用43
3.1.3 Python工具在机器学习中的应用44
3.2 建模过程45
3.2.1 特征工程以及模型选取46
3.2.2 模型的训练47
3.2.3 模型的验证47
3.2.4 预测新的观测值48
3.3 机器学习的类型48
3.3.1 有监督学习48
3.3.2 无监督学习53
3.4 半监督学习60
3.5 本章小结61
第4章 单机上处理大数据63
4.1 大数据处理过程中遇到的难题63
4.2 处理巨量数据的通用技术64
4.2.1 选择合适的算法65
4.2.2 选择合适的数据结构71
4.2.3 选择合适的工具73
4.3 处理大数据集的通用编程技巧75
4.3.1 不必重复发明轮子75
4.3.2 充分利用硬件76
4.3.3 减少计算需求76
4.4 案例研究1:预测恶意URL77
4.4.1 步骤1:确立研究目标77
4.4.2 步骤2:获取URL数据77
4.4.3 步骤4:数据探索78
4.4.4 步骤5:建模79
4.5 案例研究2:在数据库中建立一个推荐系统80
4.5.1 所需的工具及技术80
4.5.2 步骤1:研究问题82
4.5.3 步骤3:数据准备82
4.5.4 步骤5:建模86
4.5.5 步骤6:展示与自动化86
4.6 本章小结88
第5章 大数据世界的第一步89
5.1 数据分布存储和框架处理89
5.1.1 Hadoop:存储和处理大数据集的框架90
5.1.2 Spark:取代MapReduce以获得更好的性能92
5.2 案例研究:借贷的风险评估93
5.2.1 步骤1:研究目标94
5.2.2 步骤2:数据检索95
5.2.3 步骤3:数据准备98
5.2.4 步骤4(数据探索)和步骤6(报告形成)101
5.3 本章小结111
第6章 了解NoSQL112
6.1 NoSQL简介114
6.1.1 ACID:关系型数据库核心原则114
6.1.2 CAP理论:多节点数据库的问题115
6.1.3 NoSQL数据库的BASE原则116
6.1.4 NoSQL数据库的种类117
6.2 案例研究:这是什么疾病123
6.2.1 步骤1:设置研究目标124
6.2.2 步骤2和步骤3:数据检索与数据准备124
6.2.3 步骤4:数据探索131
6.2.4 再回到步骤3:为描述疾病概况做数据准备137
6.2.5 再回到步骤4:为描述疾病概况做数据探索140
6.2.6 步骤6:展示与自动化140
6.3 本章小结141
第7章 图数据库的兴起143
7.1 互联数据及图数据库概述143
7.2 图数据库Neo4j概述146
7.3 数据互联案例:食谱推荐引擎152
7.3.1 步骤1:设置研究目标153
7.3.2 步骤2:数据检索154
7.3.3 步骤3:数据准备155
7.3.4 步骤4:数据探索157
7.3.5 步骤5:数据建模159
7.3.6 步骤6:数据展示162
7.4 本章小结162
第8章 文本挖掘和文本分析164
8.1 现实世界中的文本挖掘165
8.2 文本挖掘技术169
8.2.1 词袋169
8.2.2 词干提取和词形还原170
8.2.3 决策树分类器171
8.3 案例研究:Reddit帖子分类173
8.3.1 自然语言工具包173
8.3.2 数据科学过程综述及第1步:研究目标175
8.3.3 第2步:数据检索175
8.3.4 第3步:数据准备178
8.3.5 步骤4:数据探索180
8.3.6 再回到步骤3:数据准备的调整182
8.3.7 步骤5:数据分析185
8.3.8 步骤6:展示与自动化188
8.4 本章小结189
第9章 面向终端用户的数据可视化191
9.1 数据可视化选项192
9.2 Crossfilter—JavaScript MapReduce库194
9.2.1 安装195
9.2.2 利用Crossfilter筛选药品数据集198
9.3 用dc.js创建一个交互式控制面板201
9.4 控制面板开发工具205
9.5 本章小结207
附录A 搭建Elasticsearch209
附录B 搭建Neo4j214
附录C 安装MySQL服务器217
附录D 在虚拟环境下搭建 Anaconda220

教学资源推荐
作者: (美)Paul Ammann     乔治&
作者: 周启海
作者: Tamara Dean
参考读物推荐
作者: 初航 等编著
作者: [美]维西瓦·维斯瓦纳坦(Viswa Viswanathan),珊蒂·维斯瓦纳坦(Shanthi Viswanathan)著
作者: 卞诚君 等编著
作者: (美)Scott Mueller