首页>参考读物>计算机科学与技术>综合

Python数据分析实战
作者 : [印尼]伊凡?伊德里斯(Ivan Idris)著
译者 : 冯博 严嘉阳 译
出版日期 : 2017-08-11
ISBN : 978-7-111-57640-2
定价 : 79.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 343
开本 : 16
原书名 : Python Data Analysis Cookbook
原出版社: Packt Publishing Ltd.
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

图书特色

通过140多个实例,详细讲解用Python进行数据分析的各种实用技术及最佳实践,并提供一个包含各种工具的Docker镜像

数据分析是一个快速发展的领域,而Python已经演变成数据科学的主要语言,广泛应用于数据分析、可视化和机器学习等领域。
本书从数据分析的基础内容入手,比如matplotlib、NumPy和Pandas库,介绍如何通过选择色彩图和调色板来创建可视化,之后深入统计数据分析,将帮助你掌握Spark和HDFS,为网络挖掘创建可迁移脚本。本书还详细阐述如何评价股票,检测市场有效性,使用指标和聚类等,并且还将使用多线程实现并行性,并加速你的代码。在本书结束时,读者将能够运用各种Python中的数据分析技术,并针对问题场景设计解决方案。

通过阅读本书,你将学会:
建立可重复的数据分析
清理并转换数据
应用高级统计分析
创建美观的数据可视化
网络爬虫,并使用数据库、Hadoop和Spark
分析图像和时间序列数据
挖掘文本并分析社交网络
使用机器学习并评估结果
利用并行性和并发性

内容简介
本书是一本介绍如何用Python数据分析技术解决实际问题的实践指南,不仅涵盖Python用于数据分析的典型案例,包括信号处理、聚类、股票市场分析等,还创建了一个包含各种工具的Docker镜像。本书通过丰富的实例、大量的代码片段和图例,可以帮助你快速掌握用Python进行数据分析的各种技术。
本书共12章,第1章介绍Anaconda、Docker、单元测试、日志以及一些在进行可重复的数据分析时不可或缺的部分;第2章演示如何进行数据可视化;第3章讨论两个变量间的统计概率分布及其相关性;第4章讨论异常等常见的数据问题;第5章介绍数据库、网络抓取和大数据等相关技术;第6章介绍时间序列数据;第7章介绍金融数据分析的相关内容,主要关注股票投资;第8章介绍文本挖掘和社交网站分析;第9章介绍集成学习、分类、回归算法,以及分层聚类;第10章介绍如何评估分类器、回归器和聚类;第11章介绍如何用OpenCV分析图像;第12章讨论各种提升软件性能的方法,包括缓存和即时编译器。此外,还通过4个附录补充了一些重要概念、常用函数以及在线资源等。

作者简介
伊凡·伊德里斯(Ivan Idris)
实验物理学硕士。毕业后曾经效力于多家公司,从事Java、数据仓库开发以及QA分析等方面的工作。目前,他的兴趣主要集中在商业智能、大数据和云计算等领域。
Ivan Idris以编写简洁可测试的程序代码以及撰写有趣的技术文章为乐,著有《NumPy Beginner''s Guide》和《Python Data Analysis》《NumPy Cookbook》《Learning NumPy Array》等书。

图书前言

数据分析是Python的杀手锏。
——匿名
本书是《Python Data Analysis》的后续。那么在《Python Data Analysis》已经足够优秀(我愿意这么认为)的情况下,这本书有哪些新的内容吗?本书是针对那些有一定经验的Python程序员写的。一年时间过去了,因此,我们将使用在《Python Data Analysis》中没有用到的一些更新版本的软件和软件库。另外,经过深入反思和调研,我做出了以下的总结:
为了减轻自己的负担,同时提高代码的可重复使用率,我需要一个工具箱,我将这个工具箱命名为dautil并将它发布到了Pypi上(可以通过pip/easy_install安装)。
通过反省,我深信需要简化获取和安装所需要的软件的过程,因此我通过DockerHub发布了一个包含了我们需要用到的软件的Docker容器(pydacbk),在本书的第1章和线上章节中你将了解更多关于如何安装的细节。这个Docker容器还是不够理想,因为它的体积已经相当大,所以我需要做出一些艰难的决定。因为这个容器并不是本书的一部分,所以如果你有任何问题可以直接与我联系,但是请记住我不会对镜像做很大的修改。
本书会使用IPython Notebook,这个工具已经成为数据分析时的标准工具。在线上章节以及我写的其他书中,我已经给出了一些和IPython Notebook相关的建议。
除了极少数案例外,本书中我主要使用的是Python 3,因为2020年后官方将不再支持Python 2。
为什么需要这本书
有人会说你并不需要书籍,你只需要去做一个感兴趣的项目,然后在做项目的同时就会搞明白那些东西。但是尽管接触到大量的资源,这个过程可能还是会令你感到沮丧。打个比方,如果想烹调一碗美味的汤,你可以去向朋友和家人寻求帮助,上网搜索或者收看烹饪节目,但是朋友和家人不会一直在你身边,网络上的内容也是良莠不齐。以我的浅见,出版社、审稿人和作者都在这本书上花费了大量的时间和精力,如果你不能从中有所收获我会感到很诧异。
数据分析、数据科学、大数据——有什么了不起的
你应该看过将数据科学用数学/统计学、计算机科学以及专业领域的知识进行描述的维恩图(Venn diagram)。数据分析是永恒的,它出现在数据科学之前,甚至是计算机科学之前。你可以用笔和纸或者更先进的便携计算器进行数据分析。
数据分析体现在很多方面,比如说以做出决策或提出新的假设和问题为目的进行数据分析。数据科学以及大数据的热潮、高待遇以及经济回报让我想起了当数据存储和商业智能还是时髦词的年代。商业智能和数据存储的终极目标是构建应用于管理的可视化图表。这涉及很多政治和组织方面的利益,但是从技术的角度来看,这主要还是和数据库相关。数据科学则不是以数据库为中心,而是很大程度上依赖于机器学习。由于数据的量在不断地变多,机器学习变得越来越不可或缺。数据大量增长的背后是人口的快速增长以及新技术的层出不穷,比如说社交媒体和移动设备的出现。事实上,数据增长可能是我们唯一可以肯定的将一直持续的趋势。构建可视化图表和应用机器学习的区别就类似于搜索引擎的演进。
搜索引擎(如果可以这么称呼)最初只是手动创建的组织良好的链接集合。而最终,纯自动的方式取代了前者。当下,更多的数据将会被创建(而不是被销毁),我们可以预见自动化数据分析领域的增长。
Python数据分析的简要历程
各个Python软件库的历史十分有趣,但我不是一个历史学家,所以下面的记录主要从我的视角来写:
1989年:Guido Van Rossum在荷兰的CWI实现了Python的第一个版本,当时是作为一个圣诞节的“兴趣”项目。
1995年:Jim Hugunin创建了Numeric——Numpy的前身。
1999年:Pearu Peterson写了f2py作为连接Fortran和Python的桥梁。
2000年:Python 2.0发布。
2001年:SciPy库发布,同期创建的还有与Numeric竞争的库Numarray。Fernando Perez发布了IPython,它最初是以“午后黑客”(afternoon hack)的名义发布的。NLTK(自然语言工具包)发布且用于研究项目。
2002年:John Hunter创建了Matplotlib库。
2005年:Travis Oliphant发布了NumPy,NumPy最初是受Numarray启发而对Numeric进行扩展的库。
2006年:NumPy 1.0发布,第1版SQLAlchemy发布。
2007年:David Cournapeau将scikit-learn作为Google Summer of Code的项目,Cy-thon在Pyrex的基础上开始开发,Cython后来集中用在了pandas和scikit-learn上以提升性能。
2008年:Wes McKinney开始开发pandas,Python 3.0发布。
2011年:IPython 0.12发行版本中引入了IPython Notebook,Packt出版社出版了《NumPy 1.5 Beginners Guide》。
2012年:Packt出版社出版了《NumPy Cookbook》。
2013年:Packt出版社出版了第2版的《NumPy Beginners Guide》。
2014年:Fernando Perez宣布了Jupyter项目,致力于开发与语言无关的Notebook,Packt出版社出版了《Learning NumPy Array》和《Python Data Analysis》。
2015年:Packt出版社出版了第3版的《NumPy Beginners Guide》以及第2版的《NumPy Cookbook》。
对未来的猜想
未来将会是一片光明,难以计数的数据将会存在于云上,软件运行在各种具有直观的自定义界面的设备上。(我知道会有年轻人不厌其烦地夸赞他们的手机是多么厉害,以及终有一天我们将通过拖放式操作在平板电脑上进行编程。)Python社区里有人担忧他们的技术会与未来格格不入。而且当你在Python上投入得越多,这种担忧会越强烈。
要弄清楚我们能做什么,就需要知道Python有何独特之处。有的学派认为Python是一门胶水语言(glue language),其融合了C、Fortran、R、Java以及其他一些语言的特性,因此我们只需要更好的胶水。这可以理解为从其他的语言那里去“借”来一些特性。从我个人角度来说,我喜欢Python的工作方式,包括它的灵活性、数据结构,以及它拥有的相当数量的库和特性。我认为代码的未来在于更加美味的语法糖以及即时编译器。因此我们应该能够继续编写Python代码,因为它能自动地将代码转成并发(机器)代码。它以我们察觉不到的一些机制管理着低层级的细节,并给CPU、GPU或者云计算发送数据和指令。代码需要能够和我们使用的各种后端存储进行通信。理想情况下,所有的这些“魔法”会像自动垃圾回收一样便捷,这听起来就像不可能实现的“一键完成”的梦,但我觉得这值得我们去追求。
本书主要内容
第1章 非常重要,建议不要跳过。这一章会介绍Anaconda、Docker、单元测试、日志以及一些在进行可重复的数据分析时不可或缺的部分。
第2章 会演示如何进行数据可视化以及常见的陷阱。
第3章 会讨论两个变量间的统计概率分布及其相关性。
第4章 讨论异常和其他常见的数据问题。数据几乎从来没有完美过,因此需要进行大量的分析来处理数据中的缺陷。
第5章 本章的重点不在数学上,而是关注一些技术话题,比如数据库、网络抓取以及大数据。
第6章 介绍时间序列数据,这类数据的数据量巨大。因此需要独特的技术来处理。通常我们关注的是数据的趋势、季节性和周期性。
第7章 关注股票投资,这是因为股价的数据量巨大。这是唯一和金融有关的章节,即使你对股票不感兴趣,这一章也值得阅读,因为有些内容是和数据分析相关的。
第8章 将帮你去应对洪水般的文本和社交媒体信息。
第9章 涵盖集成学习、分类和回归算法,以及分层聚类。
第10章 评估第9章的分类器、回归器、集成学习与降维。
第11章 将多次使用OpenCV来分析图像。
第12章 涉及软件性能,本章将讨论各种提升软件性能的方法,包括缓存和即时编译器。
附录A 包含了本书中用到的技术概念的一个简单的词汇表,以帮助读者更好地查询相关信息。
附录B 包含一些函数的简单参考,这会在你临时无法查看文档时提供一些额外的帮助。
附录C 包含演示文档、文档链接,以及一些免费提供的IPython Notebook和数据的资源列表,这个附录将作为在线章节提供。
附录D 对本书中用到的许多工具,比如IPython Notebook、Docker以及Unix shell命令给出一个简短的提示列表,可能不会面面俱到。同样这个章节也是作为在线章节提供。
阅读准备
首先需要安装Python 3发行版,我推荐完整版的Anacoda版,因为它自带需要使用到的大部分软件,我用Python 3.4及以下包测试了代码:
joblib 0.8.4
IPython 3.2.1
NetworkX 1.9.1
NLTK 3.0.2
Numexpr 2.3.1
pandas 0.16.2
SciPy 0.16.0
Seaborn 0.6.0
sqlalchemy 0.9.9
statsmodels 0.6.1
matplotlib 1.5.0
NumPy 1.10.1
scikit-learn 0.17
dautil 0.0.1a29
在一些小节中,可能需要安装一些额外的软件,这些都会在需要使用软件的时候进行解释说明。
读者人群
本书重在动手,轻于理论。你需要比Python初学者掌握更多的知识,比如线性代数、微积分、机器学习和统计。你最好读过《Python Data Analysis》,但这并不是必需的,我同样推荐以下这些书:
《Building Machine Learning Systems with Python》,Willi Richert和Luis Pedro Coelho著,2013。
《Learning NumPy Array》,Ivan Idris著,2014。
《Learning scikit-learn: Machine Learning in Python》,Guillermo Moncecchi著,2013。
《Learning SciPy for Numerical and Scientific Computing》,Francisco J. Blanco-Silva著,2013。
《Matplotlib for Python Developers》,Sandro Tosi著,2009。
《NumPy Beginner’s Guide,Third Edition》,Ivan Idris著,2015。
《NumPy Cookbook,Second Edition》,Ivan Idris著,2015。
《Parallel Programming with Python》,Jan Palach著,2014。
《Python Data Visualization Cookbook》,Igor Milovanovi 著,2013。
《Python for Finance》,Yuxing Yan著,2014。
《Python Text Processing with NLTK 2.0 Cookbook》,Jacob Perkins著,2010。
说明
在本书中,你会看到一些经常出现的标题(准备工作、操作步骤、工作原理、更多信息、参见)。
为了清晰地组织章节,我们使用了如下的小节标题:
1. 准备工作
这部分告诉你本小节的目的是什么,以及描述如何安装这个示例中需要用到的软件和一些初步的设置。
2. 操作步骤
这部分包含了完成一个小节的步骤。
3. 工作原理
这部分通常包含了对上一个部分中发生的内容的细节解释。
4. 更多信息
这部分会给出一些关于这个示例的额外信息,帮助读者了解更多关于这个示例的知识。
5. 参见
这部分提供了关于这个示例的其他有用信息的链接。
本书约定
在本书中,你会发现一些用于区分不同类型信息的文本样式。以下是一些样式的例子以及对它们含义的解释。
如下是一个代码段:

当本书希望你关注某一段代码的时候,相关的行或者部分将会被加粗:

任何命令行的输入或输出都按如下方式书写:

表示警告或重要注释。

下载配套软件包
你可以从http://www.packtpub.com通过个人账号下载示例代码文件。如果你通过其他途径购买了本书,可以访问http://www.packtpub.com/support然后注册,我们会将文件直接电邮给你。
你也可以访问华章图书官网http://www.hzbook.com,通过注册并登录个人账号,下载本书的源代码。
本书中使用到的代码同样存放在Github上,地址https://github.com/PacktPublishing/Python-
DataAnalysisCookbook,同样我们还有很多其他各类图书以及视频中的代码在https://github.com/PacktPublishing/上提供,去发现它们吧。

上架指导

计算机科学/大数据分析与处理

封底文字

数据分析是一个快速发展的领域,而Python已经演变成数据科学的主要语言,广泛应用于数据分析、可视化和机器学习等领域。
本书从数据分析的基础内容入手,比如matplotlib、NumPy和Pandas库,介绍如何通过选择色彩图和调色板来创建可视化,之后深入统计数据分析,将帮助你掌握Spark和HDFS,为网络挖掘创建可迁移脚本。本书还详细阐述如何评价股票,检测市场有效性,使用指标和聚类等,并且还将使用多线程实现并行性,并加速你的代码。在本书结束时,读者将能够运用各种Python中的数据分析技术,并针对问题场景设计解决方案。
通过阅读本书,你将学会:
•建立可重复的数据分析
•清理并转换数据
•应用高级统计分析
•创建美观的数据可视化
•网络爬虫,并使用数据库、Hadoop和Spark
•分析图像和时间序列数据
•挖掘文本并分析社交网络
•使用机器学习并评估结果
•利用并行性和并发性

作者简介

[印尼]伊凡?伊德里斯(Ivan Idris)著:暂无相关简介

译者简介

冯博 严嘉阳 译:暂无简介

译者序

Python语言诞生已经超过25年,距离Python 3发布也已经快10年了。经过大浪淘沙,Python却依旧势头强劲,长期稳居编程语言市场占有率前十,甚至前五。各个领域都能看到Python的身影,从Web开发到数据挖掘,从网络爬虫到图像分析等。这从一个侧面也印证了一门编程语言要想“成功”,除了优良的语言本身特性之外,强大的生态圈也必不可少。
正式使用Python参与一个Web开发项目之后,译者就被Python语言本身之优美、框架之强大所吸引。随着不断了解,发现Python在数据分析领域是当仁不让的翘楚。虽然一些语言也偏向于数据分析,例如R语言,但是Python却和工程实践结合得更紧密,一门语言就可以让读者开发包含强大数据分析的后台Server。
本书是《Python Data Analysis》的后续,如果说前一本书更偏向于介绍各种工具库和数据分析技术的使用,例如用于科学计算的库SciPy/NumPy,用于操作数据的库pandas,用于机器学习的库scikit-learn,用于绘制图形的库matplotlib,那么本书则更侧重于将这些技术应用于实际领域,解决实际的问题。作者Ivan Idris曾是Java和数据库应用开发者,后专注于Python和数据分析领域,致力于编写干净、可测试的代码。他还是《Python Machine Learning By Example》《NumPy Cookbook》等书的作者,在工程实践和书籍撰写方面都非常有经验。虽然译者预先已有心理准备,但是当真正开始翻译时,才被作者领域涉及之多、知识之渊博所折服。读者不但能从本书中找到Python用于数据分析的典型案例,例如信号处理、聚类等,甚至还能找到财务数据用于股票市场的分析。可以说这本书涵盖了Python在数据分析领域的方方面面。不但如此,作者还创建了一个包含各种工具的Docker镜像,方便读者使用。诚然,这也给翻译带来了不小的难度。有些领域过于专业,虽然查阅了大量资料,但限于译者本身水平所限,可能仍然存在错误,希望读者不吝指教。
最后,这是一本Cookbook(食谱式手册)成为我翻译本书的另一个原因。各种Cookbook一直是译者学习各种技术的参考书,一方面它更偏向于实践,另一方面它更直接,包含各种实例,本书也是如此。大量代码片段和图例一定能帮助读者快速掌握用Python进行数据分析的各种技术。

图书目录

译者序
前 言
第1章 为可重复的数据分析奠定基础 1
1.1 简介 1
1.2 安装Anaconda 2
1.3 安装数据科学工具包 3
1.4 用virtualenv和virtualenvwrapper创建Python虚拟环境 5
1.5 使用Docker镜像沙盒化Python应用 6
1.6 在IPython Notebook中记录软件包的版本和历史 8
1.7 配置IPython 11
1.8 学习为鲁棒性错误校验记录日志 13
1.9 为你的代码写单元测试 16
1.10 配置pandas 18
1.11 配置matplotlib 20
1.12 为随机数生成器和NumPy打印选项设置种子 23
1.13 使报告、代码风格和数据访问标准化 24
第2章 创建美观的数据可视化 28
2.1 简介 28
2.2 图形化安斯库姆四重奏 28
2.3 选择Seaborn的调色板 31
2.4 选择matplotlib的颜色表 33
2.5 与IPython Notebook部件交互 35
2.6 查看散点图矩阵 38
2.7 通过mpld3使用d3.js进行可视化 40
2.8 创建热图 41
2.9 把箱线图、核密度图和小提琴图组合 44
2.10 使用蜂巢图可视化网络图 45
2.11 显示地图 47
2.12 使用类ggplot2图 49
2.13 使用影响图高亮数据 51
第3章 统计数据分析和概率 53
3.1 简介 53
3.2 将数据拟合到指数分布 53
3.3 将聚合数据拟合到伽马分布 55
3.4 将聚合计数拟合到泊松分布 57
3.5 确定偏差 59
3.6 估计核密度 61
3.7 确定均值、方差和标准偏差的置信区间 64
3.8 使用概率权重采样 66
3.9 探索极值 68
3.10 使用皮尔逊相关系数测量变量之间的相关性 71
3.11 使用斯皮尔曼等级相关系数测量变量之间的相关性 74
3.12 使用点二列相关系数测量二值变量和连续变量的相关性 77
3.13 评估变量与方差分析之间的关系 78
第4章 处理数据和数值问题 81
4.1 简介 81
4.2 剪辑和过滤异常值 81
4.3 对数据进行缩尾处理 84
4.4 测量噪声数据的集中趋势 85
4.5 使用Box-Cox变换进行归一化 88
4.6 使用幂阶梯转换数据 90
4.7 使用对数转换数据 91
4.8 重组数据 93
4.9 应用logit()来变换比例 95
4.10 拟合鲁棒线性模型 97
4.11 使用加权最小二乘法考虑方差 99
4.12 使用任意精度进行优化 101
4.13 使用任意精度的线性代数 103
第5章 网络挖掘、数据库和大数据 107
5.1 简介 107
5.2 模拟网页浏览 108
5.3 网络数据挖掘 110
5.4 处理非ASCII文本和HTML实体 112
5.5 实现关联表 114
5.6 创建数据库迁移脚本 117
5.7 在已经存在的表中增加一列 117
5.8 在表创建之后添加索引 118
5.9 搭建一个测试Web服务器 120
5.10 实现具有事实表和维度表的星形模式 121
5.11 使用Hadoop分布式文件系统 126
5.12 安装配置Spark 127
5.13 使用Spark聚类数据 128
第6章 信号处理和时间序列 132
6.1 简介 132
6.2 使用周期图做频谱分析 132
6.3 使用Welch算法估计功率谱密度 134
6.4 分析峰值 136
6.5 测量相位同步 138
6.6 指数平滑法 140
6.7 评估平滑法 142
6.8 使用Lomb-Scargle周期图 145
6.9 分析音频的频谱 146
6.10 使用离散余弦变换分析信号 149
6.11 对时序数据进行块自举 151
6.12 对时序数据进行动态块自举 153
6.13 应用离散小波变换 155
第7章 利用金融数据分析选择股票 159
7.1 简介 159
7.2 计算简单收益率和对数收益率 159
7.3 使用夏普比率和流动性对股票进行排名 161
7.4 使用卡玛和索提诺比率对股票进行排名 162
7.5 分析收益统计 164
7.6 将个股与更广泛的市场相关联 166
7.7 探索风险与收益 169
7.8 使用非参数运行测试检验市场 170
7.9 测试随机游走 173
7.10 使用自回归模型确定市场效率 175
7.11 为股票价格数据库建表 177
7.12 填充股票价格数据库 178
7.13 优化等权重双资产组合 183
第8章 文本挖掘和社交网络分析 186
8.1 简介 186
8.2 创建分类的语料库 186
8.3 以句子和单词标记化新闻文章 189
8.4 词干提取、词形还原、过滤和TF-IDF得分 189
8.5 识别命名实体 193
8.6 提取带有非负矩阵分解的主题 194
8.7 实现一个基本的术语数据库 196
8.8 计算社交网络密度 200
8.9 计算社交网络接近中心性 201
8.10 确定中介中心性 202
8.11 评估平均聚类系数 203
8.12 计算图的分类系数 204
8.13 获得一个图的团数 205
8.14 使用余弦相似性创建文档图 206
第9章 集成学习和降维 209
9.1 简介 209
9.2 递归特征消除 210
9.3 应用主成分分析来降维 211
9.4 应用线性判别分析来降维 213
9.5 多模型堆叠和多数投票 214
9.6 学习随机森林 217
9.7 使用RANSAC算法拟合噪声数据 220
9.8 使用Bagging来改善结果 222
9.9 用于更好学习的Boosting算法 224
9.10 嵌套交叉验证 227
9.11 使用joblib重用模型 229
9.12 层次聚类数据 231
9.13 Theano之旅 232
第10章 评估分类器、回归器和聚类 235
10.1 简介 235
10.2 直接使用混淆矩阵分类 235
10.3 计算精度、召回率和F1分数 237
10.4 检测接收器操作特性和曲线下的面积 240
10.5 可视化拟合优度 242
10.6 计算均方误差和中值绝对误差 243
10.7 用平均轮廓系数评估聚类 245
10.8 将结果与伪分类器进行比较 247
10.9 确定平均绝对百分误差和平均百分误差 250
10.10 与伪回归器进行比较 252
10.11 计算平均绝对误差和残差平方和 254
10.12 检查分类的kappa系数 256
10.13 运用Matthews相关系数 258
第11章 图像分析 261
11.1 简介 261
11.2 安装OpenCV 261
11.3 应用尺度不变特征变换(SIFT) 264
11.4 使用加速鲁棒特征检测特征 265
11.5 量化颜色 267
11.6 图像降噪 269
11.7 提取图像区域 270
11.8 使用Haar级联进行面部识别 272
11.9 搜索明亮的星星 275
11.10 从图像中提取元数据 278
11.11 从图像中提取纹理特征 280
11.12 对图像应用层次聚类 282
11.13 使用光谱聚类分割图像 283
第12章 并行和性能 285
12.1 简介 285
12.2 使用Numba做即时编译 286
12.3 使用Numexpr加速数值表达式 288
12.4 使用线程模块运行多线程 289
12.5 使用concurrent.futures模块启动多任务 291
12.6 使用asyncio模块异步访问资源 294
12.7 使用execnet做分布式处理 297
12.8 分析内存使用情况 299
12.9 计算平均值、方差、偏度和峰度 300
12.10 使用最近最少使用算法进行 缓存 304
12.11 缓存HTTP请求 306
12.12 使用Count-min sketch进行流式 统计 308
12.13 充分利用GPU和OpenGL 310
附录A 术语表 313
附录B 函数参考 317
附录C 在线资源 323
附录D 命令行和其他工具的一些提示和技巧 326

教学资源推荐
作者: 朱恺 吉逸 方宁生 编著
作者: [美]陈封能(Pang-Ning Tan)迈克尔·斯坦巴赫(Michael Steinbach)阿努吉·卡帕坦(Anuj Karpatne)维平·库玛尔(Vipin Kumar)著
作者: [美]希拉格·沙阿(Chirag Shah) 著
作者: 黄传河 主编 杜瑞颍 吴黎兵 吕慧 张春林 张沪寅 张健 参编
参考读物推荐