首页>参考读物>计算机科学与技术>软件与程序设计

零基础学Python爬虫、数据分析与可视化从入门到精通
作者 :
出版日期 : 2020-11-26
ISBN : 978-7-111-66899-2
定价 : 89.80元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 376
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

在这个数据为王的时代,无论是从事何种行业,每天都会与海量的且类型多样的数据打交道,如何从这些数据中获取需要的信息,并进行相应的分析和可视化展示,是很多程序员和职场人士非常关心的一个问题。本书以功能强大且容易上手操作Python语言为基础,全面讲解了数据的获取、处理、分析及可视化的呈现。
全书共17章,内容涉及Python基础知识、Python数据处理和分析的实用模块、数据分析、数据爬虫技术、数据可视化等方面。还对数据分析中的几大经典算法,数据决策树、关联规则、聚类与分群也进行了详细的介绍。为了便于读者对Python知识的掌握,本书还提供了大量的编程代码以及实战案例。
本书适合各行各业的数据分析从业人员学习,也适合想要提高工作效率的职场人士,对于Python编程感兴趣的读者,本书也是一本不错的参考读物。

图书特色

数据自动爬取 海量数据分析 中文文本分词 大数据可视化
揭秘Python爬虫在行业实战中的应用 讲解大数据分析与可视化的典型技术

图书前言

在这个大数据时代,无论从事哪种行业,每天都要与海量的数据打交道。从数据中挖掘有用的信息,并进行分析和可视化展示,已成为职场人士亟须掌握的新技能。本书以当前流行的Python语言为工具,从编程新手的角度和日常办公的需求出发,深入浅出地讲解如何通过Python编程高效地完成数据的获取、处理、分析与可视化。
全书共13章。第1章和第2章主要讲解Python编程环境的搭建和Python语言的基础语法知识。第3~6章以数据处理与分析为主题,讲解NumPy模块和pandas模块的基本用法和实际应用。第7~9章以数据获取为主题,由浅入深地讲解如何通过编写爬虫程序从网页上采集数据,并保存到数据库中。第10章主要讲解自然语言处理技术在文本分词中的应用。第11章和第12章以数据可视化为主题,讲解如何使用Matplotlib模块和pyecharts模块绘制图表。第13章通过量化金融案例对前面所学的知识进行了综合应用。
书中的代码附有详细且通俗易懂的解说,让读者能够快速理解代码的功能和编写思路,并从机械地套用代码进阶到随机应变地修改代码,独立解决更多实际问题。
本书适合想要提高数据处理和分析效率的职场人士和办公人员阅读,也可供Python编程爱好者参考。
本书由孟兵、李杰臣编著。由于编者水平有限,本书难免有不足之处,恳请广大读者批评指正。读者除了扫描二维码关注公众号获取资讯以外,也可加入QQ群815551372与我们交流。
需要说明的是,本书爬虫部分的内容涉及的网站随时可能改版,导致相应的爬虫代码失效。编者会定期更新代码及相应的讲解,请读者到本书的学习资源中获取。

编者
2020年10月

上架指导

计算机\程序设计

封底文字

封底文字
资源下载说明
步骤01 扫描二维码关注微信公众号。在手机微信的“发现”页面中点击“扫一扫”功能,进入“扫二维码/ 条码/ 小程序码”界面,将手机摄像头对准封底的二维码,扫描识别后,点击“关注公众号”按钮,关注我们的微信公众号。
步骤02 获取学习资源下载地址和提取码。单击公众号主页面左下角的小键盘图标,进入输入状态,在输入框中输入关键词“20200917”,点击“发送”按钮,即可获取本书学习资源的下载地址和提取码。
步骤03 打开学习资源下载页面。在计算机的网页浏览器地址栏中输入前面获取的下载地址(输入时注意区分大小写),按【Enter】键进入学习资源下载页面,然后在“请输入提取码”文本框中输入前面获取的提取码(输入时注意区分大小写),再单击“提取文件”按钮。
步骤04 启动百度网盘客户端下载文件。在打开的资源下载页面中,单击相关资源文件夹将其打开,选中要下载的文件,单击文件名右侧显示的“下载”按钮,启动百度网盘客户端并登录账号,即可将文件下载到计算机中。
步骤05 解压文件。下载并保存文件后,如果文件为压缩包,可通过7-Zip、WinRAR等软件解压后再使用。

扫描二维码,关注公众号,发送关键词,即可获取本书配套案例文件下载地址及400 分钟Python基础讲解视频在线观看地址。

图书目录

前言
如何获取学习资源
第1章 Python快速上手
1.1Python编程环境的搭建 13
1.2Python的模块 19
1.2.1初识模块 19
1.2.2模块的安装 19
第2章 Python的基础语法知识
2.1变量 23
2.2数据类型:数字与字符串 24
2.2.1数字 24
2.2.2字符串 25
2.2.3数据类型的查询 27
2.2.4数据类型的转换 28
2.3数据类型:列表、字典、元组与集合 29
2.3.1列表 29
2.3.2字典 33
2.3.3元组和集合 34
2.4运算符 35
2.4.1算术运算符和字符串运算符 35
2.4.2比较运算符 36
2.4.3赋值运算符 37
2.4.4逻辑运算符 38
2.5编码基本规范 38
2.5.1缩进 39
2.5.2注释 39
2.6控制语句 41
2.6.1if语句 41
2.6.2for语句 42
2.6.3while语句 43
2.6.4控制语句的嵌套 44
2.7函数 45
2.7.1内置函数 45
2.7.2自定义函数 51
2.8模块的导入 53
2.8.1import语句导入法 53
2.8.2from语句导入法 54
第3章 数组的存储和处理—NumPy模块
3.1创建数组 56
3.1.1使用array()函数创建数组 56
3.1.2创建等差数组 57
3.1.3创建随机数组 59
3.2查看数组的属性 61
3.3选取数组元素 63
3.3.1一维数组的元素选取 63
3.3.2二维数组的元素选取 66
3.4数组的重塑与转置 68
3.4.1一维数组的重塑 69
3.4.2多维数组的重塑 70
3.4.3数组的转置 71
3.5数组的处理 72
3.5.1添加数组元素 72
3.5.2删除数组元素 75
3.5.3处理数组的缺失值 76
3.5.4处理数组的重复值 77
3.5.5拼接数组 77
3.5.6拆分数组 79
3.6数组的运算 81
3.6.1数组之间的四则运算 81
3.6.2数组元素的统计运算 82
第4章 数据的简单处理—pandas模块入门
4.1数据结构 85
4.1.1Series对象 85
4.1.2DataFrame对象 87
4.2读取数据 88
4.2.1读取Excel工作簿数据 89
4.2.2读取csv文件数据 93
4.3查看数据 94
4.3.1查看数据的前几行 94
4.3.2查看数据的行数和列数 95
4.3.3查看数据的类型 96
4.4选择数据 97
4.4.1选择行数据 97
4.4.2选择列数据 100
4.4.3同时选择行列数据 103
4.5修改行标签和列标签 104
第5章 数据的高级处理—pandas模块进阶
5.1数据的查找和替换 106
5.1.1查找数据 106
5.1.2替换数据 108
5.2数据的处理 110
5.2.1插入数据 110
5.2.2删除数据 111
5.2.3处理缺失值 115
5.2.4处理重复值 118
5.2.5排序数据 121
5.2.6筛选数据 123
5.3数据表的处理 125
5.3.1转置数据表的行列 125
5.3.2将数据表转换为树形结构 125
5.3.3数据表的拼接 126
5.4数据的运算 130
5.4.1数据的统计运算 131
5.4.2获取数值分布情况 133
5.4.3计算相关系数 134
5.4.4分组汇总数据 135
5.4.5创建数据透视表 137
5.5案例:获取并分析股票历史数据 138
第6章 使用Python进行数据分析
6.1相关性分析 143
6.1.1获取股价数据 143
6.1.2合并股价数据 146
6.1.3股价数据相关性分析 148
6.2假设检验 150
6.3方差分析 152
6.3.1方差分析的基本步骤 152
6.3.2单因素方差分析的代码实现 159
6.3.3双因素方差分析的代码实现 162
6.3.4利用第三方模块快速完成方差分析 164
6.4描述性统计分析 167
6.4.1描述性统计指标的计算 167
6.4.2数据的分布状态分析 169
6.4.3数据的频数和频率分析 171
6.5线性回归分析 174
6.5.1线性回归分析的数学原理 174
6.5.2线性回归分析的思路 175
6.5.3广告费与销量的一元线性回归分析 178
6.5.4不同渠道的广告费与销量的多元线性回归分析 182
第7章 Python爬虫基础
7.1认识网页结构 188
7.1.1查看网页的源代码 188
7.1.2网页结构的组成 189
7.1.3百度新闻页面结构剖析 194
7.2requests模块 196
7.2.1requests模块获取数据的方式 196
7.2.2get()函数的参数介绍 200
7.3案例:爬取豆瓣电影动画排行榜 202
7.4正则表达式 205
7.4.1正则表达式基础 205
7.4.2用正则表达式提取数据 209
7.5BeautifulSoup模块 211
7.5.1实例化BeautifulSoup对象 212
7.5.2用BeautifulSoup对象定位标签 212
7.5.3从标签中提取文本内容和属性值 217
7.6XPath表达式 219
7.6.1实例化etree对象 219
7.6.2用XPath表达式定位标签并提取数据 220
7.6.3快速获取标签节点的XPath表达式 221
7.7数据清洗 222
7.8案例:爬取当当网的图书销售排行榜 225
第8章 Python爬虫进阶
8.1Selenium模块基础 229
8.1.1Selenium模块的安装与基本用法 229
8.1.2Selenium模块的标签定位 232
8.1.3Selenium模块的标签操作 235
8.2Selenium模块进阶 237
8.2.1模拟鼠标操作 237
8.2.2