首页>参考读物>计算机科学与技术>软件与程序设计

零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)
作者 : 王宇韬,吴子湛,史靖涵 编著
出版日期 : 2021-06-16
ISBN : 978-7-111-68474-9
定价 : 89.80元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 272
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

在这个数据为王的时代,无论是从事何种行业,每天都会与海量的且各种类型的数据打交道,如何从这些数据中获取需要的信息,并进行相应的分析和可视化展示,是很多程序员和职场人士非常关心的一个问题。
本书以功能强大且上手操作容易的Python语言为基础,主要讲解Python爬虫的高级进阶技巧,主要侧重于各种应对网站反爬的相关技巧、爬虫框架、爬虫服务器部署等相关知识点。
本书共分8章,核心主题包括如何通过Cookie模拟登录网站从而解决网站反爬问题,如何通过进行验证码反爬识别,如何破解Ajax动态请求,讲解Webdriver拦截等其他反爬手段识别,如何进行手机APP爬虫,Scrapy爬虫框架,如何利用Scrapy爬虫框架应对反爬,爬虫的云服务器部署等。此外,书中对实际案例进行分析,让读者更好地理解和掌握爬虫知识。
本书适合各行各业的数据分析从业人员学习,也适合想要提高工作效率的职场人士,对于Python编程感兴趣的读者,本书也是一本不错的参考读物。

图书特色

三大法宝及两大框架
→ Cookie 模拟登录、验证码识别、
Ajax 动态请求破解
→ Scrapy、Flask
反爬机制应对 私域流量挖掘 爬虫框架应用 爬虫云端部署
30 个爬虫实战案例,包含2800 余行代码,涉及10 个网站和App 的数据爬取三大法宝突破反爬机制,两大框架搭建商业项目,拓展Python 的应用领域

图书前言

笔者编写的《Python金融大数据挖掘与分析全流程详解》于2019年出版面市后,陆续有不少读者表示对该书的爬虫部分非常感兴趣,想做进一步的学习。笔者由此萌生了一个想法:专门针对Python爬虫技术编写一套书籍,在保留之前核心内容的基础上,新增更多实战案例,方便读者在练中学,并体会Python爬虫在实战中的应用。
书稿编写完成后,为了更好地满足不同水平读者的需求,方便他们根据自身情况更灵活地学习,笔者决定将书稿分为两册出版:第一册为《零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)》,主要针对编程零基础的读者;第二册为《零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)》,主要针对有一定Python爬虫编程基础并且需要进阶提高的读者。
本书为《零基础学Python网络爬虫案例实战全流程详解(高级进阶篇)》,分7章讲解了Python爬虫的进阶理论与技术,包括常见反爬机制的应对手段、手机App内容爬取、Scrapy爬虫框架应用、爬虫云服务器部署等。
第1章主要讲解如何通过Cookie模拟登录网站并爬取数据。首先介绍Cookie模拟登录的原理,然后通过模拟登录淘宝爬取商品数据、模拟登录新浪微博爬取热搜榜信息这两个实战案例来巩固所学。
第2章主要讲解如何应对验证码这种常见的反爬手段,分别介绍了图像验证码、计算题验证码、滑块验证码、滑动拼图验证码、点选验证码等类型的验证码的识别,最后以bilibili的登录验证码识别作为实战案例来巩固所学。
第3章主要讲解如何破解Ajax动态请求。首先介绍Ajax的工作原理,然后通过爬取开源中国博客频道、爬取新浪微博这两个实战案例来巩固所学。
第4章主要讲解如何爬取手机App的内容。首先介绍相关软件的安装,然后讲解手机模拟操作和Appium操作,最后通过爬取微信朋友圈来巩固所学。
第5章主要讲解Scrapy爬虫框架。首先介绍Scrapy框架的整体架构和常用指令,然后通过3个实战案例来巩固所学:百度新闻爬取(涉及设置文件的修改)、新浪新闻爬取(涉及实体文件的修改)、豆瓣电影海报图片爬取(涉及管道文件的修改)。
第6章主要讲解在Scrapy框架中如何应对反爬机制。首先介绍Scrapy框架的中间件技术,然后通过3个实战案例来讲解具体应用:爬取搜狗图片(Scrapy+IP代理)、模拟登录淘宝(Scrapy+Cookie)、爬取第一财经新闻(Scrapy+Selenium库)。
第7章主要讲解如何将爬虫项目部署到云服务器上,实现24小时不间断运行,并通过Flask Web编程搭建网站,将爬虫数据渲染成可动态更新的网页,从而完成一个综合性的商业级爬虫项目。
本书适合有一定Python网络爬虫编程基础的学生或相关从业人员,以及想要在Python网络爬虫开发、不同类型的反爬机制应对、爬虫框架开发、爬虫云端部署等方面进阶提高的读者。觉得本书理解起来有难度的读者建议先学习《零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)》,再来学习本书。
由于笔者水平有限,书中难免有不足之处,恳请广大读者批评指正。读者除了可扫描封底上的二维码关注公众号获取资讯以外,也可通过“本书学习资源”中列出的方法与我们交流。

编 者
2021年5月

上架指导

计算机\程序设计

封底文字

扫描二维码,关注公众号,发送关键词,即可获取本书配套案例文件下载地址、相关软件及免费的Python 基础在线课程。

图书目录

前言
本书学习资源
第1章 Cookie模拟登录
1.1 Cookie模拟登录的原理 11
1.1.1 客户端与服务端 11
1.1.2 HTTP的无状态性 12
1.1.3 Cookie的含义与作用 13
1.1.4 Session的含义与作用 16
1.1.5 Cookie与Session的交互 17
1.2 案例实战1:模拟登录淘宝并爬取数据 20
1.2.1 获取Cookie模拟登录淘宝 20
1.2.2 爬取淘宝商品数据 25
1.3 案例实战2:模拟登录新浪微博并爬取数据 29
1.3.1 获取Cookie模拟登录新浪微博 30
1.3.2 爬取新浪微博热搜榜信息 34
★ 课后习题 38
第2章 验证码反爬的应对
2.1 图像验证码 39
2.1.1 超级鹰平台注册 40
2.1.2 超级鹰Python接口的使用 41
2.1.3 案例实战:英文验证码和中文验证码识别 46
2.2 计算题验证码 51
2.3 滑块验证码 54
2.4 滑动拼图验证码 57
2.4.1 初级版滑动拼图验证码 59
2.4.2 高级版滑动拼图验证码 63
2.5 点选验证码 68
2.5.1 本地网页识别 69
2.5.2 bilibili点选验证码识别初探 75
2.5.3 bilibili点选验证码识别升级:无限尝试版 80
★ 课后习题 85
第3章 Ajax动态请求破解
3.1 Ajax简介 86
3.1.1 不同的网页翻页方式的对比 86
3.1.2 Ajax的基本概念与工作原理 88
3.2 案例实战1:爬取开源中国博客频道 89
3.2.1 分析Ajax请求 89
3.2.2 爬取单页博客 92
3.2.3 爬取多页博客 96
3.3 案例实战2:爬取新浪微博 98
3.3.1 模拟登录新浪微博 100
3.3.2 分析单个微博页面 101
3.3.3 破解Ajax请求爬取多页 103
★ 课后习题 108
第4章 手机App内容爬取
4.1 相关软件安装 109
4.1.1 安装夜神模拟器 110
4.1.2 安装Node.js 111
4.1.3 安装JDK 113
4.1.4 安装Android Studio 117
4.1.5 安装Appium 118
4.1.6 安装Appium-Python-Client库 118
4.2 手机模拟操作初步尝试 119
4.2.1 用Android Studio连接夜神模拟器 119
4.2.2 用Python连接微信App 121
4.3 Appium基本操作与进阶操作 123
4.3.1 Appium基本操作 123
4.3.2 Appium进阶操作 126
4.4 案例实战:爬取微信朋友圈内容 132
4.4.1 获取微信朋友圈页面源代码 133
4.4.2 提取微信朋友圈内容 135
4.5 多开模拟器打开多个微信 138
4.5.1 多开模拟器 138
4.5.2 用Appium连接多个模拟器 139
★ 课后习题 143
第5章 Scrapy爬虫框架
5.1 Scrapy框架基础 144
5.1.1 Scrapy的安装方法 144
5.1.2 Scrapy的整体架构 146
5.1.3 Scrapy的常用指令 148
5.2 案例实战1:百度新闻爬取 156
5.2.1 Robots协议破解 157
5.2.2 User-Agent设置 158
5.2.3 百度新闻标题爬取 159
5.3 案例实战2:新浪新闻爬取 160
5.3.1 实体文件设置 161
5.3.2 新浪新闻爬取:爬取一条新闻 162
5.3.3 新浪新闻爬取:爬取多条新闻 166
5.3.4 新浪新闻爬取:生成文本文件报告 167
5.4 案例实战3:豆瓣电影海报图片爬取 170
5.4.1 用常规方法爬取 170
5.4.2 用Scrapy爬取 171
5.5 知识拓展:Python类的相关知识 176
5.5.1 类和对象的概念 176
5.5.2 类名、属性和方法 176
5.5.3 类的进阶知识 179
★ 课后习题 182
第6章 Scrapy应对反爬
6.1 中间件技术概述 183
6.1.1 下载器中间件 184
6.1.2 爬虫中间件 184
6.2 Scrapy+IP代理:爬取搜狗图片 185
6.2.1 用Requests库批量下载图片 186
6.2.2 用Scrapy框架批量下载图片 198
6.3 Scrapy+Cookie:模拟登录淘宝 202
6.3.1 在中间件文件中添加Cookie 202
6.3.2 编写并运行爬虫文件:爬取淘宝网页 204
6.4 Scrapy+Selenium库:爬取第一财经新闻 206
6.4.1 在中间件文件中添加Selenium库 207
6.4.2 编写并运行爬虫文件:爬取新闻信息 209
★ 课后习题 214
第7章 爬虫云服务器部署
7.1 HTML网页制作进阶 215
7.1.1 表格 217
7.1.2 列表 218
7.1.3 样式设计 220
7.1.4 背景设置 228
7.2 Flask Web编程基础 232
7.2.1 Flask入门 232
7.2.2 用render_template()函数渲染页面 237
7.2.3 用Flask连接数据库 242
7.3 Flask Web编程实战 247
7.3.1 展示单家公司的数据 247
7.3.2 展示多家公司的数据 252
7.3.3 展示舆情评分 255
7.3.4 只展示当天新闻 257
7.3.5 只展示负面新闻 258
7.4 云服务器的购买和登录 261
7.5 程序云端部署及网站搭建 265
7.5.1 搭建程序的运行环境 265
7.5.2 程序24小时运行及Flask项目部署 266
7.5.3 域名申请和使用 267
★ 课后习题 270

教学资源推荐
作者: 王恺 王志 李涛 朱洪文 编著
作者: 郑阿奇,梁敬东 主编
作者: 刘振安 刘燕君 唐军 编著
作者: (美)Y. Daniel Liang 著 阿姆斯特朗亚特兰大州立大学
参考读物推荐
作者: 徐顺发 编著
作者: [美]托马斯·厄尔(Thomas Erl) 罗伯特·科普(Robert Cope) 阿敏·奈瑟鲍尔(Amin Naserpour)著
作者: 莫海 编著