首页>参考读物>计算机科学与技术>软件与程序设计

网络爬虫原理与实践:基于C#语言
作者 : 李健 种惠芳 著
出版日期 : 2022-11-28
ISBN : 978-7-111-71694-5
定价 : 79.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 276
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书以C#为平台,介绍网络爬虫开发的基本知识、原理和方法。全书共分8章:第1章简要介绍C#基础知识,偏重网络爬虫相关的内容;第2章介绍网络爬虫原理,包括网络原理和爬虫概述;第3章介绍网页信息的下载和抽取方法,这是爬虫的基本数据来源;第4章介绍多媒体信息的下载和抽取方法,这是对网页信息的重要补充;第5章介绍数据存储以保存抽取结果,包括文件形式和数据库形式;第6章介绍任务调度以提高爬虫效率,包括搜索策略和多线程爬虫;第7章介绍常用的浏览器内核,以及如何模拟浏览器爬取网页深层数据;第8章介绍抽取模板表示和管理、可视化模板配置以及自动内容抽取。

图书特色

上架指导

计算机\网络

封底文字

C#是目前广泛使用的开发语言,具有语法简洁、面向对象、与Web结合紧密、有完善的错误和异常处理机制等特点。基于C#进行爬虫开发,能够更好地理解底层网络原理和爬虫架构,同时能借助C#优秀的语言特性,开发出专业级的可视化爬虫工具。
本书特色
内容简明,由浅入深。本书围绕网络爬虫的核心环节介绍其基本原理和实现方法,并进行适当的功能扩展。本书篇幅适中,适合初学者阅读和学习。
实例丰富,代码翔实。本书选择了逻辑简明、功能完整的典型实例,从需求、设计、实现的角度进行系统性介绍,并且提供实例的主要代码和关键代码的详细注释,读者可应用这些代码进行实践。
读者可通过机械工业出版社网站获取本书案例的源代码和相关资源,在不断实践中掌握网络爬虫开发的技术。

图书目录

第1章 C#编程基础
1.1 C#语言概述
1.1.1 发展历史与特点
1.1.2 开发环境与生态
1.2 语法基础
1.2.1 数据与运算
1.2.2 字符串处理
1.2.3 流程控制
1.3 组合数据类型
1.3.1 数组
1.3.2 列表
1.3.3 字典
1.4 代码封装
1.4.1 函数与递归
1.4.2 类与对象
1.5 文件操作
1.5.1 目录管理
1.5.2 文件读写
第2章 网络爬虫原理
2.1 互联网与网络资源
2.1.1 互联网概述
2.1.2 网络协议简介
2.1.3 网络资源与URL
2.2 万维网工作原理
2.3.1 http与https协议
2.3.2 请求和响应
2.3.3 Cookie与Session机制
2.3.4使用代理服务器
2.3 网页结构
2.3.1 HTML及DOM树
2.3.2 元素选择器
2.3.3 静态网页和动态网页
2.4 网络爬虫概述
2.4.1 爬虫的作用
2.4.2 爬虫的分类
2.4.3 爬虫相关技术
第3章 网页信息抽取
3.1 网页下载
3.1.1 HttpWebRequest和WebResponse对象
3.1.2 WebClient对象
3.1.3 HttpClient对象
3.2 正则表达式抽取
3.2.1 正则表达式语法
3.2.2 网页内容匹配
3.3 Xpath抽取
3.3.1 Xpath语法
3.3.2 HtmlAgilityPack类库
3.3.3 网页元素抽取
3.4 综合实例:抽取“兵器库”网站中各类武器信息
3.4.1 问题描述
3.4.2 爬虫设计
3.4.3 爬虫实现与代码分析
第4章 多媒体信息抽取
4.1 多媒体数据下载
4.1.1 网页相关资源
4.1.2 通用资源下载器
4.2 文档数据抽取
4.2.1 Json数据抽取
4.2.2 Xml数据抽取
4.2.3 PDF数据抽取
4.2.4 Office数据抽取
4.3 图像信息抽取
4.3.1 图像下载及格式转换
4.3.2 图像文字识别
4.4 音频信息抽取
4.4.1 音频下载及格式转换
4.4.2 音频参数提取
4.5 综合实例:自动识别验证码——提交登录信息
4.5.1 问题描述
4.5.2 爬虫设计
4.5.3 爬虫实现与代码分析
第5章 数据存储
5.1 文件存储
5.1.1 低维数据
5.1.2 高维数据
5.2 关系数据库
5.2.1 MySQL的安装与使用
5.2.2访问MySQL数据库
5.3 非关系数据库
5.3.1 Neo4j的安装与使用
5.3.2访问Neo4j数据库
5.4 综合实例:抽取百科知识——构建简易知识图谱
5.4.1 问题描述
5.4.2 爬虫设计
5.4.3 爬虫实现与代码分析
第6章 任务调度
6.1 爬虫策
6.1.1 搜索路径
6.1.2 列表翻页
6.1.3 限定条件
6.2 多线程爬虫
6.2.1 如何开启多线程
6.2.2 多线程爬取
6.2.3 多线程性能分析
6.3 综合实例:爬取整个校园网——生成站内索引
6.3.1 问题描述
6.3.2 爬虫设计
6.3.3 爬虫实现与代码分析
第7章 使用浏览器内核
7.1浏览器三大内核
7.1.1 IE内核
7.1.2 Firefox内核
7.1.3 Chrome内核
7.2 使用GeckoFx模拟浏览器
7.2.1 安装配置
7.2.2 基本操作
7.3 综合实例:网页翻译爬虫
7.3.1 问题描述
7.3.2 与爬虫设计
7.3.3 爬虫实现与代码分析
第8章 模板配置与自动抽取
8.1 配置抽取模板
8.1.1 模板表示与管理
8.1.2 可视化模板配置
8.2 自动内容抽取
8.2.1 自动正文识别
8.2.2 其它要素识别
8.3 综合实例:自动新闻采集爬虫
8.3.1 问题描述
8.3.2 爬虫设计
8.3.3 爬虫实现与代码分析

教学资源推荐
作者: 凌云 谢满德 陈志贤 吴海燕 编著
作者: [美] 罗伯特·W. 塞巴斯塔(Robert W. Sebesta) 著
作者: Brian W.Kernighan,Dennis M.Ritchie
参考读物推荐
作者: 温宇杰 著
作者: 张克发 赵兴 谢有龙 等著
作者: 张光华 贾庸 李岩 著