首页>参考读物>计算机科学与技术>软件与程序设计

Python金融大数据挖掘与分析全流程详解
作者 : 王宇韬 房宇亮 肖金鑫 编著
出版日期 : 2019-08-09
ISBN : 978-7-111-63320-4
定价 : 89.80元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 312
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

金融从业者每天都要与海量的数据打交道,如何从这些数据中挖掘出需要的信息,并进行相应的分析,是很多金融从业者非常关心的内容。本书以功能强大且较易上手的Python 语言为编程环境,全面讲解了金融数据的获取、处理、分析及结果呈现。
全书共16 章,内容涉及Python 基础知识、网络数据爬虫技术、数据库存取、数据清洗、数据可视化、数据相关性分析、IP 代理、浏览器模拟操控、邮件发送、定时任务、文件读写、云端部署、机器学习等,可以实现舆情监控、智能投顾、量化金融、大数据风控、金融反欺诈模型等多种金融应用。无论是编程知识还是金融相关知识,本书都力求从易到难、循序渐进地讲解,并辅以商业实战案例来加深印象。
本书定位为一本金融科技入门读物,但书中的数据挖掘与分析思想对其他行业来说也具备较高的参考价值。
本书又是一个金融科技工具箱,里面的代码可以方便地速查速用,解决实际工作中的问题。
本书适合金融行业的从业人员学习。对于大中专院校金融、财会等专业的师生,以及具备一定计算机编程基础,又希望投身金融行业的读者,本书也是不错的参考读物。

图书特色

金融数据挖掘 企业风险预警 智能投资分析 量化金融交易
揭秘人工智能在金融行业中的实战应用 全流程详解量化金融与数据化决策技术

图书前言

信息时代,数据为王。
时代的发展日新月异,与此相伴的则是数据的急速增长。面对浩如烟海的数据,人工处理往往会感觉到力有不逮,而通过科技的力量则能弥补这一缺陷。如何在这些数据中挖掘出有价值的信息,也成为新时代每一位拼搏者要思考的问题。
金融从业者每天都要与海量的数据打交道,如新闻舆情数据、股价数据、宏观经济数据、个人信用数据等。如何从这些数据中挖掘出需要的信息,并进行相应的分析,是很多金融从业者非常关心的内容。例如,我们利用网络新闻数据可以搭建舆情监控系统,实现企业风险预警;利用股价数据进行相关量化金融分析,可以寻找合适的交易机会;利用个人信用数据,可以进行大数据风控和金融反欺诈等。
数据分析的工具层出不穷,从Excel软件、R语言,到现在非常火的Python语言,可以说科技的发展给我们配备了很多数据分析的利器。Python语言功能强大且较易上手,本书就采用Python语言来进行数据的挖掘与分析。
全书共16章,全面讲解了金融数据的获取、处理、分析及结果呈现,内容十分丰富,涉及Python基础知识、网络数据爬虫技术、数据库存取、数据清洗、数据可视化、数据相关性分析、IP代理、浏览器模拟操控、邮件发送、定时任务、文件读写、云端部署、机器学习等,可以实现舆情监控、智能投顾、量化金融、大数据风控、金融反欺诈模型等多种金融应用。
我们将本书定位为一本金融科技入门读物,无论是编程知识还是金融相关知识,都力求从易到难、循序渐进地讲解,并辅以商业实战案例来加深印象。此外,我们还希望本书能成为一个金融科技工具箱,里面的代码不需要死记硬背,而是当您有相应需求时可以方便地速查速用。
本书中的数据挖掘与分析思想不仅适用于金融行业,对其他行业来说也具备较高的参考价值。无论您从事的工作是否与金融相关,我们都希望您通过阅读本书,能够初步了解金融科技,并结合书中的案例锻炼自己的实战能力,成长为一名优秀的数据挖掘与分析人才。
由于编者水平有限,在编写本书的过程中难免有不足之处,恳请广大读者指正批评,除了扫描二维码关注公众号获取资讯以外,也可加入QQ群930872583与我们交流。

编者
2019年6月

上架指导

计算机/程序设计/Python

封底文字

Python 是近年来非常火的一种编程语言,很多业务人员都对它非常感兴趣,然而大部分人对它能在金融领域发挥什么作用却不是很了解。这本书便由浅入深地讲解了Python 到底能做些什么以及如何实现这些功能,可以帮助业务人员提高工作效率,是一本不错的实践操作指导手册。
—华能贵诚信托总裁助理兼人力资源部总经理 赵刚
随着人工智能概念的普及,信息技术逐渐渗透到各行各业当中,金融科技则是众多应用领域中非常精彩的一部分,华能贵诚信托和领带金融学院都非常重视科技在金融领域的应用。通过本书可以快速掌握Python 在金融等数据分析领域的实战技能。
—领带金融学院创始人 陈新辉
在大数据时代,如何从海量数据中挖掘到有效的信息,对于每一个行业都非常重要。本书立足于商业案例实战,对金融大数据的挖掘与分析做了系统介绍,对金融从业者及数据分析工作者都很有参考价值。
—Dataguru 炼数成金数据分析社区创始人 黄志洪
该书由易到难地讲解了企业风险预警系统、数据库管理、智能投顾、量化金融、大数据风控等多方面金融与 Python 结合的内容,每一章节都辅以具体的代码实现,是了解科技在金融领域应用的一本好书。
—极客社区DoraHacks 合伙人 岳汉超

图书目录

前言
如何获取学习资源
第1章 Python基础
1.1 Python安装与第一个Python程序 12
1.1.1 安装Python 12
1.1.2 编写第一个Python程序 13
1.1.3 PyCharm的安装与使用 14
1.2 Python基础知识 18
1.2.1 变量、行、缩进与注释 18
1.2.2 数据类型:数字与字符串 20
1.2.3 数据类型:列表与字典、元组与集合 22
1.2.4 运算符 27
1.3 Python语句 29
1.3.1 if条件语句 29
1.3.2 for循环语句 30
1.3.3 while循环语句 31
1.3.4 try/except异常处理语句 32
1.4 函数与库 33
1.4.1 函数的定义与调用 33
1.4.2 函数的返回值与作用域 34
1.4.3 常用基本函数介绍 36
1.4.4 库 38
第2章 金融数据挖掘之爬虫技术基础
2.1 爬虫技术基础1—网页结构基础 41
2.1.1 查看网页源代码—F12键 41
2.1.2 查看网页源代码—右键菜单 43
2.1.3 网址构成及http与https协议 44
2.1.4 网页结构初步了解 44
2.2 爬虫技术基础2—网页结构进阶 44
2.2.1 HTML基础知识1—我的第一个网页 45
2.2.2 HTML基础知识2—基础结构 45
2.2.3 HTML基础知识3—标题、段落、链接 46
2.2.4 HTML基础知识4—区块 49
2.2.5 HTML基础知识5—类与id 49
2.3 初步实战—百度新闻源代码获取 50
2.3.1 获取网页源代码 51
2.3.2 分析网页源代码信息 53
2.4 爬虫技术基础3—正则表达式 54
2.4.1 正则表达式基础1—findall()函数 54
2.4.2 正则表达式基础2—非贪婪匹配之(.*?) 55
2.4.3 正则表达式基础3—非贪婪匹配之.*? 57
2.4.4 正则表达式基础4—自动考虑换行的修饰符re.S 60
2.4.5 正则表达式基础5—知识点补充 61
第3章 金融数据挖掘案例实战1
3.1 提取百度新闻标题、网址、日期及来源 63
3.1.1 获取网页源代码 63
3.1.2 编写正则表达式提取新闻信息 63
3.1.3 数据清洗并打印输出 65
3.2 批量获取多家公司的百度新闻并生成数据报告 68
3.2.1 批量爬取多家公司的百度新闻 68
3.2.2 自动生成舆情数据报告文本文件 69
3.3 异常处理及24小时实时数据挖掘实战 71
3.3.1 异常处理实战 72
3.3.2 24小时实时爬取实战 72
3.4 按时间顺序爬取及批量爬取多页内容 74
3.4.1 按时间顺序爬取百度新闻 74
3.4.2 一次性批量爬取多页内容 75
3.5 搜狗新闻与新浪财经数据挖掘实战 78
3.5.1 搜狗新闻数据挖掘实战 78
3.5.2 新浪财经数据挖掘实战 82
第4章 数据库详解及实战
4.1 MySQL数据库简介及安装 86
4.2 MySQL数据库基础 89
4.2.1 MySQL数据库管理平台phpMyAdmin介绍 89
4.2.2 创建数据库及数据表 90
4.2.3 数据表基本操作 92
4.3 Python与MySQL数据库的交互 96
4.3.1 安装PyMySQL库 96
4.3.2 用Python连接数据库 96
4.3.3 用Python存储数据到数据库 97
4.3.4 用Python在数据库中查找并提取数据 101
4.3.5 用Python从数据库中删除数据 102
4.4 案例实战:把金融数据存入数据库 103
第5章 数据清洗优化及数据评分系统搭建
5.1 深度分析—数据去重及清洗优化 105
5.1.1 数据去重 105
5.1.2 常见的数据清洗手段及日期格式统一 107
5.1.3 文本内容深度过滤—剔除噪声数据 108
5.2 数据乱码的处理 110
5.2.1 编码分析 111
5.2.2 重新编码及解码 112
5.2.3 解决乱码问题的经验方法 114
5.3 舆情数据评分系统搭建 115
5.3.1 舆情数据评分系统版本1—根据标题评分 115
5.3.2 舆情数据评分系统版本2—根据正文内容评分 117
5.3.3 舆情数据评分系统版本3—解决乱码问题 118
5.3.4 舆情数据评分系统版本4—处理非相关信息 119
5.4 完整的百度新闻数据挖掘系统搭建 121
5.4.1 将舆情数据评分存入数据库 121
5.4.2 百度新闻数据挖掘系统代码整合 123
5.4.3 从数据库汇总每日评分 127
第6章 数据分析利器:NumPy与pandas库
6.1 NumPy库基础 129
6.1.1 NumPy库与数组 129
6.1.2 创建数组的几种方式 131
6.2 pandas库基础 132
6.2.1 二维数据表格DataFrame的创建与索引的修改 133
6.2.2 Excel工作簿等文件的读取和写入 137
6.2.3 数据的读取与编辑 139
6.2.4 数据表的拼接 144
6.3 利用pandas库导出舆情数据评分 147
6.3.1 汇总舆情数据评分 148
6.3.2 导出舆情数据评分表格 150
第7章 数据可视化与数据相关性分析
7.1 用Tushare库调取股价数据 152
7.1.1 Tushare库的基本用法 152
7.1.2 匹配舆情数据评分与股价数据 154
7.2 舆情数据评分与股价数据的可视化 155
7.2.1 数据可视化基础 156
7.2.2 数据可视化实战 160
7.3 舆情数据评分与股价数据相关性分析 162
7.3.1 皮尔逊相关系数 162
7.3.2 相关性分析实战 164
第8章 金融数据挖掘之爬虫技术进阶
8.1 爬虫技术进阶1—IP代理简介 165
8.1.1 IP代理的工作原理 165
8.1.2 IP代理的使用方法 166
8.2 爬虫技术进阶2—Selenium库详解 169
8.2.1 网络数据挖掘的难点 169
8.2.2 模拟浏览器ChromeDriver的下载与安装 170
8.2.3 Selenium库的安装 172
8.2.4 Selenium库的使用 173
第9章 金融数据挖掘案例实战2
9.1 新浪财经股票实时数据挖掘实战 180
9.1.1 获取网页源代码 180
9.1.2 数据提取 181
9.2 东方财富网数据挖掘实战 182
9.2.1 获取网页源代码 183
9.2.2 编写正则表达式提取数据 183
9.2.3 数据清洗及打印输出 185
9.2.4 函数定义及调用 185
9.3 裁判文书网数据挖掘实战 186
9.4 巨潮资讯网数据挖掘实战 188
9.4.1 获取网页源代码 189
9.4.2 编写正则表达式提取数据 190
9.4.3 数据清洗及打印输出 191
9.4.4 函数定义及调用 191
第10章 通过PDF文本解析上市公司理财公告
10.1 PDF文件批量下载实战 193
10.1.1 爬取多页内容 193
10.1.2 自动筛选所需内容 197
10.1.3 理财公告PDF文件的自动批量下载 199
10.2 PDF文本解析基础 203
10.2.1 用pdfplumber库提取文本内容 203
10.2.2 用pdfplumber库提取表格内容 204
10.3 PDF文本解析实战—寻找合适的理财公告 206
10.3.1 遍历文件夹里所有的PDF文件 207
10.3.2 批量解析每一个PDF文件 209
10.3.3 将合格的PDF文件自动归档 209
第11章 邮件提醒系统搭建
11.1 用Python自动发送邮件 213
11.1.1 通过腾讯QQ邮箱发送邮件 213
11.1.2 通过网易163邮箱发送邮件 215
11.1.3 发送HTML格式的邮件 216
11.1.4 发送邮件附件 218
11.2 案例实战:定时发送数据分析报告 221
11.2.1 用Python提取数据并发送数据分析报告邮件 221
11.2.2 用Python实现每天定时发送邮件 226
第12章 基于评级报告的投资决策分析
12.1 获取券商研报网站的表格数据 229
12.1.1 表格数据的常规获取方法 229
12.1.2 用Selenium库爬取和讯研报网表格数据 232
12.2 pandas库的高阶用法 235
12.2.1 重复值和缺失值处理 235
12.2.2 用groupby()函数分组汇总数据 238
12.2.3 用pandas库进行批量处理 240
12.3 评估券商分析师预测准确度 244
12.3.1 读取分析师评级报告数据进行数据预处理 244
12.3.2 用Tushare库计算股票收益率 247
12.3.3 计算平均收益率并进行分析师预测准确度排名 251
12.4 策略延伸 253
12.4.1 涨停板的考虑 253
12.4.2 按分析师查看每只股票的收益率 254
12.4.3 计算多阶段股票收益率 255
第13章 用Python生成Word文档
13.1 用Python创建Word文档的基础知识 257
13.1.1 初识python-docx库 257
13.1.2 python-docx库的基本操作 258
13.2 用Python创建Word文档的进阶知识 261
13.2.1 设置中文字体 261
13.2.2 在段落中新增文字 261
13.2.3 设置字体大小及颜色 262
13.2.4 设置段落格式 264
13.2.5 设置表格样式 267
13.2.6 设置图片样式 268
13.3 案例实战:自动生成数据分析报告Word文档 269
第14章 基于股票信息及其衍生变量的数据分析
14.1 策略基本思路 274
14.2 获取股票基本信息及衍生变量数据 275
14.2.1 获取股票基本信息数据 275
14.2.2 获取股票衍生变量数据 279
14.2.3 通过相关性分析选取合适的衍生变量 282
14.2.4 数据表优化及代码汇总 283
14.3 数据可视化呈现 285
14.4 用xlwings库生成Excel工作簿 287
14.4.1 xlwings库的基本用法 287
14.4.2 案例实战:自动生成Excel工作簿报告 290
14.5 策略深化思路 292
第15章 云服务器部署实战
15.1 云服务器的购买与配置 295
15.2 程序的云端部署 298
15.2.1 安装运行程序所需的软件 299
15.2.2 实现程序24小时不间断运行 299
第16章 机器学习之客户违约预测模型搭建
16.1 机器学习在金融领域的应用 300
16.2 决策树模型的基本原理 300
16.2.1 决策树模型简介 300
16.2.2 决策树模型的建树依据 301
16.3 案例实战:客户违约预测模型搭建 303
16.3.1 模型搭建 303
16.3.2 模型预测及评估 306
16.3.3 模型可视化呈现 311

教学资源推荐
作者: (美)Y. Daniel Liang 著 阿姆斯特朗亚特兰大州立大学
作者: [美]保罗·戴特尔 (Paul Deitel) 哈维·戴特尔(Harvey Deitel) 著
作者: [美]詹姆斯·高斯林(James Gosling), 比尔·乔伊(Bill Joy), 盖·斯蒂尔(Guy Steele),吉拉德·布拉查(Gilad Bracha), 亚历克斯·巴克利(Alex Buckley) 著
作者: 刘海燕 荆涛 主编 王子强 武卉明 杨健康 周睿 编著
参考读物推荐
作者: 李智慧 著 李潇然 绘
作者: 工信部通信行业职业技能鉴定指导中心 中国移动互联网基地 编著