首页>参考读物>计算机科学与技术>人工智能

Python高级数据分析:机器学习、深度学习和NLP实例
作者 : [印] 萨扬·穆霍帕迪亚(Sayan Mukhopadhyay) 著
译者 : 罗佳 译
出版日期 : 2019-01-08
ISBN : 978-7-111-61702-0
定价 : 59.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 168
开本 : 16
原书名 : Advanced Data Analytics Using Python: With Machine Learning, Deep Learning and NLP Examples
原出版社: Apress
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书介绍高级数据分析概念的广泛基础,以及最近的数据库革命,如Neo4j、弹性搜索和MongoDB。本书讨论了如何实现包括局部爬取在内的ETL技术,并应用于高频算法交易和目标导向的对话系统等领域。还有一些机器学习概念的例子,如半监督学习、深度学习和NLP。本书还涵盖了重要的传统数据分析技术,如时间序列和主成分分析等。

图书特色

Advanced Data Analytics Using Python
With Machine Learning, Deep Learning and NLP Examples
Python高级数据分析
机器学习、深度学习和NLP实例
[ 印 ] 萨扬·穆霍帕迪亚(Sayan Mukhopadhyay) 著
罗佳  译
包含数据分析实例
涵盖了从基础统计学到ETL、深度学习和物联网的广泛领域
给出了产业分析项目各个技术方面的概念

上架指导

计算机\人工智能

封底文字

Python高级数据分析
获得高级数据分析概念的众多基础知识并探讨Neo4j、Elasticsearch和MongoDB等数据库的最新进展。本书讨论了如何实现包括主题爬取在内的ETL技术,这类技术应用于高频交易和目标导向的对话系统等领域。你还将看到机器学习概念的示例,如半监督学习、深度学习和自然语言处理等。本书还涵盖了重要的传统数据分析技术,如时间序列和主成分分析。
阅读本书后,你将获得数据分析项目技术方面的经验,并使用Python代码进一步了解这些概念,为自己的项目提供示例。
你将能够:
• 使用数据分析技术,如分类、聚类、回归和预测
• 处理结构化和非结构化数据,熟悉ETL技术以及各种数据库,包括Neo4j、Elasticsearch、MongoDB和MySQL
• 熟悉不同的大数据框架,包括Hadoop和Spark
• 发现高级机器学习概念,如半监督学习、深度学习和自然语言处理

译者序

作为当今社会的热门职位,数据科学家通过对大量数据的合理使用,引起了一大批新的应用甚至是新的行业的产生。作为数据科学家使用的方法和工具,数据分析技术通过对收集来的大量数据进行详细研究和概括总结,让数据开口说话,从数据中提取有用信息并形成相应的结论,最终帮助人们将数据转化为可以付诸行动的见解。
鉴于已有许多数据分析方面的入门型书籍,本书侧重于从各个方面展示数据分析的高级内容。基于此,本书包含了数据分析领域较全面的方法和技术,包括最新的数据库技术、监督学习方法、无监督学习方法、深度学习和神经网络、时间序列以及大数据分析等内容。本书的另一特色在于给出了大量的实例,便于读者在实例基础上深入理解相关内容和方法,并在自己的项目中引用这些实例作为示例代码。
本书适合在数据分析领域已有一定基础,需要进一步提高的读者。
感谢机械工业出版社华章分社的刘锋编辑不辞辛苦地和我沟通相关细节内容,同时感谢他在翻译本书过程中给予的诸多帮助。
限于本人水平,难免会对本书中部分内容的理解或中文语言表达存在不当之处,敬请读者批评指正,以便能够不断改进。

罗佳  
2018年10月15日于上海

图书目录

译者序
作者简介
技术审核员简介
致谢
第1章 简介 001
1.1 为何选择Python 001
1.2 何时避免使用Python 002
1.3 Python中的面向对象编程 002
1.4 在Python中调用其他语言 010
1.5 将Python模型作为微服务 011
1.6 高性能API和并发编程 014
第2章 Python结构化数据提取、转换和加载 019
2.1 MySQL 020
2.1.1 如何安装MySQLdb 020
2.1.2 数据库连接 020
2.1.3 INSERT操作 020
2.1.4 READ操作 021
2.1.5 DELETE操作 022
2.1.6 UPDATE操作 023
2.1.7 COMMIT操作 023
2.1.8 ROLL-BACK操作 024
2.2 Elasticsearch 026
2.3 Neo4j Python驱动 029
2.4 neo4j-rest-client 029
2.5 内存数据库 029
2.6 Python版本MongoDB 030
2.6.1 将数据导入集合 031
2.6.2 使用pymongo创建连接 031
2.6.3 访问数据库对象 032
2.6.4 插入数据 032
2.6.5 更新数据 032
2.6.6 删除数据 032
2.7 Pandas 033
2.8 Python非结构化数据提取、转换和加载 034
2.8.1 电子邮件解析 034
2.8.2 主题爬取 036
第3章 基于Python的监督学习 043
3.1 使用Python实现降维 043
3.1.1 相关性分析 044
3.1.2 主成分分析 046
3.1.3 互信息 048
3.2 使用Python进行分类 049
3.3 半监督学习 050
3.4 决策树 050
3.4.1 哪个属性优先 050
3.4.2 随机森林分类器 052
3.5 朴素贝叶斯分类器 052
3.6 支持向量机 054
3.7 最近邻分类器 055
3.8 情绪分析 056
3.9 图像识别 057
3.10 使用Python进行回归 058
3.10.1 最小二乘估计 059
3.10.2 逻辑回归 060
3.11 分类和回归 060
3.12 使模型高估或低估 061
3.13 处理分类型数据 062
第4章 无监督学习—聚类 067
4.1 K均值聚类 068
4.2 选择K—肘部法则 071
4.3 距离或相似性度量 071
4.3.1 属性 072
4.3.2 一般及欧氏距离 072
4.3.3 平方欧氏距离 074
4.3.4 字符串之间的编辑距离 074
4.4 文档上下文的相似性 076
4.5 什么是层次聚类 077
4.5.1 自下而上的方法 078
4.5.2 聚类之间的距离 079
4.5.3 自上而下的方法 080
4.5.4 图论方法 084
4.6 如何判断聚类结果是否良好 085
第5章 深度学习和神经网络 087
5.1 反向传播 088
5.1.1 反向传播方法 088
5.1.2 广义Delta规则 088
5.1.3 输出层权重更新 089
5.1.4 隐藏层权重更新 090
5.1.5 反向传播网络小结 091
5.2 反向传播算法 092
5.3 其他算法 094
5.4 TensorFlow 094
5.5 递归神经网络 099
第6章 时间序列 107
6.1 变化的分类 107
6.2 包含趋势的序列分析 107
6.2.1 曲线拟合 108
6.2.2 从时间序列中去除趋势 109
6.3 包含周期性的序列数据分析 110
6.4 从时间序列中去除周期性 111
6.4.1 滤波 111
6.4.2 差分 112
6.5 转换 112
6.5.1 稳定方差 112
6.5.2 使周期效应累加 113
6.5.3 使数据呈正态分布 113
6.6 平稳时间序列 114
6.6.1 平稳过程 114
6.6.2 自相关和相关图 114
6.6.3 自协方差和自相关函数的估计 115
6.7 使用Python进行时间序列分析 116
6.7.1 有用的方法 116
6.7.2 自回归过程 118
6.7.3 估计AR过程的参数 119
6.8 混合ARMA模型 122
6.9 集成ARMA模型 123
6.10 傅里叶变换 124
6.11 一个特殊的场景 125
6.12 数据缺失 127
第7章 大数据分析 129
7.1 Hadoop 129
7.1.1 MapReduce编程 129
7.1.2 partitioning函数 130
7.1.3 combiner函数 131
7.1.4 HDFS文件系统 140
7.1.5 MapReduce设计模式 140
7.2 Spark 146
7.3 云分析 148
7.4 物联网 156

教学资源推荐
作者: [美]约翰 J. 克雷格(John J. Craig)著
作者: [美] 纪强(Qiang Ji) 著
作者: 柴玉梅 张坤丽 主编
作者: [意大利]马可·戈里(Marco Gori) 著
参考读物推荐
作者: [以]汤姆·奥普(Tom Hope) 耶海兹克尔 S.雷谢夫(Yehezkel S. Resheff) 伊塔·利德(Itay Lieder)著
作者: [印]阿卡普拉沃·包米克(Arkapravo Bhaumik) 著