参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 287

开本 : 16

原书名 : Building Machine Learning Systems with Python, Third Edition

原出版社: Packt Publishing Ltd.

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

本书涉及近期机器学习领域内的最新进展，通过对常用数据集的转换和工具库的使用，帮助构建实用的机器学习系统。内容包括如何在原始数据中准确发掘出模式。先从回顾Python机器学习的知识开始，接着了解相关的工具库。可以快速掌握数据集上真实的项目，掌握建模方法，创建推荐系统。
全书共14章。第1章介绍机器学习和Python基础知识；第2章使用真实数据进行分类研究；第3章解释如何使用回归算法处理数据；第4章介绍如何使用logistic回归来确定某个问题的用户答案好不好；第5章介绍数据降维技术；第6章介绍聚类，并使用它来查找给定文本的类似新闻报道；第7章介绍如何建立基于客户产品评级的推荐系统；第8章介绍神经网络和深度学习相关的基本原理，以及使用TensorFlow进行CNN和RNN的示例；第9章解释朴素贝叶斯的工作原理，以及如何用它对tweet进行分类；第10章介绍主题建模；第11章和第12章分别讲解如何对音乐和图像进行分类；第13章探索强化学习方法；第14章介绍如何利用云技术来构建更复杂的模型。

图书特色

无

图书前言

在机器学习的帮助下，无须对模型或系统进行明确的编程。通过本书，你将了解如何使用可用的最佳类库支持构建高效的智能系统，这些类库包括scikit-learn、TensorFlow等。
本书的读者对象
本书面向的是数据科学家、机器学习开发人员以及想学习构建日趋复杂的机器学习系统的Python开发人员。我们将使用Python的机器学习潜能开发有效的解决方案。读者需要提前了解一些关于Python的编程知识。
本书的主要内容
第1章介绍机器学习的基本思想和一个非常简单的TensorFlow示例。尽管这是个简单的示例，但我们还是会遇到过拟合的风险挑战。
第2章使用真实数据，通过训练计算机区分不同类型的花进行分类研究。
第3章解释如何使用回归算法处理数据，这一直是一个经典的讨论话题。你还可以了解高级的回归技术，如Lasso和ElasticNet。
第4章主要介绍如何使用logistic回归来确定某个问题的用户答案好还是不好，还将展示如何使用偏差-方差的平衡调试机器学习模型。
第5章研究有助于缩小数据量的其他现有方法，以便机器学习算法能够处理这些数据。
第6章展示将词袋模型方法运用在找到相似帖子的场景中的高适用度，而查找过程无须真正理解这些帖子。
第7章建立基于客户产品评级的推荐系统。我们还会看到不需要评级数据（用户不一定总会提供这些数据），如何从购物数据创建推荐机制。
第8章介绍相关的基本原理以及使用TensorFlow的CNN和RNN的示例。
第9章解释朴素贝叶斯的工作原理，以及如何使用朴素贝叶斯对tweet进行分类，以区分出这些tweet是积极情绪还是消极情绪。
第10章不仅将每一个帖子指定给一个单独的集群，还将帖子分配到多个主题中，同真实的文本可以涉及多个主题一样。
第11章设置一个场景。有人弄混了庞大且复杂的音乐收藏夹，我们希望构建某种规则，让机器学习者对这些歌曲进行分类。事实证明，通过信任他人的专业知识来创建自己的特征有时更好。本章还将介绍语音如何转为文本。
第12章介绍如何通过从数据中提取特征将分类应用于处理图像中的特定上下文。本章还会介绍如何修改这些方法以找到一个集合中的相似图像，以及使用TensorFlow的CNN和GAN的应用。
第13章涵盖有关Atari游戏的强化学习和深度Q网络的基本原理。
第14章研究利用多核或计算集群的优势来处理更大量数据的一些方法。本章还将介绍云计算（使用Amazon Web Services作为云提供商）。
充分利用本书
本书假定你了解Python，并且知道如何使用easy_install或pip安装模块库。读者无须了解任何高等数学理论，如微积分或矩阵代数。
本书使用的计算机语言版本如下，不过任何更新的版本都适用：
Python 3.5
NumPy 1.13.3
SciPy 1.0.0
scikit-learn的新版本
在我们代码包中的所有示例都可以在Jupyter notebook编辑器中打开（https://github.com/PacktPublishing/Building-Machine-Learning-Systems-with-Python-Third-edition）。
下载示例代码及彩色图像
本书的示例代码及所有截图和样图，可以从http://www.packtpub.com通过个人账号下载，也可以访问华章图书官网http://www.hzbook.com，通过注册并登录个人账号下载。

上架指导

计算机\人工智能

封底文字

Python是一种非常通用的编程语言，得力于其广泛的工具库支持，常用于开发机器学习应用。本书涉及机器学习领域的一些新进展，通过对常用数据集的转换和工具库的介绍，帮助你构建实用的机器学习系统。
使用机器学习方法可以从数据的角度获得更深刻的洞察，这是现今应用程序开发者和分析人员需要的一项关键技能。Python作为一种动态语言，可用于快速探索和实验。本书展示了如何在原始数据中准确发掘出模式，首先回顾Python机器学习的基础知识，接着介绍相关的工具库。通过本书，你将获得新的工具，并理解构建机器学习系统所需的必要知识，以更好地解决现实数据分析问题。
通过本书的学习，你将能够使用诸如分类、情感分析、计算机视觉、强化学习和神经网络等技术及方法构建机器学习系统。
通过阅读本书，你将学到：
构建可用于文本、图像和声音的分类系统。
利用Amazon网络服务（AWS）在云端运行分析程序。
用scikit-learn和TensorFlow解决相关的回归问题。
基于用户的购买记录向用户推荐商品。
在结构化数据上，理解使用深度神经网络的不同方式。
了解计算机视觉和强化学习领域的新进展。

图书目录

前言
第1章　Python机器学习入门1
1.1　机器学习和Python—梦之队1
1.1.1　本书涵盖的和未涵盖的内容2
1.1.2　如何最好地阅读本书3
1.1.3　遇到困难怎么办4
1.1.4　入门指南5
1.1.5　机器学习基础10
1.1.6　第一个机器学习的小应用11
1.2　小结23
第2章　使用现实示例进行分类24
2.1　鸢尾花数据集24
2.1.1　可视化是一个很好的开始25
2.1.2　用scikit-learn分类25
2.1.3　建立我们的第一个分类模型26
2.2　评估—留出数据和交叉验证27
2.3　如何测量和比较分类器29
2.4　更复杂的数据集和最近邻分类器30
2.4.1　了解种子数据集30
2.4.2　特征和特征工程 31
2.4.3　最近邻分类31
2.4.4　查看决策边界32
2.5　使用哪个分类器35
2.6　小结35
第3章　回归37
3.1　用回归方法预测房价走势37
3.2　多维属性回归40
3.3　回归中的交叉验证41
3.3.1　惩罚化或正则化回归42
3.3.2　L1和L2惩罚项42
3.4　在scikit-learn中使用Lasso或 ElasticNet43
3.4.1　Lasso路径的可视化44
3.4.2　P-greater-than-N场景45
3.4.3　一个基于文本文档的例子45
3.4.4　主流的超参设置方法47
3.5　用TensorFlow实现回归50
3.6　小结54
第4章　分类Ⅰ—检测劣质答案55
4.1　本章概览55
4.2　学习分类优质答案56
4.2.1　数据实例调整56
4.2.2　分类器调优56
4.3　数据获取56
4.3.1　将数据转换为可用的数据块58
4.3.2　属性的预选择和处理58
4.3.3　定义什么是优质答案59
4.4　创建我们的第一个分类器60
4.4.1　特征工程60
4.4.2　训练分类器61
4.4.3　评价分类器的性能62
4.4.4　设计更多的特征62
4.5　如何改进性能65
4.5.1　偏置、方差和它们之间的平衡66
4.5.2　修复高偏置66
4.5.3　修复高方差66
4.5.4　高偏置还是低偏置67
4.6　使用logistic回归69
4.6.1　用一个小例子了解一些数学原理69
4.6.2　将logistic回归用于我们的帖子分类问题71
4.7　探索准确率背后的细节—精度和召回73
4.8　为分类器减负75
4.9　整合分类器76
4.10　用TensorFlow分类77
4.11　小结82
第5章　降维83
5.1　本章概览83
5.2　选择特征84
5.2.1　使用过滤器检测冗余特征84
5.2.2　使用包装法从模型中查询特征90
5.2.3　其他特征选择方法93
5.3　特征投影93
5.3.1　主成分分析93
5.3.2　PCA的局限性以及LDA如何提供帮助95
5.4　多维缩放96
5.5　用于降维的自动编码器或神经网络99
5.6　小结103
第6章　聚类—查找相关帖子105
6.1　测量帖子间的相关性 105
6.1.1　不应该这么做106
6.1.2　应该怎么做106
6.2　预处理—将测量的相似性作为常用词的相似数量107
6.2.1　将原始文本转换成词袋107
6.2.2　我们的成就和目标115
6.3　聚类116
6.3.1　K-means 116
6.3.2　获取测试数据以评估我们的想法119
6.3.3　聚类帖子120
6.4　解决最初的挑战120
6.5　调整参数123
6.6　小结123
第7章　推荐系统125
7.1　评级预测和推荐125
7.2　切分训练集和测试集127
7.3　训练数据归一化127
7.4　用最近邻方法实现推荐129
7.5　用回归方法实现推荐132
7.6　结合多种方法133
7.7　购物篮分析135
7.7.1　获得有用的预测结果136
7.7.2　分析超市购物篮137
7.8　关联规则挖掘140
7.9　小结141
第8章　人工神经网络与深度学习143
8.1　使用TensorFlow143
8.1.1　TensorFlow API 144
8.1.2　图144
8.1.3　会话145
8.1.4　有用的操作146
8.2　保存和还原神经网络147
8.2.1　训练神经网络149
8.2.2　卷积神经网络149
8.2.3　循环神经网络156
8.3　LSTM用于文本预测157
8.4　LSTM用于图像处理160
8.5　小结162
第9章　分类Ⅱ—情感分析163
9.1　本章概览163
9.2　获取Twitter数据163
9.3　介绍朴素贝叶斯分类器164
9.3.1　了解贝叶斯定理 164
9.3.2　简单化165
9.3.3　使用朴素贝叶斯进行分类166
9.3.4　对未曾出现的和奇怪的单词进行说明168
9.3.5　对算术下溢进行说明169
9.4　创建并优化第一个分类器171
9.4.1　首先解决容易的问题171
9.4.2　使用所有类173
9.4.3　调整分类器参数175
9.5　清理tweet179
9.6　考虑单词的类型180
9.6.1　确定单词类型181
9.6.2　使用SentiWordNet成功作弊182
9.6.3　我们的第一个评估器184
9.6.4　把所有东西放在一起186
9.7　小结187
第10章　主题建模188
10.1　隐含狄利克雷分配188
10.1.1　构建主题模型189
10.1.2　按主题比较文档 193
10.1.3　为整体维基百科建模195
10.1.4　选择主题数量197
10.2　小结198
第11章　分类III—音乐流派分类199
11.1　本章概览199
11.2　获取音乐数据199
11.3　观察音乐数据201
11.4　使用FFT构建第一个分类器204
11.4.1　增加实验灵活性204
11.4.2　训练分类器205
11.4.3　用混淆矩阵测试多类别问题的准确率207
11.4.4　另一种用接收者- 操作者特征测量分类性能的方法209
11.5　使用梅尔频率倒谱系数改善分类器性能212
11.6　用TensorFlow分类音乐215
11.7　小结220
第12章　计算机视觉222
12.1　图像处理简介222
12.1.1　加载和显示图像 223
12.1.2　阈值转换224
12.1.3　高斯模糊225
12.1.4　聚焦图像中心226
12.2　基本图像分类228
12.3　从图像中计算特征229
12.4　设计自己的特征230
12.5　用特征找相似图像231
12.6　对更难的数据集分类233
12.7　局部特征的表征方法234
12.8　用对抗网络生成图像237
12.9　小结243
第13章　强化学习245
13.1　强化学习的类型245
13.1.1　策略网络和估值网络246
13.1.2　Q-network 246
13.2　在游戏中表现出色247
13.2.1　一个小例子247
13.2.2　在文字游戏中使用TensorFlow248
13.2.3　玩打砖块游戏250
13.3　小结260
第14章　大数据261
14.1　学习大数据261
14.1.1　使用jug将流水线拆分为多个任务262
14.1.2　jug中的任务介绍262
14.2　探查工作原理264
14.3　使用jug进行数据分析265
14.4　重用部分结果268
14.5　使用Amazon网络服务269
14.6　创建第一个虚拟机270
14.7　在Amazon Linux上安装Python包275
14.8　在云服务机器上运行jug275
14.9　使用cfncluster自动生成集群276
14.10　小结279