参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 500

开本 : 16

原书名 : Machine Learning with Python for Everyone

原出版社: Pearson Education Inc.

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

本书将帮助读者掌握开发有效学习系统所需的流程、模式和策略，通过简单的故事、图片和Python示例来向读者传达机器学习的基本思想。即使读者是一名初学者，只要具备一些Python编程基础，不管大学数学水平如何，都能轻松阅读本书并有所收获。

图书特色

无

图书前言

1983年，电影WarGames（战争游戏）问世。那时我还是一个未成年的孩子，一些电影情节让我深深地着迷：爆发一场核灾难的可能性，电影主角与计算机系统之间近乎神奇的互动方式……但是，最令我着迷的是机器居然具有能够自主学习的潜力。作为一个天真的少年，我花了好几年的时间研究战略核武器库。随后，大约又过了10年，我才开始认真学习计算机程序设计。指引一台计算机去执行一个设定的过程非常神奇，在学习复杂系统的细节的同时，又满足了我的好奇心，这真是一种非常美妙的体验。然而，路漫漫其修远兮，吾将上下而求索。几年之后，我开始编写第一个明确设计为可以学习（learn）的程序。我欣喜若狂，并深深地意识到这便是我的精神家园。因此，我想和大家分享一下这个具有自主学习能力的计算机程序世界。
读者对象
本书假定的读者对象是哪些人呢？本书的读者对象是机器学习的初学者。更重要的是，读者只需要具备少量的大学水平的数学知识，而且本书并不会试图提高关于数学方面的要求。虽然许多机器学习的书籍都会花费大量的篇幅阐述数学概念和方程，但我将尽最大的努力减轻读者有关数学知识方面的负担。从本书书名可见，我确实希望读者有Python语言编程基础。如果读者能够阅读Python程序，那么一定能够从本书的讨论中获得更多的信息。虽然许多关于机器学习的书籍都依赖于数学知识，但本书却借助故事、图片和Python代码来与读者进行交流。当然，本书偶尔也会涉及数学公式。但是，如果读者对这些数学公式不感兴趣，那么可以直接跳过大部分的数学公式。本书也会尽量为读者提供足够的上下文来解释这些数学公式，以帮助读者理解数学公式的含义。
为什么推荐读者选择阅读本书呢？因为我和读者之间可以达成共识：所有选择这本书的读者都想学习有关机器学习的知识。虽然读者可能有着不同的专业背景：也许读者是一个专注于机器学习的计算机入门班的学生；也许读者是一个处于事业中期的商业分析师，但突然需要拥有超越电子表格分析能力极限的其他方法；也许读者是一个技术爱好者，希望扩大自己的兴趣；抑或读者是一个科学家，需要以一种新的方式分析数据。机器学习正在渗透到社会的方方面面。根据读者的专业背景，本书会对每个人提供不同的帮助。即便精通数学的读者，如果想利用Python进行机器学习方面的突破，也能从本书中收获良多。
因此，本书的目标是让有兴趣或者需要实现机器学习项目的读者，通过使用Python scikit-learn和其他相关库，以一种具体的学习方式理解和掌握机器学习的过程及最重要的概念。读者将会发现书中所有的模式、策略、陷阱和疑难杂症，都适用于他们将要学习、构建或者使用的所有的机器学习系统。
方法
许多试图解释数学主题（例如机器学习）的书，一般都假设外行人可以轻易地读懂数学公式，并据此呈现这些数学公式。但这种方法往往使得大多数人（甚至包括那些喜欢数学的人）望而却步。本书则通过可视化的方式，将语言描述与可运行的代码相结合，在读者的脑海中构建一幅更好的机器学习过程图。我是一个充满热情并且经过良好训练的计算机科学家，同时热爱创造。创造会让我知晓自己是否已经达到了理解某些事物的真实水平。读者可能熟知这句人生格言：“如果真的想了解一件事，那么最好的方法是把这件事传授给别人。”那么，可以由这句话衍生出另一句人生格言：“如果真的想了解一件事，那么最好的方法是训练计算机完成该任务！”这正是我要教授读者机器学习知识的目的所在。基于最基础的数学知识，本书将为读者讲述最重要且最常用的机器学习工具和技术背后的概念，然后，向读者展示如何让计算机完成该任务。注意：本书不会从零开始编写程序以实现这些方法。我们将站在巨人的肩膀上，使用一些非常强大的、节省时间的、预先构建的软件库（稍后将对此进行详细阐述）。
本书不会详细地涵盖所有这些库，因为这需要海量的篇幅。相反，本书将从实际需求出发。本书将采用最好的工具来完成任务，并提供足够的背景知识以指导读者理解本书将要使用的概念。对于偏好数学的读者，本书会提供一些更深入的参考资料，以供他们进一步研究。这些参考资料将在各章末尾的章节注释中提供，以便其他读者轻松地跳过这些资料。
如果读者正在阅读这篇前言，以决定是否需要投入时间来阅读本书，这里需要向读者指明一些超出本书范围的内容。本书不会深入研究数学证明，也不会依赖数学来阐述原理。市面上存在许多按照上述思路编写的教科书，本书在每章结尾将提供一些相关参考书籍。同样，本书假设目标读者具有熟练的初级或者中级水平的Python程序设计知识。然而，对于一些更高级的Python主题和内容（主要来自第三方包，例如NumPy或者Pandas），本书将解释其背后的原理，以便读者能够理解每种技术及其背景知识。
概述
在本书第一部分，我将帮助读者打下坚实的基础。第1章将介绍有关机器学习的语言描述和概念概述。第2章将采取一种略微不同的方法，介绍一些在机器学习中反复出现的数学和计算主题。第3章和第4章将引导读者初步完成构建、训练和评估机器学习系统的基本步骤，这些机器学习系统用于对数据进行分类（称为分类器），以及对数据进行量化（称为回归器）。
本书第二部分将重点聚焦到如何应用机器学习系统中最重要的内容：以一种现实的方式评估机器学习系统的成功率。第5章将讨论适用于所有机器学习系统的通用评估技术。第6章和第7章将应用这些通用评估技术，并为分类器和回归器增加评估功能。
本书第三部分将扩展我们的学习技术工具库，并补充说明机器学习系统的组成部分。第8章和第9章将阐述另外几种不同的分类技术和回归技术。第10章将描述特征工程（feature engineering）：如何将原始数据平滑并整合成可以用于机器学习的数据格式。第11章将展示如何将多个步骤串联在一起，以构建一个机器学习系统，以及如何调整机器学习系统的内部工作流程，使其性能更佳。
本书的第四部分是进阶部分，将讨论推动机器学习向前发展的最新前沿技术。第12章将讨论由多个小型的机器学习系统所组成的机器学习系统。第13章将讨论结合了自动化特征工程的机器学习技术。第14章将对本书做一个总结，该章将采用书中提及的技术，并将这些技术应用于两种特别有趣的数据类型：图像和文本。第15章将回顾前面讨论的许多技术，同时展示这些技术与更高级的机器学习体系结构（神经网络和图形模型）之间的关系。
本书主要聚焦于机器学习的各种技术，在此过程中，将研究一些学习算法和一些其他的处理方法。然而，全面覆盖这些知识并不是本书的目标。我们将讨论最常见的技术，并简要介绍机器学习的两大子领域：图形模型和神经网络（或者称为深层网络）。另外，我们还将讨论本书所关注的技术与这些更高级方法之间的关系。
本书未涉及的一个主题是如何实现特定的学习算法。我们将在scikit-learn库和相关软件库中已有算法的基础上进行机器学习系统的构建，并使用这些机器学习系统作为组件来创建更大型的解决方案。当然，总得有人实现黑匣子里的轮子（算法），以便用户可以传递数据并调用这些算法。如果读者真的对实现这些算法有兴趣，那么本书便会是读者学习路上的好伙伴。希望读者能推荐身边的朋友来购买和阅读本书，这样我就更有激情和动力去撰写一本关于这些低级细节的续作了！
致谢
非常感谢为本书的出版做出巨大贡献的所有人。首先感谢Pearson出版社的Debra Williams Cauley，她在本书撰写的每一个阶段都发挥了重要的指导作用，直至本书出版。从我们最初的会面，到探索可以满足我们双方需求的话题，再到耐心地引导我修改许多（真的有很多！）早期的书稿，Debra一直不断地给我提供充足的动力，使我可以一直继续前行，最后爬过山峰最陡峭的部分，并成功登顶。在所有的这些阶段中，Debra都表现出了最高的专业水平。为此，请接受我最衷心的感谢。
借助这个短小的致谢篇幅，我还要大力赞扬和深深感谢我的妻子—Barbara Fenner博士。她除了承担作为作家的伴侣所需要承担的压力之外，还是本书最重要的初稿读者以及勇敢的插图画家。她绘制并完成了本书中所有非计算机生成的图表。虽然本书并不是我们俩的第一个联合学术项目，但却是耗费时间最长的一个。在我看来，她的耐心是永无止境的。Barbara，谢谢！
本书的主要专业技术编辑是Marilyn Roth。即使我犯了最严重的技术错误，Marilyn也始终如一地对我加以肯定。由于她的反馈意见，本书得到了巨大的改进。非常感谢Marilyn Roth。
我还要感谢Pearson编辑部的几位成员—Alina Kirsanova、Dmitry Kirsanov、Julie Nahil，以及许多无缘见面的幕后工作人员。本书的顺利出版，离不开他们以及他们刻苦的专业精神。非常感谢大家。
出版说明
本书中不可避免地会涉及彩色图表。为了提高纸质版读者的阅读体验，读者可以从以下网址下载彩色图表的PDF文件：http://informit.com/title/9780134845623。
出于格式编排的目的，本书许多表中的十进制值已经手动四舍五入，保留两位小数。在一些例子中，Python代码和注释被稍微修改过，所有这些修改都是为了产生正确有效的程序。
本书的在线资源可以从以下网址下载：https://github.com/mfenner1。

上架指导

计算机\人工智能

封底文字

本书面向初学者，使用Python语言以及流行的scikit-learn机器学习库等资源，通过易于实践的项目，帮助读者掌握开发有效的机器学习系统所需的流程、模式和策略。

与包含大量数学公式的书籍不同，本书主要通过故事、图片和代码示例来讲解机器学习的概念和技术，尽量减轻读者在数学方面的负担，但要求读者具备一定的编程基础。书中逐步引导读者完成构建、训练和评估学习系统的每一步，在此过程中，根据需要不断填充机器学习系统的各个组成部分，拓展机器学习工具箱，并尝试探索复杂的新技术。

本书主要内容：

理解机器学习的算法、模型和核心概念。
构建分类器和回归器。
评估机器学习系统的性能。
利用特征工程将原始的粗糙数据平滑成有用的格式。
将多个组件连接到一个系统中，并调整其性能。
将机器学习技术应用于图像处理和文本处理。
将核心概念与神经网络和图模型联系起来。　

译者序

在大数据和人工智能时代，机器学习已经成为各行各业解决问题不可或缺的有效方法。越来越多的人渴望了解和实现机器学习，而传统的机器学习教程一般侧重于借助复杂的数学公式来描述算法，大大提高了机器学习的入门门槛。
本书是一本由浅入深、循序渐进的机器学习教程。与传统的机器学习教程不同，本书没有过度依赖复杂的数学知识，而是以一种讲故事的形式解释概念，将复杂思想分解成简单问题。其特点是非常易于阅读，并且富有深刻见解，引人入胜，从而可以帮助不同知识背景的读者快速提高自己的机器学习知识和技能。本书假设读者具有少量的大学数学知识以及基本的Python程序设计知识。
本书采用机器学习领域的主流编程语言Python，使用最流行的scikit-learn机器学习库以及其他相关库，通过实际的机器学习项目，帮助读者掌握机器学习的理论概念和实现过程。本书提供的实践资源可以指导读者学习，以帮助读者快速并且全面地入门。书中阐述的所有模式、策略、陷阱和疑难杂症，都适用于实际工作中所要构建、训练和使用的机器学习系统。
本书主要包括以下四个部分：
第一部分包括第1章到第4章。主要阐述有关机器学习的基本概念，重点阐述基本分类器和回归器的构建、训练和评估。
第二部分包括第5章到第7章。主要阐述机器学习系统的通用评估技术，并使用通用评估技术对基本分类器和回归器进行性能评估。
第三部分包括第8章到第11章。主要阐述机器学习系统的重要学习技术工具库，如其他分类和回归技术、特征工程。第11章讨论了如何构建机器学习管道，以及通过调整超参数改进机器学习系统的性能。
第四部分包括第12章到第15章。主要介绍机器学习的最新技术，包括组合机器学习模型、自动化特征工程模型，并将机器学习应用于图像和文本两个特定领域。第15章简单地介绍了神经网络和图形模型这两个机器学习前沿技术。
本书由华东师范大学江红、余青松和余靖共同翻译。衷心感谢本书的编辑曲熠老师，她积极地帮我们筹划翻译事宜并认真审阅译稿。翻译也是一种再创造，同样需要艰辛的付出，感谢朋友、家人以及同事的理解和支持。感谢我们的研究生刘映君、余嘉昊、刘康、钟善毫、方宇雄、唐文芳、许柯嘉等同学对本译稿的认真通读和指正。在本书翻译的过程中，我们力求忠于原著，但由于译者学识有限，且本书涉及的领域较广，故书中的不足之处在所难免，敬请诸位同行、专家和读者指正。

江　红　余青松　余　靖
2021年11月

推荐序

从数据中学习和获取模式的方法正在改变着世界，而这种研究方法目前通常被称为统计学、数据科学、机器学习或者人工智能。几乎所有行业都已经（或者说很快就会）被机器学习所覆盖。尽管大多数人的注意力都聚焦在软件方面，但硬件和软件的共同发展正在推动这一领域快速发展。
虽然许多程序设计语言，包括R、C/C++、FORTRAN和GO等，都可以用于机器学习，但事实证明Python是最流行的机器学习语言。这在很大程度上得益于scikit-learn机器学习库。该机器学习库不但可以轻松地训练大量不同的模型，还可以用于特征工程（feature engineering）、评估模型的质量，以及对新的数据进行评分等。scikit-learn库已经迅速成为Python最重要和最强大的软件库之一。
虽然具备高等数学知识是机器学习的基础，但即使在缺少系统化的微积分和矩阵代数等背景知识的前提下，也完全可以训练复杂的模型。对于许多人而言，通过程序设计而不是学习数学知识的方式，可以更容易掌握机器学习技能。这也正是本书的目标：将Python作为机器学习的工具，然后根据需要补充一些数学知识。对于迫切想要学习机器学习的读者而言，本书为他们敞开了机器学习的大门。本书的形式与R for Everyone和Pandas for Everyone类似。
作者Mark E.Fenner多年来一直致力于与不同背景的人交流有关科学和机器学习的概念，从而练就了将复杂的思想分解成简单问题的能力。这些经历使作者能够以一种讲故事的形式解释概念，同时尽量减少使用枯燥的术语，并提供具体的实例，书中的特点是非常易于阅读，书中还提供了大量的程序代码，以便读者可以在自己的计算机上进行编程练习。
由于越来越多的人渴望了解和实现机器学习，因此有必要提供实践资源来指导读者学习，以帮助读者快速并且全面地入门。Mark E.Fenner的教程富有深刻见解，并且引人入胜，正好满足了这一学习需求。正如书名Machine Learning with Python for Everyone，本书可以帮助各种具备不同知识背景的人士快速掌握机器学习知识和技能，从而大大增加他们踏足机器学习这一重要领域的机会。

Jared Lander
丛书编辑

图书目录

译者序
推荐序
前言
作者简介
第一部分　机器学习入门
第1章　机器学习概论 2
1.1　欢迎来到机器学习的世界 2
1.2　范围、术语、预测和数据 3
1.2.1　特征 4
1.2.2　目标值和预测值 5
1.3　让机器开始机器学习 6
1.4　学习系统举例 8
1.4.1　预测类别：分类器举例 8
1.4.2　预测值：回归器举例 9
1.5　评估机器学习系统 10
1.5.1　准确率 10
1.5.2　资源消耗 11
1.6　创建机器学习系统的过程 12
1.7　机器学习的假设和现实 13
1.8　本章参考阅读资料 15
1.8.1　本书内容 15
1.8.2　章节注释 16
第2章　相关技术背景 18
2.1　编程环境配置 18
2.2　数学语言的必要性 18
2.3　用于解决机器学习问题的软件 19
2.4　概率 20
2.4.1　基本事件 21
2.4.2　独立性 22
2.4.3　条件概率 23
2.4.4　概率分布 24
2.5　线性组合、加权和以及点积 27
2.5.1　加权平均 29
2.5.2　平方和 31
2.5.3　误差平方和 32
2.6　几何视图：空间中的点 33
2.6.1　直线 33
2.6.2　直线拓展 37
2.7　表示法和加1技巧 41
2.8　渐入佳境：突破线性和非线性 42
2.9　NumPy与“数学无所不在” 45
2.10　浮点数问题 49
2.11　本章参考阅读资料 50
2.11.1　本章小结 50
2.11.2　章节注释 51
第3章　预测类别：分类入门 52
3.1　分类任务 52
3.2　一个简单的分类数据集 53
3.3　训练和测试：请勿应试教育 55
3.4　评估：考试评分 58
3.5　简单分类器#1：最近邻分类器、远距离关系和假设 59
3.5.1　定义相似性 60
3.5.2　k?-最近邻中的k 61
3.5.3　答案组合 61
3.5.4　k?-最近邻、参数和非参数方法 61
3.5.5　建立一个k?-最近邻分类模型 62
3.6　简单分类器#2：朴素贝叶斯分类器、
　概率和违背承诺 64
3.7　分类器的简单评估 66
3.7.1　机器学习的性能 66
3.7.2　分类器的资源消耗 67
3.7.3　独立资源评估 73
3.8　本章参考阅读资料 77
3.8.1　局限性和尚未解决的问题 77
3.8.2　本章小结 77
3.8.3　章节注释 77
3.8.4　练习题 79
第4章　预测数值：回归入门 80
4.1　一个简单的回归数据集 80
4.2　最近邻回归和汇总统计 82
4.2.1　中心度量方法：中位数和均值 83
4.2.2　构建一个k?-最近邻回归模型 85
4.3　线性回归和误差 86
4.3.1　地面总是不平坦的：为什么需要斜坡 86
4.3.2　倾斜直线 89
4.3.3　执行线性回归 91
4.4　优化：选择最佳答案 92
4.4.1　随机猜测 92
4.4.2　随机调整 93
4.4.3　智能调整 94
4.4.4　计算的捷径 94
4.4.5　线性回归的应用 95
4.5　回归器的简单评估和比较 95
4.5.1　均方根误差 95
4.5.2　机器学习的性能 96
4.5.3　回归过程中的资源消耗 96
4.6　本章参考阅读资料 98
4.6.1　局限性和尚未解决的问题 98
4.6.2　本章小结 99
4.6.3　章节注释 99
4.6.4　练习题 99
第二部分　通用评估技术
第5章　机器学习算法的评估和比较分析 102
5.1　评估和大道至简的原则 102
5.2　机器学习阶段的术语 103
5.2.1　有关机器的重新讨论 104
5.2.2　更规范的阐述 106
5.3　过拟合和欠拟合 109
5.3.1　合成数据和线性回归 109
5.3.2　手动操控模型的复杂度 111
5.3.3　金凤花姑娘（“恰到好处”原则）：可视化过拟合、欠拟合和“最佳拟合” 112
5.3.4　简单性 115
5.3.5　关于过拟合必须牢记的注意事项 116
5.4　从误差到成本 116
5.4.1　损失 116
5.4.2　成本 117
5.4.3　评分 118
5.5　（重新）抽样：以少胜多 119
5.5.1　交叉验证 119
5.5.2　分层抽样 122
5.5.3　重复的训练-测试集拆分 124
5.5.4　一种更好的方法和混排 127
5.5.5　留一交叉验证 131
5.6　分解：将误差分解为偏差和方差 132
5.6.1　数据的方差 133
5.6.2　模型的方差 133
5.6.3　模型的偏差 134
5.6.4　结合所有的因素 134
5.6.5　偏差-方差权衡示例 135
5.7　图形可视化评估和比较 139
5.7.1　学习曲线：到底需要多少数据 139
5.7.2　复杂度曲线 141
5.8　使用交叉验证比较机器学习模型 143
5.9　本章参考阅读资料 144
5.9.1　本章小结 144
5.9.2　章节注释 144
5.9.3　练习题 146
第6章　评估分类器 147
6.1　基线分类器 147
6.2　准确率以外：分类器的其他度量指标 149
6.2.1　从混淆矩阵中消除混淆 151
6.2.2　错误的方式 151
6.2.3　基于混淆矩阵的度量指标 152
6.2.4　混淆矩阵编码 154
6.2.5　处理多元类别：多元类别平均 156
6.2.6　F1分数 158
6.3　ROC曲线 159
6.3.1　ROC模式 161
6.3.2　二元分类ROC 162
6.3.3　AUC：（ROC）曲线下的面积 165
6.3.4　多元分类机器学习模型、“一对其他”和ROC 166
6.4　多元分类的另一种方法：“一对一” 168
6.4.1　“一对一”方法 168
6.4.2　多元分类AUC第二部分：寻找单一值 170
6.5　精确率-召回率曲线 173
6.5.1　关于精确率-召回率权衡的说明 173
6.5.2　构建精确率-召回率曲线 174
6.6　累积响应和提升曲线 174
6.7　更复杂的分类器评估：第二阶段 177
6.7.1　二元分类 177
6.7.2　一个新颖的多元分类问题 182
6.8　本章参考阅读资料 187
6.8.1　本章小结 187
6.8.2　章节注释 187
6.8.3　练习题 189
第7章　评估回归器 190
7.1　基线回归器 191
7.2　回归器的其他度量指标 192
7.2.1　创建自定义的评估指标 192
7.2.2　其他内置的回归度量指标 193
7.2.3　R2 194
7.3　误差图和残差图 199
7.3.1　误差图 199
7.3.2　残差图 202
7.4　标准化初探 205
7.5　使用更复杂的方法评估回归系数：第二阶段 209
7.5.1　多个度量指标的交叉验证结果 210
7.5.2　交叉验证结果汇总 213
7.5.3　残差 214
7.6　本章参考阅读资料 216
7.6.1　本章小结 216
7.6.2　章节注释 216
7.6.3　练习题 218
第三部分　更多方法和其他技术
第8章　更多分类方法 220
8.1　重温分类知识 220
8.2　决策树 222
8.2.1　树构建算法 224
8.2.2　让我们开始吧：决策树时间 227
8.2.3　决策树中的偏差和方差 230
8.3　支持向量分类器 230
8.3.1　执行支持向量分类器 233
8.3.2　SVC中的偏差和方差 236
8.4　逻辑回归 238
8.4.1　投注几率 239
8.4.2　概率、几率和对数几率 241
8.4.3　实现操作：逻辑回归版本 245
8.4.4　逻辑回归：空间奇异性 247
8.5　判别分析 248
8.5.1　协方差 249
8.5.2　方法 259
8.5.3　执行判别分析 260
8.6　假设、偏差和分类器 262
8.7　分类器的比较：第三阶段 264
8.8　本章参考阅读资料 267
8.8.1　本章小结 267
8.8.2　章节注释 267
8.8.3　练习题 270
第9章　更多回归方法 271
9.1　惩罚框中的线性回归：正则化 272
9.1.1　正则化回归概述 272
9.1.2　执行正则化回归 276
9.2　支持向量回归 277
9.2.1　铰链损失 277
9.2.2　从线性回归到正则化回归再到支持向量回归 280
9.2.3　实践应用：支持向量回归风格 282
9.3　分段常数回归 282
9.3.1　实施分段常数回归器 284
9.3.2　模型实现的一般说明 285
9.4　回归树 287
9.5　回归器比较：第三阶段 288
9.6　本章参考阅读资料 291
9.6.1　本章小结 291
9.6.2　章节注释 291
9.6.3　练习题 292
第10章　手动特征工程：操作数据的乐趣和意义 293
10.1　特征工程的术语和动机 293
10.1.1　为什么选择特征工程 294
10.1.2　何时开始特征工程 294
10.1.3　特征工程是如何发生的 296
10.2　特征选择和数据简化：清除垃圾 296
10.3　特征缩放 297
10.4　离散化 300
10.5　分类编码 303
10.5.1　数据的编码技术 303
10.5.2　编码的另一种方式以及无截距的奇怪情况 306
10.6　关系和相互作用 312
10.6.1　手动特征构造 312
10.6.2　相互作用 314
10.6.3　使用转换器添加特征 319
10.7　对输入空间和目标的相关操作 320
10.7.1　对输入空间的相关操作 321
10.7.2　对目标的相关操作 323
10.8　本章参考阅读资料 325
10.8.1　本章小结 325
10.8.2　章节注释 326
10.8.3　练习题 326
第11章　调整超参数和管道技术 328
11.1　模型、参数、超参数 329
11.2　调整超参数 330
11.2.1　关于计算机科学和机器学习术语的说明 331
11.2.2　关于完整搜索的示例 331
11.2.3　使用随机性在大海捞针 337
11.3　递归的神奇世界：嵌套交叉验证 337
11.3.1　重温交叉验证 338
11.3.2　作为模型的网格搜索 339
11.3.3　交叉验证中嵌套的交叉验证 340
11.3.4　关于嵌套交叉验证的注释 341
11.4　管道技术 344
11.4.1　一个简单的管道 344
11.4.2　更复杂的管道 346
11.5　管道和调参相结合 347
11.6　本章参考阅读资料 348
11.6.1　本章小结 348
11.6.2　章节注释 348
11.6.3　练习题 349
第四部分　高级主题
第12章　组合机器学习模型 352
12.1　集成 352
12.2　投票集成 354
12.3　装袋法和随机森林 355
12.3.1　自举 355
12.3.2　从自举到装袋法 358
12.3.3　随机森林 360
12.4　提升方法 362
12.4.1　提升方法的核心理念 362
12.4.2　提升方法实现细节 363
12.5　各种树集成方法的比较 365
12.6　本章参考阅读资料 368
12.6.1　本章小结 368
12.6.2　章节注释 368
12.6.3　练习题 370
第13章　提供特征工程的模型 371
13.1　特征选择 373
13.1.1　基于度量特征的“单步筛选”方法 374
13.1.2　基于模型的特征选择 384
13.1.3　将特征选择与机器学习管道相集成 387
13.2　基于核的特征构造 389
13.2.1　核激励因子 389
13.2.2　手动核方法 394
13.2.3　核方法和核选项 398
13.2.4　核化支持向量分类器：支持向量机 401
13.2.5　关于SVM的建议和示例 403
13.3　主成分分析：一种无监督技术 404
13.3.1　预热：中心化数据 405
13.3.2　寻找不同的最佳线路 406
13.3.3　第一次执行PCA 407
13.3.4　PCA的内部原理 410
13.3.5　结局：对一般PCA的评论 415
13.3.6　核心PCA和流形方法 415
13.4　本章参考阅读资料 419
13.4.1　本章小结 419
13.4.2　章节注释 419
13.4.3　练习题 424
第14章　领域特征工程：领域特定的机器学习 425
14.1　处理文本 426
14.1.1　对文本进行编码 427
14.1.2　文本学习的示例 432
14.2　聚类 434
14.3　处理图像 436
14.3.1　视觉词袋 436
14.3.2　图像数据 437
14.3.3　端到端系统 438
14.3.4　全局视觉词袋转换器的完整代码 444
14.4　本章参考阅读资料 447
14.4.1　本章小结 447
14.4.2　章节注释 447
14.4.3　练习题 448
第15章　连接、扩展和未来的研究方向 450
15.1　优化 450
15.2　基于原始数据的线性回归 453
15.2.1　线性回归的方法和分析 453
15.2.2　线性回归的可视化视图 456
15.3　基于原始数据构建逻辑回归 456
15.3.1　采用0-1编码的逻辑回归 458
15.3.2　加1减1编码的逻辑回归 459
15.3.3　逻辑回归的可视化视图 461
15.4　基于原始数据的SVM 461
15.5　神经网络 462
15.5.1　线性回归的神经网络视图 463
15.5.2　逻辑回归的神经网络视图 465
15.5.3　超越基本神经网络 466
15.6　概率图模型 467
15.6.1　抽样 468
15.6.2　线性回归的概率图模型视图 469
15.6.3　逻辑回归的概率图模型视图 472
15.7　本章参考阅读资料 474
15.7.1　本章小结 474
15.7.2　章节注释 474
15.7.3　练习题 475
附录　mlwpy.py程序清单 476