参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 360

开本 : 16

原书名 : Practical Machine Learning Cookbook

原出版社: Packt Publishing Ltd.

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

机器学习应用遍及人工智能的各个领域，是众多数学科学家需要学习的内容。本书第一部分提供了一个相当复杂的机器学习系统，以帮助读者提高其效率。第二部分重点介绍了三个不同的基于现实世界的数据的案例研究，并提供相应解决方案。全书通过知识介绍，使读者了解收集数据、准备使用数据、训练模型、评估模型的性能，以及改进模型的性能的方法；通过对实际问题解决的讲解，帮助读者获得处理机器学习问题的经验。

图书特色

从数据科学家视角探索机器学习现实应用所面临的挑战并提供有效解决方案

图书前言

当今世界，数据已经成为新的“价值金矿”并以指数级的速度增长着。这种增长既包括现存数据的增长，也包括新数据的增长，这些新的数据以结构化和非结构化的形式展现，并来源于社交媒体、互联网、文档文献以及物联网等多种多样的数据源。数据流必须实时地收集、处理、分析，并最终展现出来以确保数据的使用者能够在如今快速变化的环境中做出理性且明智的决定。机器学习技术将待解决问题的上下文信息应用于这些数据上，用统计学技术确保不断快速到达的复杂数据能够以科学的方式加以分析。并利用机器学习算法从数据中进行迭代学习，发现数据中的隐藏模式和规律。机器学习的这种迭代学习的模式是非常重要的，正因如此，当机器学习模型被暴露在新的数据中时，它们才能从新的数据集中独立地适应和学习以产出可靠的结论。
我们将首先介绍本书中包含的多种不同的机器学习主题，随后，基于现实世界的问题在不同的章节中对各个主题进行一一探讨，例如分类、聚类、模型选择和正则化、非线性问题、监督学习、无监督学习、增强学习、结构化预测、神经网络、深度学习，还有最后的案例研究。本书的机器学习算法以R语言作为编程语言。本书适用于R语言的初学者，但是熟悉R语言对理解和使用本书的代码肯定是会有所帮助的。
你将学习如何合理地决定使用哪类算法以及如何应用这些算法得到最佳的效果。如果你想要对图像、文字、语音或者其他形式的数据都建立有意义的多功能的应用，本书绝对会成为你的得力助手。
本书的主要内容
第1章涵盖了机器学习的各种概念。本章使读者初步了解本书涵盖的各个主题。
第2章包括以下算法：判别函数分析、多元逻辑回归、Tobit回归、泊松回归。
第3章包括以下主题和算法：层次聚类、二进制聚类、k均值聚类。
第4章包括以下主题和算法：压缩方法、降维方法和主成分分析。
第5章包括以下主题和算法：广义加性模型、平滑样条、局部回归。
第6章包括以下主题和算法：决策树学习、朴素贝叶斯、随机森林、支持向量机、随机梯度下降。
第7章包括以下主题和算法：自组织映射和矢量量化。
第8章包括以下主题和算法：马尔可夫链、蒙特卡洛模拟。
第9章包括以下主题和算法：隐马尔可夫模型。
第10章包括以下主题和算法：神经网络。
第11章包括以下主题和算法：递归神经网络。
第12章包括世界银行数据分析。
第13章包括再保险合同定价。
第14章包括用电量预测。
本书的重点
本书的重点是用R语言构建基于机器学习的应用。我们已经使用R语言构建过各种解决方案。我们的重点是利用R语言库和函数以最佳方式来克服现实世界的挑战。我们尽量保持所有代码的友好性和可读性。我们认为这将使读者能够很容易地理解代码，并在不同的场景中随时使用它。
本书的目标读者
本书是为想构建实用的基于机器学习的应用的专业人士，以及统计、数据分析、机器学习、计算机科学或其他专业的学生和专业人士准备的。本书适用于R语言的初学者，但是熟悉R语言对理解和使用本书的代码肯定是会有所帮助的。对于那些希望在现有技术栈中探索机器学习技术的有经验的R语言程序员来说，本书也将是非常有用的。
特殊章节
在本书中，你将频繁看到如下小节：准备工作和具体实施步骤。
为了更加清晰地说明怎样完成一个机器学习方法，我们使用了如下特殊章节。
准备工作
该节告诉你机器学习方法需要哪些准备，并描述了如何设置该机器学习方法所要求的软件或其他先决条件。
具体实施步骤
该节包含了机器学习方法的各个具体步骤。
下载示例代码
本书的代码位于GitHub上，读者可从https://github.com/PacktPublishing/Practical-Machine-Learning-Cookbook下载。
下载本书的彩图
本书还为你提供了一个PDF文件，其中包含了本书的彩图。这些彩图将帮助你更好地理解输出的变化。你能够从地址https://www.packtpub.com/sites/default/files/downloads/PracticalMachineLearningCookbook_ColorImages.pdf下载该文件。

上架指导

计算机/人工智能/机器学习

封底文字

机器学习已经变成了新的“价值金矿”。当今世界面临的一个重要挑战是从已有遗漏数据以及新产生的结构和非结构化数据中挖掘数据的价值。使用机器学习算法对这些数据进行探索、理解、分析和预测的复杂度是另一个挑战。本书将帮助你从一名数据科学家的角度解决这些挑战。基于现实中的挑战，不同数据科学技术的应用及其在不同真实数据集上的应用将帮助你学习不同情景下的各种技术。
本书前半部分将逐一讲解非常复杂的机器学习系统中的相关技术。你将从中学到如何利用机器学习的技术去探索新应用的领域并提升其效率。具体包括分类、神经网络、无监督和监督学习、深度学习、增强学习等方面的技术。
本书后半部分集中介绍三个不同的机器学习案例。所有案例都基于真实数据，并有针对性地提供了机器学习的解决方案。

通过阅读本书，你将：
深入理解如何应用机器学习技术
逐一实现高级的机器学习技术
解决你所遇到的现实问题，使你的应用产生更为优化的结果
针对机器学习系统，获得解决问题的实践经验
理解收集数据、数据预处理、训练模型、评估模型性能和改进模型性能的方法

译者序

2015年以来，AI、机器学习、深度学习等概念无疑成为整个互联网行业甚至整个社会最火热的概念。无论是Alpha Go以摧枯拉朽之势战胜所有人类选手，宣告着“围棋之神”的降临；还是Tesla、Google、百度等互联网巨头在自动驾驶领域投入重金以抢夺这个AI时代最大的行业风口；抑或是Geoff Hinton、吴恩达、李飞飞等机器学习领域的著名学者纷纷走出校园，投奔业界。这些都意味着机器学习早已不再是仅仅被象牙塔中的学者教授们谈及的冷门学科，而是终将走到每个人的身边，影响每个人的生活，甚至改变整个社会生产生活方式的科技革命。
对于所有的IT行业从业者来说，机器学习也是一场思维方式的变革。所有主流的互利网公司甚至是传统行业的优秀公司都越来越重视数据的重要性，通过算法和机器学习模型来挖掘数据中的价值，以驱动公司业务的进一步增长。与此同时，越来越多的从业者转型成数据科学家、算法工程师，走在这场变革的最前沿。对于刚刚走出校园的应届生来说，无论是计算机相关专业，还是数学、物理等基础专业，抑或是生物、化学等应用学科专业，也都纷纷拥抱这场由数据和算法带来的革命，成为AI业界的新鲜血液。
我是一名有五年工作经验的算法工程师，在我工作的计算广告领域，也切身感受到行业发展之快，变化之迅速，以及人才需求之迫切。2015年之前，算法工程师这个“title”还是各个公司的小众群体，但时至2017年，优秀的算法工程师已经成为各大公司最火热也最紧缺的职位，而拥有优秀算法工程师的公司也因此大放异彩，像今日头条的推荐，滴滴的运筹规划，阿里的广告算法，都让其公司成为各自领域当之无愧的巨头。但在招聘和工作的过程中，我也发现了诸多不好的现象，许多工程师和应届生急于转行，忽视了算法和统计学的基础，也有很多算法工程师对于算法和模型的态度不够严谨，知其然而不知其所以然，不能将公司业务与算法更好地结合起来，这些都成为阻碍算法工程师成长的绊脚石。这也是我翻译本书的原因和动力，一本将机器学习、统计学基础和实际数据、实际分析工具结合起来的优秀参考书，能够极大提高我们的理论功底和动手水平。我自己在阅读原著并完成原著实例的过程中受益匪浅，也希望通过翻译本书让更多的从业者、有志于算法领域的在校生受益。
本书作者在机器学习领域拥有超过11年的从业经历，并在量化投资、图像处理、自然语言处理等多个领域拥有丰富的研究和开发经验。从他的书中，你明显可以发现“理论联系实际”的特点。无论是使用隐马尔可夫模型构建量化交易策略，还是使用决策树模型构建疾病护理体系，在介绍每种模型时，作者都会结合实际问题，用R语言实现并进行多维度的分析。在翻译本书的时候，我也感觉到读者需要颇深的统计学背景，力图用更偏统计学的语言描述算法模型，所使用的R语言也更多流行于学术科研和数据分析的领域。对于很多计算机背景的读者来说，本书是一个很好地熟悉统计学知识和R语言的机会。
本书是我与清华大学计算机系博士曹建勋一同翻译的，我们的合作非常愉快。最后，感谢本书的策划编辑张锡鹏和责任编辑缪杰在翻译过程中提供的诸多帮助。
由于译者水平有限，译文难免有错误之处，欢迎读者批评指正。

王喆
2017年10月31日于北京

图书目录

译者序
前言
第1章　机器学习引言 1
1.1　什么是机器学习 1
1.2　分类方法概述 2
1.3　聚类方法概述 2
1.4　监督学习概述 3
1.5　无监督学习概述 4
1.6　增强学习概述 4
1.7　结构化预测概述 5
1.8　神经网络概述 5
1.9　深度学习概述 6
第2章　分类 7
2.1　引言 7
2.2　判别函数分析：地下卤水地质化学测量 8
2.3　多元逻辑回归：理解学生的课程计划选择 15
2.4　Tobit回归：评估学生的学术能力 20
2.5　泊松回归：理解加拉帕戈斯群岛现存物种 27
第3章　聚类 38
3.1　引言 38
3.2　层次聚类：世界银行样本数据集 39
3.3　层次聚类：1999～2010年
亚马逊雨林的烧毁情况 44
3.4　层次聚类：基因聚类 55
3.5　二进制聚类：数学测验 68
3.6　k均值聚类：欧洲各国蛋白质消耗量 75
3.7　k均值聚类：食品 80
第4章　模型选择和正则化 86
4.1　引言 86
4.2　压缩方法：每天消耗的卡路里 87
4.3　降维方法：Delta航空公司航空队 100
4.4　主成分分析：理解世界菜肴 109
第5章　非线性 114
5.1　广义加性模型：衡量新西兰的家庭收入 114
5.2　平滑样条：理解汽车和速度 119
5.3　局部回归：理解干旱警告和影响 129
第6章　监督学习 136
6.1　引言 136
6.2　决策树学习：对胸痛患者的预先医疗护理指示 137
6.3　决策树学习：基于收入的房地产价值分布 145
6.4　决策树学习：预测股票走势方向 154
6.5　朴素贝叶斯：预测股票走势方向 170
6.6　随机森林：货币交易策略 184
6.7　支持向量机：货币交易策略 193
6.8　随机梯度下降：成人收入 201
第7章　无监督学习 208
7.1　引言 208
7.2　自组织映射：可视化热图 209
7.3　矢量量化：图像聚类 212
第8章　增强学习 217
8.1　引言 217
8.2　马尔可夫链：股票区制转移模型 218
8.3　马尔可夫链：多渠道归因模型 229
8.4　马尔可夫链：汽车租赁代理服务 239
8.5　连续马尔可夫链：加油站的车辆服务 243
8.6　蒙特卡罗模拟：校准Hull-White短期利率 247
第9章　结构化预测 257
9.1　引言 257
9.2　隐马尔可夫模型：欧元和美元 257
9.3　隐马尔可夫模型：区制检测 263
第10章　神经网络 270
10.1　引言 270
10.2　为S&P 500建模 270
10.3　衡量失业率 278
第11章　深度学习 292
11.1　引言 292
11.2　循环神经网络：预测周期信号 292
第12章　案例研究：探索世界银行数据 299
12.1　引言 299
12.2　探索世界银行数据 299
第13章　案例研究：再保险合同定价 316
13.1　引言 316
13.2　再保险合同定价 316
第14章　案例研究：用电量预测 329
14.1　引言 329
14.2　用电量测量 329