首页>参考读物>计算机科学与技术>人工智能

机器学习实践:基于Python进行数据分析
作者 : [沙]阿卜杜勒哈密特·苏巴西(Abdulhamit Subasi) 著
译者 : 陆小鹿 何楚 蒲薇榄 译
出版日期 : 2021-12-24
ISBN : 978-7-111-69818-0
定价 : 139.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 456
开本 : 16
原书名 : Practical Machine Learning for Data Analysis Using Python
原出版社: Academic Press
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

本书是一本创建真实世界智能系统的问题解决指南。提供了一种包含概念、实践、实际示例和代码示例的综合方法,教给读者理解和解决机器学习不同问题所需的重要技能。通过介绍Python机器学习生态系统中的真实案例研究,教授成为一个成功的实践者所必需的机器学习技术。本书还侧重于机器学习的基础知识,以解决不同领域的真实世界案例,包括生物医学信号分析、医疗保健、安全、经济和金融。此外,它涵盖了广泛的机器学习模型,包括回归、分类和预测。

图书特色

内容丰富,介绍包括原则、过程、实际案例以及代码在内的智能系统框架
结合实践,以大量生物医学信号、医疗保健数据和金融数据的处理为示例

图书前言

机器学习解决方案的飞速发展及其在工业界的广泛应用极大地推动了其从不同领域中观察(学习)数据,从而学习到复杂模型解决实际问题的能力。通常,创造出高效的学习模型并且得到可靠的结果需要付出大量的时间和成本。掌握项目的主要概念一般可以通过以下方式完成:构建可靠的数据流程管道,通过特征提取及选择进行数据分析和可视化,建模。因此,对于一个可靠的机器学习解决方案而言,不仅包括机器学习模型开发框架本身,还包括成功的预处理模块、可视化、系统集成以及健全的运行时部署和维护设定。Python是一种具有多种功能的创新编程语言,其简单的实现和集成、活跃的开发者社区以及不断成长的机器学习生态系统,对于机器学习的发展及广泛应用做出了极大的贡献。
技术的不断进步使得智能组织以及数据驱动的企业成为现实。如今,当数据成了重中之重,市场对于机器学习以及数据科学从业人员的需求十分庞大。实际上,我们正面临着数据科学家以及机器学习专家的短缺。从事21世纪最热门的职业毫无疑问要在这个领域有专家级的经验。
机器学习技术是一系列计算机算法,包括人工神经网络、k近邻算法、支持向量机、决策树算法以及深度学习。机器学习当前应用于许多领域,尤其是经济学、安全、医疗保健、生物医学以及生物医学工程。本书介绍如何使用机器学习技术来分析这些领域的数据。
本书作者有很多使用Python及其机器学习生态系统来解决实际问题的经验。本书旨在提升读者的技能水平,使大家能够创建实际的机器学习解决方案。同时,本书亦是一本构建实际智能系统的问题解决指南,它提供了一个包括原则、过程、实际案例以及代码的系统框架。同时,本书也包括读者在理解和解决不同的机器学习问题时所需的重要技能。
对于正在进行机器学习开发的读者而言,本书是一本绝佳的参考,因为书中包含了众多使用Python机器学习环境进行开发的实际案例。本书旨在为读者使用机器学习知识解决不同领域的实际问题打下坚实基础,这些实际问题涉及生物医学信号分析、医疗保健、安全、经济以及金融领域。此外,本书还介绍了一系列机器学习模型,包括回归、分类、聚类以及预测等方向。
本书共七章。第1章主要介绍基于机器学习的数据分析。第2章概述一些数据预处理技术,例如特征提取、转换、特征选择以及降维。第3章概述一些常见的用于预报、预测和分类的机器学习技术,例如朴素贝叶斯、k近邻、人工神经网络、支持向量机、决策树、随机森林、装袋、提升、堆叠、投票、深度神经网络、循环神经网络和卷积神经网络。第4章主要呈现一些医疗保健领域中的分类案例,包括常用于生物医学信号分析和识别的技术,例如心电图(ECG)、脑电图(EEG)和肌电图(EMG)信号处理。此外,第4章还会介绍一些医疗数据分类案例,例如人体行为识别,基于微阵列基因表达的癌症、乳腺癌、糖尿病和心脏病检测等。第5章主要介绍一些实际应用,包括入侵检测、钓鱼网站检测、垃圾邮件检测、信用评分、信用卡欺诈检测、手写数字识别、图像分类和文本分类。第6章主要介绍一些回归技术的案例,例如股市分析、经济变量预测、电力负荷预测、风速预测、旅游需求预测以及房价预测。第7章包括一些无监督学习技术的案例(聚类)。
本书主要目的是帮助包括IT专业人员、分析师、开发人员、数据科学家和工程师在内的广大读者掌握解决实际问题的能力。此外,本书也可作为数据科学和机器学习领域的研究生教材。同时,本书还能帮助研究人员建立起使用机器学习技术进行数据分析的基础。另外,本书还将帮助包括研究人员、专业人士、学者和一系列学科的研究生在内的广大读者,尤其是那些刚开始寻求在生物医学信号分析、医疗数据分析、金融和经济数据预测以及计算机安全等领域应用机器学习技术的读者。
执行本书所提供的代码示例需要在macOS、Linux或Microsoft Windows上安装Python 3.x或更高版本。本书中的代码示例经常使用Python的基本库,例如SciPy、NumPy、scikit-learn、matplotlib、pandas、OpenCV、TensorFlow和Keras。

上架指导

计算机\人工智能

封底文字

本书是一本问题解决手册,可用于指导读者创建真实世界的智能系统。书中采用概念、实践和实例代码相结合的方式,综合全面地讲解相关主题,教给读者使用机器学习解决不同问题时所需的关键技能。
本书还通过Python机器学习生态系统中的真实世界示例,向读者介绍成为一名成功的实践者所需的机器学习技术,并且侧重于引导读者构建能够解决不同领域的不同现实问题的机器学习知识基础,这些领域包括生物医学信号分析、医疗保健、安防、经济和金融等。此外,本书还介绍了包括回归、分类和预测在内的广泛的机器学习模型。

本书特色
全面概述机器学习工具在数据分析等学科领域的应用。
阐述如何将机器学习技术应用于生物医学信号、医疗保健数据和金融数据。
探索重要的分类和回归算法以及其他机器学习技术。
解释如何使用Python进行数据提取、操作和探索,以及如何可视化跨多个维度的数据并提取有用的特征。

译者序

作为一名IT行业的从业者,最近几年越来越感受到机器学习技术在产业上的应用不断深入;而作为一名IT产品的用户,也越来越感受到机器学习技术在各种App中的应用不断普及,比如内容推荐、语音识别等。可以预见人工智能在未来的应用将更加广泛。
随着算力的提升以及数据规模的增加,机器学习逐渐被应用于许多行业领域。如何将机器学习应用于实践中是本书所关注的话题。有别于其他理论性较强的书籍,本书从实际用例出发,介绍诸如聚类、分类等基本算法,并且每章都有相关的代码示例。同时,本书更强调机器学习应用的完整流程,因此,除机器学习算法之外,还介绍了许多实用的预处理、特征工程以及结果评估的方法。
对于大众来说,机器学习既触手可及又充满神秘;对于专业人士来说,机器学习是热门的领域也是基础的技能。而本书可以很好地兼顾各类读者的需求,不仅非常详尽且全面地介绍机器学习的基础知识,而且通过丰富的Python示例代码演示在不同场景中的使用。刚入门的读者可以从基础入手,了解常规的理论知识。具有一定经验的读者或者对某些领域非常感兴趣的读者,可以在相应的章节深挖下去,比如,某些章节对分类算法进行了非常全面的讲解,并提供不同场景的算法选型和实战介绍。此外,本书中的代码大多源自scikit-learn、Keras等Python机器学习库中的经典示例,采用的数据集也都非常权威。
第1章概述机器学习的应用场景及一些关键技术,包括机器学习框架流程(数据收集、预处理、特征提取及缩放等)和基本的模型评估技术。同时,本章还介绍主流的基于Python语言的机器学习环境。
第2章主要介绍数据的预处理方法,包括基本的特征类型和基础的特征转换方法,例如阈值化、离散化和归一化等,同时介绍通过特征的构造、选择和消除等方式对特征进行降维。
第3章介绍机器学习的基本概念以及常用的算法模型,较为全面地囊括了监督学习和无监督学习所涉及的算法。同时,使用scikit-learn、TensorFlow、Keras等Python机器学习库对算法的实践进行举例说明。通过本章的学习,读者能够对机器学习方法的全貌有所了解。
第4章主要介绍分类算法在医疗保健领域的应用,尤其是如何使用分类算法预测各类病症。例如,如何使用分类算法针对EEG信号识别是否患有癫痫。
第5章主要介绍分类算法在其他领域的应用,例如网络安全和银行安全领域的网络入侵检测、钓鱼网站检测、信用卡欺诈检测等,在图像分类和文本分类领域有手写数字识别、文本挖掘等。
第6章介绍回归算法在众多领域的预测应用,包括股价预测、通货膨胀预测、电力负荷预测、风速预测、旅游需求预测、房价预测、单车使用情况预测等。对于每个应用场景,都包含完整的代码示例供读者参考。
第7章介绍聚类算法。聚类算法是无监督学习中的一类重要算法,本章从简单的k均值算法开始,由浅入深,不仅从理论角度介绍不同的聚类方法,并且辅以示例,使读者能够更好地理解并应用这类算法。另外,本章还介绍聚类算法的评估方法以及如何将聚类算法应用于特征选取中。
本书较为适合机器学习实践者阅读。在本书中,算法模型主要通过语言文字和代码示例进行介绍,而不是通过复杂烦琐的公式。通过各章的示例,我们可以更好地了解特定算法的实际应用场景。同时,由于本书所涉及的算法都较为经典,因此初学者也可以通过阅读本书来更好地了解理论知识在实际场景中的应用。
最后,衷心祝愿各位读者愉快地完成本书的学习,并且能够将机器学习适当地应用于现实生活和日常工作中。

陆小鹿 何楚 蒲薇榄
2021年5月18日

图书目录

译者序
前言
致谢
第1章 简介 1
1.1 什么是机器学习 1
1.1.1 为什么需要使用机器学习 2
1.1.2 做出数据驱动决策 3
1.1.3 定义以及关键术语 4
1.1.4 机器学习的关键任务 6
1.1.5 机器学习技术 6
1.2 机器学习框架 6
1.2.1 数据收集 7
1.2.2 数据描述 7
1.2.3 探索性数据分析 7
1.2.4 数据质量分析 8
1.2.5 数据准备 8
1.2.6 数据集成 8
1.2.7 数据整理 8
1.2.8 特征缩放和特征提取 9
1.2.9 特征选择及降维 9
1.2.10 建模 9
1.2.11 选择建模技术 9
1.2.12 构建模型 10
1.2.13 模型评估及调优 10
1.2.14 实现以及检验已经创建的模型 10
1.2.15 监督学习框架 11
1.2.16 无监督学习框架 11
1.3 性能评估 12
1.3.1 混淆矩阵 13
1.3.2 F值分析 14
1.3.3 ROC分析 15
1.3.4 Kappa统计量 15
1.3.5 度量了什么 16
1.3.6 如何度量 17
1.3.7 如何解释估计 17
1.3.8 scikit-learn中的k折交叉验证 18
1.3.9 如何选择正确的算法 18
1.4 Python机器学习环境 18
1.4.1 缺陷 20
1.4.2 缺点 20
1.4.3 NumPy库 20
1.4.4 Pandas 20
1.5 本章小结 21
1.6 参考文献 22
第2章 数据预处理 23
2.1 简介 23
2.2 特征提取和转换 24
2.2.1 特征类型 24
2.2.2 统计特征 25
2.2.3 结构化特征 27
2.2.4 特征转换 28
2.2.5 阈值化和离散化 28
2.2.6 数据操作 28
2.2.7 标准化 29
2.2.8 归一化和校准 33
2.2.9 不完整的特征 34
2.2.10 特征提取的方法 36
2.2.11 使用小波变换进行特征提取 38
2.3 降维 45
2.3.1 特征构造和选择 47
2.3.2 单变量特征选择 48
2.3.3 递归式特征消除 51
2.3.4 从模型选择特征 52
2.3.5 主成分分析 53
2.3.6 增量PCA 57
2.3.7 核PCA 58
2.3.8 邻近成分分析 59
2.3.9 独立成分分析 61
2.3.10 线性判别分析 65
2.3.11 熵 67
2.4 基于聚类的特征提取和降维 68
2.5 参考文献 75
第3章 机器学习技术 77
3.1 简介 77
3.2 什么是机器学习 78
3.2.1 理解机器学习 78
3.2.2 如何让机器学习 78
3.2.3 多学科领域 79
3.2.4 机器学习问题 80
3.2.5 机器学习的目标 80
3.2.6 机器学习的挑战 81
3.3 Python库 81
3.3.1 scikit-learn 81
3.3.2 TensorFlow 83
3.3.3 Keras 84
3.3.4 使用Keras构建模型 84
3.3.5 自然语言工具包 85
3.4 学习场景 87
3.5 监督学习算法 88
3.5.1 分类 89
3.5.2 预报、预测和回归 90
3.5.3 线性模型 90
3.5.4 感知机 98
3.5.5 逻辑回归 100
3.5.6 线性判别分析 102
3.5.7 人工神经网络 105
3.5.8  k近邻 109
3.5.9 支持向量机 113
3.5.10 决策树分类器 118
3.5.11 朴素贝叶斯 123
3.5.12 集成学习 126
3.5.13 bagging算法 127
3.5.14 随机森林 131
3.5.15 boosting算法 136
3.5.16 其他集成方法 146
3.5.17 深度学习 151
3.5.18 深度神经网络 152
3.5.19 循环神经网络 155
3.5.20 自编码器 157
3.5.21 长短期记忆网络 157
3.5.22 卷积神经网络 160
3.6 无监督学习 162
3.6.1 k均值算法 163
3.6.2 轮廓系数 165
3.6.3 异常检测 167
3.6.4 关联规则挖掘 170
3.7 强化学习 170
3.8 基于实例的学习 171
3.9 本章小结 171
3.10 参考文献 172
第4章 医疗保健分类示例 174
4.1 简介 174
4.2 脑电图信号分析 175
4.2.1 癫痫症的预测和检测 176
4.2.2 情绪识别 194
4.2.3 局灶性和非局灶性癫痫EEG信号的分类 201
4.2.4 偏头痛检测 212
4.3 EMG信号分析 217
4.3.1 神经肌肉疾病的诊断 218
4.3.2 假体控制中的EMG信号 225
4.3.3 康复机器人中的EMG信号 232
4.4 心电图信号分析 238
4.5 人类活动识别 247
4.5.1 基于传感器的人类活动识别 248
4.5.2 基于智能手机的人类活动识别 250
4.6 用于癌症检测的微阵列基因表达数据分类 256
4.7 乳腺癌检测 257
4.8 预测胎儿风险的心电图数据分类 260
4.9 糖尿病检测 263
4.10 心脏病检测 267
4.11 慢性肾脏病的诊断 270
4.12 本章小结 273
4.13 参考文献 273
第5章 其他分类示例 277
5.1 入侵检测 277
5.2 钓鱼网站检测 280
5.3 垃圾邮件检测 283
5.4 信用评分 287
5.5 信用卡欺诈检测 290
5.6 使用CNN进行手写数字识别 297
5.7 使用CNN进行Fashion-MNIST图像分类 306
5.8 使用CNN进行CIFAR图像分类 313
5.9 文本分类 321
5.10 本章小结 334
5.11 参考文献 334
第6章 回归示例 337
6.1 简介 337
6.2 股票市场价格指数收益预测 338
6.3 通货膨胀预测 356
6.4 电力负荷预测 358
6.5 风速预测 365
6.6 旅游需求预测 370
6.7 房价预测 380
6.8 单车使用情况预测 395
6.9 本章小结 399
6.10 参考文献 400
第7章 聚类示例 402
7.1 简介 402
7.2 聚类 403
7.2.1 评估聚类输出 404
7.2.2 聚类分析的应用 404
7.2.3 可能的聚类数 405
7.2.4 聚类算法种类 405
7.3 k均值聚类算法 406
7.4 k中心点聚类算法 408
7.5 层次聚类 409
7.5.1 聚集聚类算法 409
7.5.2 分裂聚类算法 412
7.6 模糊c均值聚类算法 416
7.7 基于密度的聚类算法 418
7.7.1 DBSCAN算法 418
7.7.2 OPTICS聚类算法 420
7.8 基于期望最大化的混合高斯模型聚类算法 423
7.9 贝叶斯聚类 426
7.10 轮廓分析 428
7.11 基于聚类的图像分割 430
7.12 基于聚类的特征提取 433
7.13 基于聚类的分类 439
7.14 本章小结 442
7.15 参考文献 442

教学资源推荐
作者: Wesley E.Snyder, Hairong Qi
作者: [印]狄柏丽·班赛尔(Dipali Bansal) 拉什玛·马哈詹(Rashima Mahajan) 著
作者: Wesley E.Snyder, Hairong Qi
作者: [美]马丁 T. 哈根(Martin T. Hagan) 霍华德 B. 德姆斯(Howard B. Demuth) 马克 H. 比勒(Mark H. Beale) 奥兰多·德·赫苏斯(Orlando De Jesús) 著
参考读物推荐
作者: [法]雅斯米娜·贝索伊·塞班(Yasmina Bestaoui Sebbane)著
作者: [印] 纳温·库马尔·马纳西(Navin Kumar Manaswi) 著
作者: 杨强 张宇 戴文渊 潘嘉林 著