数据挖掘:原理与应用
作者 : 丁兆云 周鋆 杜振国 著
出版日期 : 2021-12-13
ISBN : 978-7-111-69630-8
适用人群 : 高校大数据、人工智能等专业的本科生和研究生
定价 : 79.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 303
开本 : 16
原书名 :
原出版社:
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

目前,数据挖掘类课程已成为我国新工科教育的数据科学思维提升课程,成为信息、电子等各类工科专业本科生与研究生的必修课。本书深入浅出地介绍了数据挖掘和数据分析的知识、常用的各类算法;系统梳理与比较各类算法的优缺点与适用场景。本书内容结合作者多年的科研和教学经验,大量案例来自作者的项目和科研成果,不仅适合作为大数据特色类专业的本科生和研究生教材,同时也适合机械、航空等其他工科专业的入门与自学教材,还可作为各专业本科生与研究生考试复习的参考资料。

图书特色

图书前言

随着大数据、人工智能的快速发展,各高校越来越重视大数据相关专业与课程的建设,很多高校开设了大数据学院或数据科学/大数据专业。随着数据科学的普及,数据挖掘逐渐成为一种通用技术,广泛应用于人们社会生活的各个领域,因此掌握数据挖掘的基本概念和技术十分重要。
笔者近年来一直从事数据挖掘领域的研究以及课程的建设,通过将复杂的数据挖掘知识点与实际案例结合,形成了一套以案例为牵引的数据挖掘知识体系,使不同学科背景的本科生、研究生更容易理解和掌握数据挖掘技术。
本书以深入浅出、简要易懂的方式荟萃了数据挖掘的各类算法知识点;系统地梳理和比较了各类算法的优缺点与适用场景;以案例为驱动说明了数据挖掘算法的运用。本书知识点难度适中,适合理工科相关专业的本科生与研究生作为教材使用,也可作为相关领域的科研与工程技术人员的参考书。另外,本书选取了笔者所在高校各类数据挖掘课程的试题,这些试题不仅涵盖数据挖掘经典的知识点,而且涉及互联网公司在招聘数据挖掘、机器学习、人工智能等方向的工程师时的笔试知识点。这些试题覆盖面广、新颖性强,适合本科生与研究生进行考前复习以及应聘笔试和面试时参考。本书的组织结构如下:
第1章阐述为什么要学习数据挖掘、什么是数据挖掘、数据挖掘的主要技术,使读者从整体上把握本书的内容。
第2章从数据的基本概念、基本统计特性、可视化以及相似性计算等方面综合认识数据,让读者知道在真实数据场景中,应该从哪几个方面初步认识数据。
第3章主要包括数据质量的衡量因素、数据预处理的方法以及特征工程的常见方法等内容,让读者知道针对真实的质量不高的数据,如何通过数据预处理与特征工程提高数据质量。
第4章至第11章主要介绍数据分类,将从决策树分类、规则和最近邻分类、回归、支持向量机、神经网络、集成学习以及模型的评价等方面来详细阐述数据分类算法,让读者能够针对实际数据挖掘问题,深入理解数据分类算法,并且灵活运用到实践中。
第12章主要从划分方法、层次方法、密度方法等方面详细阐述数据聚类的算法,让读者能够深入理解聚类算法的原理,掌握算法的应用场景。
第13章主要从Apriori算法、FP-Growth算法、关联分析评估等方面详细阐述关联规则挖掘算法,让读者能够深入理解频繁项挖掘与规则挖掘的原理,熟练运用算法解决大项事物数据库关联规则挖掘的问题。
第14章详细阐述了图数据中的节点影响力评估模型,让读者能够针对实际大型图数据的场景,利用影响力计算模型挖掘图中的关键节点。
第15章主要针对现实中大量的个性化推荐需求,详细阐述基于内容的信息推荐、基于协同的信息推荐以及混合推荐等内容,让读者能够熟练运用推荐算法解决现实中的推荐问题。
第16章主要针对近年来人工智能中热门的自然语言处理问题,详细阐述分布式词向量、循环神经网络、卷积神经网络、BERT模型等内容,使读者能够深入理解神经网络在自然语言处理中的模型。
附录汇编了数据挖掘的各类试题,读者可以通过试题的解答进一步理解知识点,试题答案可从华章网站下载。
本书在提炼数据挖掘知识点的基础上,在中国大学MOOC上开设了“数据挖掘”MOOC课程(https://www.icourse163.org/course/NUDT-1461782176),并在头歌平台上开设了“数据挖掘”实验课程(http://www.educoder.net/path/4153),读者可通过在线视频课程的学习、作业训练与编程实践加深对数据挖掘知识点的理解,提高运用能力。
数据挖掘是一个快速发展的领域,加之编写时间、作者水平所限,书中难免有疏漏之处,请各位读者、同行不吝指正。

上架指导

计算机/大数据

封底文字

数据挖掘是人工智能、大数据的核心技术,是数据科学的内在驱动力,广泛应用于信息安全、网络安全、电子技术、航天科技等重要领域,是提升国家、军工、企业核心竞争力的重要技术之一。
本书结合实际数据挖掘案例,深入浅出地荟萃数据挖掘知识点,不仅体现了知识的内涵,也体现了知识的系统性,既适合作为高校本科生和研究生数据挖掘课程的教材,也适合作为相关领域科研与工程技术人员的重要参考读物。
                ——贾焰,国防科技大学教授

本书特点:
根据高校数据科学与大数据、人工智能、计算机等专业“数据挖掘”课程的需求,以深入浅出、简明易懂的方式总结、梳理了数据挖掘的知识点。这些知识点涵盖数据挖掘的核心内容,难度适中,可帮助读者理解、掌握数据挖掘的基本原理和技术。
系统地介绍了数据挖掘常用算法,并比较了各类算法的优缺点和适用场景。同时,通过大量案例说明如何在实际工作中应用相关的算法,从而培养读者利用数据挖掘技术解决实际问题的能力。
梳理教学中总结的的试题、IT企业招聘中涉及的数据挖掘相关考题,形成本书的配套试题,读者可通过练习掌握核心知识点,应对研究生、博士生数据挖掘相关的入学测试以及企业面试。

图书目录

前言
第1章 绪论1
1.1 数据挖掘的出现1
1.2 为什么要学习数据挖掘1
1.2.1 数据爆炸但知识贫乏1
1.2.2 从商业数据到商业智能的进化2
1.2.3 科学发展范式2
1.3 什么是数据挖掘3
1.3.1 数据挖掘的出现3
1.3.2 数据挖掘的定义3
1.3.3 数据的含义4
1.3.4 信息的含义4
1.3.5 知识的含义5
1.3.6 数据、信息、知识的关系5
1.3.7 数据挖掘过程5
1.3.8 数据挖掘的关联课程6
1.4 数据挖掘的内容7
1.4.1 关联规则挖掘7
1.4.2 分类7
1.4.3 聚类9
1.4.4 回归10
1.5 本章小结10
第2章 认识数据11
2.1 数据的基本概念11
2.1.1 数据对象11
2.1.2 数据属性12
2.1.3 属性的类型13
2.1.4 属性类型的对比14
2.1.5 离散属性与连续属性14
2.2 数据的基本统计方法15
2.2.1 中心化趋势统计量:均值、中位数和众数15
2.2.2 离散度度量16
2.2.3 分布形状度量17
2.3 数据的基本可视化方法18
2.3.1 箱线图可视化18
2.3.2 直方图可视化19
2.3.3 散点图可视化19
2.4 数据相似性的计算方法20
2.4.1 数据相似性和相异性度量的基本概念20
2.4.2 标称属性的邻近性度量21
2.4.3 二值属性的邻近性度量22
2.4.4 序数属性的邻近性度量23
2.4.5 数值属性的邻近性度量23
2.4.6 混合类型属性的邻近性度量25
2.4.7 余弦相似性25
2.5 本章小结26
第3章 数据预处理27
3.1 数据质量27
3.2 数据预处理的主要任务27
3.2.1 数据清理27
3.2.2 数据集成28
3.2.3 数据规约32
3.2.4 数据规范化和数据离散化37
3.3 特征构造38
3.3.1 为什么需要特征构造38
3.3.2 基本特征构造法38
3.3.3 时间类型数据特征构造法39
3.3.4 时间序列数据特征构造法41
3.3.5 离散数据特征哑编码42
3.4 本章小结43
第4章 分类的基本概念与朴素贝叶斯分类器44
4.1 分类的基本概念44
4.2 朴素贝叶斯分类的基础理论45
4.2.1 贝叶斯示例45
4.2.2 贝叶斯定理46
4.2.3 极大后验假设46
4.2.4 多维属性的联合概率47
4.2.5 独立性假设47
4.2.6 训练集介绍47
4.3 贝叶斯分类的案例48
4.3.1 案例一:购买电脑预测48
4.3.2 案例二:垃圾邮件分类49
4.4 连续类型数据分类50
4.5 本章小结50
第5章 决策树分类51
5.1 决策树51
5.2 决策树构建的两个问题52
5.2.1 如何构建决策树52
5.2.2 构造什么样的决策树是合适的53
5.3 决策树算法54
5.3.1 Hunt算法54
5.3.2 构建决策树的关键问题56
5.3.3 信息增益算法57
5.3.4 C4.5算法59
5.3.5 CART算法61
5.4 本章小结64
第6章 规则和最近邻分类器66
6.1 基于规则的分类66
6.1.1 基于规则的分类示例66
6.1.2 规则的质量68
6.1.3 规则分类器的特征68
6.1.4 基于规则的分类器的建立69
6.1.5 规则分类的特点76
6.2 急切学习与惰性学习76
6.3 最近邻分类器77
6.3.1 最近邻算法的定义77
6.3.2 K最近邻分类算法78
6.4 本章小结79
第7章 回归算法80
7.1 线性回归的案例:房价预测80
7.2 线性回归算法81
7.2.1 线性回归的提出81
7.2.2 线性回归建模81
7.2.3 最小二乘法82
7.3 优化求解方法83
7.3.1 梯度下降83
7.3.2 梯度下降法求解83
7.3.3 学习率分析84
7.3.4 梯度下降法收敛85
7.3.5 梯度下降法的变体86
7.4 逻辑回归87
7.4.1 逻辑回归函数87
7.4.2 逻辑回归的特点87
7.4.3 优势比88
7.4.4 逻辑回归参数估计89
7.4.5 逻辑回归正则化90
7.4.6 逻辑回归数值优化91
7.4.7 逻辑回归训练方法的优化93
7.5 决策树回归94
7.5.1 决策树回归的基本概念94
7.5.2 决策树分类最佳划分点的选择94
7.5.3 决策树回归算法96
7.6 本章小结96
第8章 模型的评价97
8.1 分类模型的评价指标97
8.1.1 混淆矩阵97
8.1.2 准确率97
8.1.3 精确率与召回率98
8.1.4 ROC曲线99
8.2 不平衡分类102
8.2.1 基于抽样的方法103
8.2.2 两阶段学习104
8.2.3 代价敏感学习104
8.3 过拟合与欠拟合105
8.3.1 训练误差和泛化误差105
8.3.2 噪声导致的过拟合107
8.3.3 缺乏代表性样本导致的过拟合107
8.3.4 解决过拟合的方法一:减少泛化误差109
8.3.5 解决过拟合的方法二:使用确认集估计泛化误差110
8.4 其他模型评价指标113
8.4.1 回归模型113
8.4.2 聚类模型114
8.4.3 关联规则模型115
8.5 本章小结117
第9章 支持向量机分类器118
9.1 支持向量机的提出118
9.1.1 支持向量机简介118
9.1.2 传统分类方法的不足118
9.1.3 支持向量机的总体思想119
9.1.4 从Logistic回归到SVM分析119
9.1.5 支持向量机的应用120
9.2 深入支持向量机121
9.2.1 支持向量机算法的原理121
9.2.2 支持向量机建模122
9.2.3 支持向量机求解123
9.3 非线性支持向量机126
9.3.1 基于软间隔的C-SVM126
9.3.2 非线性SVM与核变换129
9.3.3 支持向量机二分类推广131
9.4 本章小结131
第10章 神经网络分类器132
10.1 人工神经网络出现的背景 132
10.1.1 发展历程132
10.1.2 端到端的学习133
10.1.3 神经网络的优点133
10.1.4 时代的必然性134
10.2 神经网络基础:感知机134
10.2.1 感知机的直观理解134
10.2.2 感知机数学模型135
10.2.3 感知机训练136
10.2.4 感知机的缺陷:“异或”分类问题136
10.2.5 多层感知机模型137
10.2.6 多层感知机解决“异或”分类问题138
10.3 后向传播神经网络139
10.3.1 后向传播算法的原理139
10.3.2 神经元激活函数141
10.3.3 后向传播算法参数学习的推导143
10.3.4 后向传播算法参数更新案例147
10.4 本章小结150
第11章 集成学习151
11.1 集成学习简介151
11.1.1 集成学习的定义和基本思想151
11.1.2 集成学习过程151
11.1.3 集成学习的优势154
11.2 集成学习算法155
11.2.1 Bagging算法155
11.2.2 随机森林156
11.2.3 Boosting方法157
11.2.4 GBDT167
11.3 Stacking方法168
11.4 LightGBM方法169
11.4.1 LightGBM简介169
11.4.2 GOSS169
11.4.3 EFB170
11.4.4 LightGBM的一些其他特性172
11.4.5 LightGBM中的并行学习173
11.4.6 LightGBM中主要的调节参数175
11.5 本章小结176
第12章 聚类算法177
12.1 聚类概述177
12.1.1 什么是聚类177
12.1.2 分类与聚类178
12.1.3 聚类的应用178
12.1.4 聚类的要求178
12.2 基本的聚类方法179
12.2.1 划分方法179
12.2.2 层次方法184
12.2.3 基于密度的方法188
12.2.4 图论聚类方法190
12.2.5 网格算法191
12.2.6 模型算法192
12.3 聚类评估192
12.3.1 估计聚类趋势192
12.3.2 确定数据集中的簇数193
12.3.3 聚类质量的度量193
12.4 本章小结194
第13章 关联规则挖掘195
13.1 定义195
13.1.1 关联分析的概念195
13.1.2 频繁项集196
13.1.3 最大频繁项集196
13.1.4 关联规则挖掘问题196
13.1.5 关联规则挖掘蛮力方法197
13.2 Apriori算法198
13.2.1 Apriori算法的过程199
13.2.2 Apriori算法的项字典序与项连接200
13.2.3 Apriori算法的特点200
13.2.4 提高Apriori算法性能的方法201
13.3 FP-Growth算法201
13.3.1 构造FP树201
13.3.2 基于FP树的频繁项集挖掘202
13.3.3 FP树结构的优点203
13.4 挖掘关联规则203
13.4.1 关联规则生成集合203
13.4.2 关联规则生成优化方法204
13.5 关联分析评估204
13.6 本章小结205
第14章 计算网络节点影响力206
14.1 基本定义206
14.1.1 有向图206
14.1.2 无向图206
14.1.3 邻接矩阵207
14.2 基于节点邻近的影响力计算207
14.2.1 度中心性207
14.2.2 半局部中心性208
14.2.3 K壳分解法208
14.3 基于路径的影响力计算209
14.3.1 离心中心性209
14.3.2 接近中心性209
14.3.3 介数中心性209
14.4 基于特征向量的影响力计算210
14.4.1 特征向量中心性210
14.4.2 PageRank210
14.4.3 HITS算法212
14.4.4 自动信息汇集算法214
14.4.5 SALSA算法214
14.5 基于节点移除和收缩的影响力计算215
14.5.1 节点删除的最短距离法215
14.5.2 节点删除的生成树法215
14.5.3 节点收缩法216
14.5.4 残余接近中心性216
14.6 本章小结217
第15章 信息推荐算法218
15.1 背景218
15.2 基于内容的信息推荐219
15.3 基于协同过滤的信息推荐221
15.3.1 基于用户的协同过滤推荐221
15.3.2 基于内容的协同过滤推荐223
15.4 混合推荐方法224
15.5 信息推荐的评价指标225
15.5.1 准确性指标225
15.5.2 排序加权指标227
15.5.3 多样性和创新性评价指标228
15.5.4 覆盖率评价指标229
15.6 本章小结230
第16章 自然语言处理中常用的神经网络模型231
16.1 基于神经网络的自然语言处理基本框架231
16.2 分布式词向量233
16.2.1 CBOW模型234
16.2.2 Skip-gram模型234
16.2.3 Word2Vec的负采样训练方法235
16.3 循环神经网络236
16.4 卷积神经网络238
16.5 BERT模型241
16.5.1 预训练模型242
16.5.2 BERT模型的架构243
16.5.3 BERT模型的输入表征244
16.5.4 BERT模型的应用244
16.6 本章小结245
附录 试题精选246
试题精选一246
试题精选二250
试题精选三252
试题精选四255
试题精选五259
试题精选六260
试题精选七263
试题精选八267
试题精选九270
试题精选十276
试题精选十一281
试题精选十二287

教学资源推荐
作者: (美)Ryan K.Stephens Ronald R.Plew
作者: [比利时]维尔弗里德·勒玛肖(Wilfried Lemahieu) 赛普·凡登·布鲁克(Seppe vanden Broucke) 巴特·巴森斯(Bart Baesens) 著
作者: (美) Pang-Ning Tan , Michael Steinbach , Vipin Kumar  著
作者: 彭智勇 彭煜玮 编著
参考读物推荐
作者: 冯雷 姚延栋 高小明 杨瑜 著
作者: (美)Donald K.Burleson