参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 393

开本 : 16

原书名 : 无

原出版社: 无

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

本书基于开源Hadoop生态圈的主流技术，深入浅出地介绍了大数据相关技术的原理、知识点及具体应用，适合教师教学使用和零基础自学者使用。通过本书的学习，读者可以理解大数据相关技术的原理，迅速掌握大数据技术的操作，为后续数据挖掘与分布式计算平台的结合使用打下良好的技术基础。

图书特色

Big Data Mining Based on Hadoop，Second Edition
Hadoop与大数据挖掘
第2版
王哲张良均李国辉卢军梁晓阳　◎著
资深数据挖掘专家和科研人员10余年大数据项目实战、教育经验总结。
详解Hadoop大数据技术栈，以及Hadoop大数据挖掘与分析的流程和方法。
数十所高等院校用作教材或参考书，提供数据、代码、习题、教学PPT。

图书前言

为什么要写这本书
伴随着Web 2.0、云计算、物联网等概念和技术的提出与快速发展，信息时代的“大数据”特征越来越明显。大数据相关的数据仓库、数据挖掘技术在商业、军事、经济、学术等众多领域也开始发挥越来越大的作用。与此同时，庞大的数据规模也给传统的数据挖掘工作带来了巨大的挑战。分布式计算平台具有强劲的数据处理能力，因此，数据挖掘与分布式计算平台相结合的方式正在成为行业的趋势，并不断地显现出强大的优势和潜力。以Hadoop为代表的分布式系统，正在逐渐成为大数据挖掘系统的必要组成部分。结合Hadoop分布式架构进行数据挖掘的方式具备更高的计算效率，且计算能力的扩展性也更好。
如何将大数据技术和数据挖掘技术相结合，解决企业实际遇到的大数据相关问题，并从数据中挖掘出有价值的信息，是企业面临的难题。因此，目前企业对大数据人才依旧有比较大的需求，并且对大数据人才的专业技能、实操能力提出了更高的要求。
在大数据领域中，Hadoop技术的应用无疑很广泛。Hadoop技术除了自身强大的功能之外，也可以与Mahout、Spark MLlib等技术结合使用，这样不仅可以帮助企业对海量数据进行基础分析，还能构建挖掘模型，从大数据中挖掘出有价值的信息。
本书提供了大数据相关技术的介绍、原理、实践、真实业务场景应用等内容，能够有效指导高校教师与学生理解和掌握大数据相关技术原理及技术实践，并为数据挖掘与分布式计算平台的结合使用打下良好的技术基础，同时也能够促进教学实践与行业技术及应用发展的动态融合。
本书特色
本书采用“基础篇+实战篇”的编写结构，深入浅出地介绍了大数据相关技术的原理、知识点及具体应用，适合教师教学使用和零基础自学者使用。
本书的基础篇从大数据的概念、特点、应用及大数据平台出发，较为全面地介绍了大数据相关的技术框架，包括Hadoop、HBase、Hive、Spark、Flume、Kafka等框架，内容讲解由浅入深。此外，基础篇的第2～8章在讲解了相关技术的知识点后，还通过相对独立的场景应用实例，帮助读者使用大数据技术对业务数据进行分析。通过对基础篇的学习，读者可以学习大数据相关技术的原理并掌握大数据技术的相关操作，为后续数据挖掘与分布式计算平台的结合使用打下良好的技术基础。
本书的实战篇介绍了多个综合实战案例，描述了企业在实际业务中遇到的真实场景问题，通过对整个案例流程进行详细分析，并综合运用大数据技术完成数据的采集、预处理、分析挖掘等操作，最终实现了案例的目标。实战篇的内容对读者有一定的实践指导作用，也能够帮助读者提高使用大数据相关技术进行数据挖掘的基本能力。学生或技术人员在通过实战篇进行实践的同时，也可以学习案例的分析方法，培养良好的案例分析能力及思考能力。
本书基础篇各章都配有课后习题，可以帮助读者巩固大数据技术的知识点，更加深刻地理解书中所介绍的大数据技术的基本内容。
为了帮助读者更好地使用本书，本书提供了配套原始数据文件、程序代码以及PPT课件，读者可以从泰迪云教材（https://book.tipdm.org/）免费下载。
本书适用对象
开设大数据、大数据挖掘相关课程的高校的师生。
大数据技术开发人员。
大数据架构师。
数据挖掘方面的技术人员或数据挖掘技术爱好者。
如何阅读本书
本书使用基于开源Hadoop生态圈的主流技术与真实案例相结合的方式，深入浅出地介绍了Hadoop、Hive、HBase、Spark、Flume、Kafka等大数据技术的原理、操作及具体应用。本书共11章，分两个部分：基础篇、实战篇。
基础篇（第1～8章）：从大数据的概念、特点、应用以及大数据平台入手，主要介绍与数据挖掘相关的Hadoop生态系统组件技术的基础知识与应用，包括大数据基础架构Hadoop、数据仓库Hive、分布式协调框架ZooKeeper、分布式数据库HBase、分布式计算框架Spark、大数据采集框架Flume、消息订阅系统Kafka等，并通过场景应用案例帮助读者掌握各大数据组件的基础操作。
实战篇（第9～11章）：包括3个案例，分别为图书热度实时分析系统、O2O优惠券个性化投放、消费者人群信用智能评分。实战篇主要关注实战用例，通过3个综合实战案例提升读者对大数据技术的综合运用能力。各章从案例的背景与目标入手，分析案例需求，在明确案例的流程后通过大数据技术解决实际的业务问题，同时也让读者切身感受到大数据技术解决大数据企业应用的魅力。
第2版更新内容
结合近几年Hadoop大数据技术与数据挖掘的发展情况和广大读者的意见反馈，本书在保留第1版特色的基础上，进行了代码与内容的全方位升级。在代码方面，将教材所介绍的大数据组件的版本进行全面升级，充分考虑了大数据技术的发展情况。在内容方面，对基础篇和实战篇均进行了升级。
基础篇具体升级内容如下。
1）全面升级教材所有组件的版本，并同步更新组件知识点的讲解及基础操作。
2）删除了原第5章和第7章。
3）新增了第4章、第7章、第8章。
4）第2～8章中新增了场景应用实例，帮助读者巩固所学的知识点，快速掌握书中所介绍的大数据技术的基础操作。
5）各章增加了课后习题，可以帮助读者巩固所学的知识点，更加深刻地理解书中所介绍的大数据技术的基本内容。
实战篇增加了多个综合实战案例，旨在提升读者对大数据技术的综合运用能力。具体升级内容如下。
1）删除原第8章。
2）新增第9章、第10章和第11章。
勘误和支持
由于作者水平有限，书中难免存在一些疏漏和不足的地方。如果你有更多的宝贵意见，欢迎在泰迪学社微信公众号（TipDataMining）回复“图书反馈”进行反馈。本系列图书的更多信息可以在泰迪云教材（https://book.tipdm.org/）查阅。

张良均
2022年4月于广州

上架指导

计算机\程序设计

封底文字

本书第1版于2017年出版，在市场上取得了不错的反响。过去5年里，Hadoop技术栈的各项技术都有很大的变化，有的技术如日中天，有的技术已是昨日黄花。应广大读者的要求，我们对本书进行了全面更新：首先是更新了Hadoop技术栈，剔除了Pig、Oozie等过时的技术，增加了ZooKeeper、Flume、Kafka等新内容，同时对其他技术的特性也做了全面更新；其次是新增了各项技术的应用案例和习题集，还更换了综合案例，让本书的实战性更强。

图书目录

前言
第一部分　基础篇
第1章　浅谈大数据 2
1.1　大数据产生的背景 2
1.1.1　信息化浪潮 2
1.1.2　信息技术变革 3
1.1.3　数据生产方式变革 4
1.1.4　大数据的发展历程 5
1.1.5　大数据时代的挑战 6
1.1.6　大数据时代面临的机遇 7
1.2　大数据概述 7
1.2.1　大数据的概念 8
1.2.2　大数据的特征 8
1.2.3　大数据的影响 8
1.2.4　大数据与互联网、云计算的关系 11
1.3　大数据挖掘概述 11
1.3.1　数据挖掘的概念 11
1.3.2　大数据环境下的数据挖掘 12
1.3.3　数据挖掘的过程 12
1.3.4　数据挖掘常用工具 13
1.4　大数据平台 14
1.5　小结 15
第2章　大数据基础架构Hadoop——实现大数据分布式存储与计算 16
2.1　Hadoop技术概述 16
2.1.1　Hadoop的发展历史 16
2.1.2　Hadoop的特点 17
2.1.3　Hadoop存储框架—HDFS 18
2.1.4　Hadoop计算引擎—MapReduce 20
2.1.5　Hadoop资源管理器—YARN 21
2.2　Hadoop应用场景介绍 23
2.3　Hadoop生态系统 23
2.4　Hadoop安装配置 24
2.4.1　创建Linux虚拟机 25
2.4.2　设置固定IP 33
2.4.3　远程连接虚拟机 35
2.4.4　配置本地yum源及安装常用软件 38
2.4.5　在Linux下安装Java 42
2.4.6　修改配置文件 43
2.4.7　克隆虚拟机 48
2.4.8　配置SSH免密登录 50
2.4.9　配置时间同步服务 51
2.4.10　启动关闭集群 53
2.5　Hadoop HDFS文件操作命令 54
2.5.1　创建目录 54
2.5.2　上传和下载文件 55
2.5.3　查看文件内容 56
2.5.4　删除文件或目录 56
2.6　Hadoop MapReduce编程开发 57
2.6.1　使用IDEA搭建MapReduce开发环境 57
2.6.2　通过词频统计了解MapReduce执行流程 67
2.6.3　通过源码认识MapReduce编程 68
2.7　场景应用：电影网站用户影评分析 74
2.7.1　了解数据字段并分析需求 74
2.7.2　多维度分析用户影评 76
2.8　小结 91
第3章　数据仓库Hive——实现大数据查询与处理 92
3.1　Hive技术概述 92
3.1.1　Hive简介 92
3.1.2　Hive的特点 93
3.1.3　Hive的架构 93
3.2　Hive应用场景介绍 94
3.3　Hive安装配置 95
3.3.1　配置MySQL数据库 95
3.3.2　配置Hive数据仓库 96
3.4　HiveQL查询语句 99
3.4.1　Hive的基础数据类型 99
3.4.2　创建与管理数据库 100
3.4.3　创建与管理数据表 101
3.4.4　Hive表的数据装载 108
3.4.5　掌握select查询 111
3.4.6　了解运算符的使用 112
3.4.7　掌握Hive内置函数 115
3.5　Hive自定义函数的使用 120
3.5.1　了解Hive自定义函数 120
3.5.2　自定义UDF 121
3.5.3　自定义UDAF 124
3.5.4　自定义UDTF 127
3.6　场景应用：基站掉话率排名统计 129
3.6.1　创建基站数据表并导入数据 130
3.6.2　统计基站掉话率 130
3.7　小结 132
第4章　分布式协调框架ZooKeeper——实现应用程序分布式协调服务 133
4.1　ZooKeeper技术概述 133
4.1.1　ZooKeeper简介 133
4.1.2　ZooKeeper的特点 135
4.2　ZooKeeper应用场景介绍 135
4.3　ZooKeeper分布式安装配置 136
4.4　ZooKeeper客户端常用命令 138
4.4.1　创建znode 138
4.4.2　获取znode数据 138
4.4.3　监视znode 139
4.4.4　删除znode 140
4.4.5　设置znode权限 140
4.5　ZooKeeper Java API操作 142
4.5.1　创建IDEA工程并连接ZooKeeper 142
4.5.2　获取、修改和删除znode数据 143
4.6　场景应用：服务器上下线动态监控 146
4.7　小结 149
第5章　分布式数据库HBase——实现大数据存储与快速查询 151
5.1　HBase技术概述 151
5.1.1　HBase的发展历程 151
5.1.2　HBase的特点 152
5.1.3　HBase的核心功能模块 153
5.1.4　HBase的数据模型 155
5.1.5　设计表结构的原则 155
5.2　HBase应用场景介绍 156
5.3　HBase安装配置 157
5.4　HBase Shell操作 159
5.4.1　创建与删除表 159
5.4.2　插入数据 161
5.4.3　查询数据 162
5.4.4　删除数据 163
5.4.5　扫描全表 163
5.4.6　按时间版本查询记录 164
5.5　HBase高级应用 165
5.5.1　IDEA开发环境搭建 165
5.5.2　HBase Java API使用 169
5.5.3　HBase与MapReduce交互 174
5.6　场景应用：用户通话记录数据存储设计及查询 180
5.6.1　设计通话记录数据结构 180
5.6.2　查询用户通话记录 181
5.7　小结 187
第6章　分布式计算框架Spark——实现大数据分析与挖掘 189
6.1　Spark技术概述 189
6.1.1　Spark的发展历史 189
6.1.2　Spark的特点 190
6.1.3　Spark生态圈 191
6.2　Spark应用场景介绍 192
6.3　Spark集群安装配置 192
6.4　Spark Core—底层基础框架 196
6.4.1　Spark集群架构 196
6.4.2　Spark作业运行模式 197
6.4.3　弹性分布式数据集RDD 199
6.4.4　RDD算子基础操作 200
6.4.5　场景应用：房屋销售数据分析 201
6.5　Spark SQL—查询引擎框架 205
6.5.1　Spark SQL概述 205
6.5.2　DataFrame基础操作 205
6.5.3　场景应用：广告流量作弊识别探索分析 220
6.6　Spark MLlib—机器学习库 225
6.6.1　Spark MLlib概述 225
6.6.2　MLlib数据类型 226
6.6.3　MLlib常用算法包 226
6.6.4　场景应用：超市客户聚类分析 240
6.7　Spark Streaming—流计算框架 247
6.7.1　Spark Streaming概述 247
6.7.2　Spark Streaming运行原理 248
6.7.3　DStream编程模型 248
6.7.4　DStream基础操作 249
6.7.5　场景应用：热门博文实时推荐 258
6.8　小结 264
第7章　大数据采集框架Flume——实现日志数据实时采集 265
7.1　Flume技术概述 265
7.1.1　Flume的发展历程 265
7.1.2　Flume的基本思想与特性 266
7.1.3　Flume的基本架构 266
7.1.4　Flume的核心概念 267
7.1.5　Flume Agent的核心组件 267
7.2　Flume应用场景介绍 268
7.3　Flume安装与配置 268
7.3.1　Flume的安装 269
7.3.2　Flume运行测试 270
7.4　Flume核心组件的常见类型及参数配置 270
7.5　Flume采集方案设计与实践 272
7.5.1　将采集的数据缓存在内存中 272
7.5.2　将采集的数据缓存在磁盘中 275
7.5.3　采集监控目录的数据 277
7.5.4　采集端口数据并存储至HDFS路径 278
7.5.5　采集本地文件数据并存储至HDFS路径 281
7.5.6　时间戳拦截器 283
7.5.7　正则过滤拦截器 286
7.5.8　Channel选择器 288
7.6　场景应用：广告日志数据采集系统 291
7.6.1　广告系统日志数据采集 292
7.6.2　广告曝光日志数据采集 293
7.7　小结 296
第8章　消息订阅系统Kafka——实现大数据实时传输 298
8.1　Kafka技术概述 298
8.1.1　Kafka的概念 298
8.1.2　Kafka的基本框架 299
8.1.3　Kafka的优势 300
8.2　Kafka应用场景介绍 300
8.3　Kafka集群的安装 301
8.4　Kafka的基础操作 303
8.4.1　Kafka操作的基本参数 303
8.4.2　Kafka单代理操作 304
8.4.3　Kafka多代理操作 305
8.5　Kafka Java API的使用 307
8.5.1　Kafka Producer API 308
8.5.2　Kafka Consumer API 312
8.5.3　Kafka Producer与Consumer API结合使用 314
8.6　场景应用：广告日志数据实时传输 317
8.6.1　创建脚本文件 317
8.6.2　创建Kafka主题 319
8.6.3　Flume采集日志 320
8.7　小结 321
第二部分　实战篇
第9章　图书热度实时分析系统 324
9.1　背景与目标 324
9.2　创建IDEA项目并添加依赖 325
9.3　图书数据采集 326
9.3.1　准备数据并启动组件 327
9.3.2　创建topic并启动Consumer 327
9.3.3　替换与添加库依赖 327
9.3.4　编写Flume配置文件 328
9.3.5　编写脚本定时采集数据 329
9.3.6　运行Flume配置文件 330
9.3.7　编写Spark Streaming代码 331
9.4　图书热度指标构建 332
9.4.1　计算用户评分次数及平均评分 332
9.4.2　计算图书被评分次数及平均评分 333
9.5　图书热度实时计算 335
9.6　图书热度实时分析过程的完整实现 336
9.7　小结 338
第10章　O2O优惠券个性化投放 339
10.1　背景与目标 339
10.1.1　案例背景 339
10.1.2　数据说明及存储 340
10.1.3　案例目标 341
10.2　数据探索及预处理 342
10.2.1　数据探索 343
10.2.2　数据预处理 350
10.3　多维度指标构建 351
10.4　模型构建 355
10.4.1　决策树分类模型 355
10.4.2　梯度提升分类模型 356
10.4.3　XGBoost分类模型 357
10.5　模型评价 358
10.6　O2O平台营销手段和策略分析 360
10.6.1　用户分级 360
10.6.2　优惠券分级 360
10.6.3　商户分级 360
10.7　小结 361
第11章　消费者人群画像——信用智能评分 362
11.1　背景与目标 362
11.2　数据探索 362
11.2.1　数据集说明 363
11.2.2　字段分析 364
11.3　数据预处理 369
11.3.1　用户年龄处理 369
11.3.2　用户话费敏感度处理 369
11.3.3　应用使用次数偏差值剔除 370
11.4　消费者信用特征关联 371
11.4.1　Pearson相关系数 372
11.4.2　构建关联特征 373
11.5　模型构建 376
11.5.1　随机森林及梯度提升树算法简介 376
11.5.2　模型构建与评估 377
11.6　模型加载应用 380
11.7　小结 381