大数据计算系统:原理、技术与应用
作者 : 王宏志,刘海龙,张立臣,石胜飞 编著
出版日期 : 2023-10-10
ISBN : 978-7-111-73307-2
适用人群 : 大数据及相关专业本科生
定价 : 79.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 :
开本 : 16
原书名 :
原出版社:
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书兼顾广度和深度、应用和原理、研发和运维,对于各类大数据计算系统进行了深入的介绍,包括大数据计算系统的基本概念、各种大数据计算系统的配置与程序设计方法、大数据计算系统的运行原理、大数据计算机系统的监控、运维和调优方法等。本书适用于作为数据科学与大数据、计算机等专业本科生和研究生相关课程的教材,还可供大数据领域从业人员参考。

图书特色

上架指导

计算机\数据科学

封底文字

大数据计算需要由系统来完成,完成数据科学与大数据技术任务的核心工作就是选择、配置大数据计算系统并进行调优,以及基于大数据计算系统进行程序设计。因此,深入了解并熟练使用大数据计算系统变得至关重要。本书正是面向这一需求编写而成的。

本书特点:
本书选择常用的大数据计算系统进行介绍,包括批处理、流处理和图数据处理的典型计算系统。针对每一种典型系统,都介绍了其配置、程序设计方法以及工作原理,并以这些典型系统为例,介绍相关的监控、运维和调优方法。
本书兼顾广度和深度、应用和原理、研发和运维,对典型大数据计算系统的介绍全面,具有较强的实用性。
本书采用模块化编写方式,从基础知识、大数据计算系统的配置与编程方法、工作原理以及监控、运维和调优方法等方面进行全面介绍。不同基础、不同学习目标的读者可以选择适合自己的模块进行学习。

图书目录

第1章大数据计算系统概述
1.1.大数据计算系统的定义
1.1.1.大数据计算系统背景
1.1.2.大数据计算系统发展历程
1.1.3.大数据计算系统特征
1.1.4.大数据计算系统与分布式系统
1.2.分布式系统的体系结构
1.2.1.体系结构模型
1.2.2.网络与通信
1.2.3.进程
1.2.4.命名系统
1.2.5.同步
1.2.6.一致性
1.2.7.容错性
1.2.8.安全性
1.3.分布式文件系统
1.4.分布式计算
1.4.1.分布式计算概述
1.4.2.常见大数据计算系统

第一篇 基础篇
第2章Hadoop初识与编程
2.1.Hadoop环境配置与搭建
2.2.第一个简单示例
2.3.Hadoop应用场景
2.3.1.行业应用介绍
2.3.2.学术领域对Hadoop的改进
2.4. MapReduce编程
2.4.1.MapReduce计算模型
2.4.2.MapReduce初体验
2.4.3.去重
2.4.4.MRUnit单元测试
2.4.5.MapReduce程序运行与发布
第3章HDFS
3.1.HDFS数据来源
3.2.HDFS shell
3.2.1.概述
3.2.2.帮助的使用方法
3.2.3.通用命令行操作
3.2.4.综合应用举例
3.3.HDFS 浏览
3.4.HDFS API
3.4.1.概述
3.4.2.读文件操作
3.4.3.写文件操作
3.4.4.删除文件操作
3.4.5.FileUtil文件处理
3.5.HDFS数据存档

第4章 Spark初识与编程
4.1 Spark概述
4.1.1 Spark简介
4.1.2 Spark的源码编译
4.1.3 Spark应用程序部署
4.1.4 Spark的高可用性部署
4.2 Spark运行架构和解析
4.2.1 Spark的运行架构
4.2.2 Spark运行实例解析
4.3 Spark Scala编程
4.3.1 Scala常用语法
4.3.2 Scala开发Spark应用程序

第5章 Storm初识与编程基础
5.1 Storm的安装与部署
5.2 Storm程序设计例析

第6章GraphEngine初识
6.1.GraphEngine的安装与部署
6.2.Pregel程序设计

第二篇 原理篇
第7章Hadoop/MapReduce的原理
7.1.Hadoop体系结构
7.2.Hadoop Common工作机制
7.3.MapReduce工作机制
7.3.1.计算执行流程
7.3.2.计算的本地性
7.3.3.推测执行机制
7.3.4.容错性
7.3.5.MapReduce应用
7.4.剖析MapReduce作业运行机制
7.4.1.经典MapReduce(MapReduce1)
7.4.2.YARN(MapReduce2)
7.5.作业的调度
7.5.1.调度选项
7.5.2.FIFO调度器
7.5.3.容量调度器
7.5.4.公平调度器
7.5.5.延迟调度
7.5.6.主导资源的公平性
7.6.任务的执行
7.6.1.任务执行环境
7.6.2.推测执行
7.6.3.任务JVM重用
7.7.shuffle工作原理
7.7.1.map端
7.7.2.reduce端
7.8 Hadoop安全机制
7.8.1.概述
7.8.2.安全机制
7.8.3.角色分配
7.8.4.数据安全
7.8.5.常见问题
7.8.6.Apache Sentry

第10章Hadoop HDFS原理
8.1.HDFS体系结构
8.1.1.Metadada(元数据)
8.1.2.HDFS命名空间
8.1.3.Client
8.1.4.NameNode工作原理
8.1.5.Secondary Namenode
8.1.6.DataNode工作原理
8.1.7.NameNode与DataNode的关系
8.1.8.Replication(复制)
8.1.9.EditsLog与FSImage
8.1.10.心跳机制
8.2.RPC通信机制
8.2.1.什么是RPC
8.2.2.RPC工作原理
8.3.数据流处理
8.3.1.HDFS写流程
8.3.2.HDFS读流程
8.3.3.HDFS删除流程
8.4.安全机制
8.5.容错机制
8.6.HDFS管理与优化
8.6.1.目录及文件结构
8.6.2.日志审计
8.6.3.管理工具
8.6.4.HDFS节点内数据平衡:DiskBalancer
8.6.5.监控
8.6.6.数据安全
8.6.7.数据加密
8.6.8.数据缓存
8.6.9.委任与解除
8.7.HDFS On Yarn
8.7.1.namenode 单点故障
8.7.2.元数据备份
8.7.3.HDFS SecondNameNode机制
8.7.4.HA
8.7.5.HDFS Federation

第9章 Spark原理
9.1 Spark原理
9.2 Spark的RDD
9.2.1 什么是RDD
9.2.2 RDD的种类与原理
9.3 Spark的存储
9.4 Spark任务执行与提交
9.5 Spark计算引擎
9.4 Spark的容错原理
9.4.1 Lineage容错
9.4.2 Checkpoint容错

第10章 Storm原理
10.1 Storm系统架构
10.2 Topology运行原理
10.3 Storm并发机制
10.4 Storm通信机制
10.5 Storm可靠性

第11章GraphEngine原理
11.1 基于内存云的图存储策略
11.2 GraphEngine中的图划分策略


第3篇 运维调优篇
第12章大数据计算系统运维概述
12.1.什么是大数据计算系统监控与运维
12.1.1.监控是运维的前提
12.1.2.运维的重要性
12.1.3.监控与运维的范围
12.1.4.大数据计算系统监控与运维方法
12.1.5.大数据计算系统运维的目标
12.2.大数据计算系统性能优化
12.2.1.提升大数据计算系统性能途径
12.2.2.提升大数据计算系统性能难度及取舍
12.3.运维与性能优化的关系

第13章 大数据计算系统的监控
13.1.监控的准备工作
13.1.1.掌握系统硬件环境
13.1.2.掌握系统网络环境
13.1.3.掌握系统配置环境
13.1.4.掌握计算框架的状态
13.2.监控什么
13.2.1.集群监控
13.2.2.运行状态监控
13.2.3.上层服务监控
13.3.Hadoop监控的相关参数
13.4.通过Http界面进行Hadoop状态监控
13.5.Hadoop的监控命令
13.6.编写自己的监控工具
13.7.利用GangLia进行Hadoop集群监控
13.8.Hadoop其他监控工具

第14章大数据计算系统的运维
14.1.Hadoop及相关服务的启动与停止
14.1.1.启动操作及启动的顺序
14.1.2.如何判断启动是否完成
14.1.3.停止的操作及顺序
14.1.4.停止后的日志查看
14.2.用户的身份确认
14.3.Hadoop的日常运维范围
14.4.Hadoop的运维命令
14.5.自定义运维工具
14.6.利用工具进行Hadoop日常运维
14.7.Hadoop的单点情况的备份及恢复处理
14.8.Hadoop中的DataNode的维护
14.8.1.增加DataNode节点
14.8.2.删除DataNode节点
14.9.Hadoop中数据备份
14.10.Hadoop的容灾处理
14.11.Hadoop的数据迁移
14.12.基于Greenplum进行Hadoop的故障检测

第15章大数据计算系统的调优
15.1.为什么要调优
15.2.如何调优
15.2.1.明确调优的范围
15.2.2.明确调优的目的
15.2.3.调优不是一劳永逸
15.3.Hadoop的性能指标
15.3.1.Hadoop的作业性能分析
15.3.2.Hadoop的负载分析
15.4.系统优化
15.4.1.操作系统优化
15.4.2.JVM参数优化
15.5.Hadoop机架感知对性能调优
15.6.带你认识Hadoop系统的参数
15.6.1.Hadoop的性能参数
15.6.2.HDFS的性能参数
15.6.3.Mapreduce的性能参数
15.6.4.Yarn的性能参数
15.6.5.Zookeeper 的性能参数
15.6.6.Hives的性能参数
15.6.7.HBase的性能参数
15.6.8.其他的性能参数
15.7.根据原则进行参数优化
15.7.1.作业调度性能最大化原则
15.7.2.存储开销最小化原则
15.7.3.安全第一原则
15.8.生产中的Hadoop性能优化

教学资源推荐
作者: 王卫红 李晓明 编著
作者: 彭波 主编
作者: (美)Steven J. Leon 著 马萨诸塞大学达特茅斯分校
参考读物推荐
作者: 游小明 罗光春 编著
作者: (美)Andy Oram;John Viega 编