首页>参考读物>计算机科学与技术>软件与程序设计

Hadoop集群与安全
作者 : (美)Danil Zburivsky,Sudheesh Narayanan 著
译者 : 刘杰 沈鑫 译
丛书名 : 大数据技术丛书
出版日期 : 2014-10-29
ISBN : 978-7-111-48062-4
定价 : 49.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 182
开本 : 16
原书名 : Hadoop Cluster Deployment
原出版社: Packt Publishing Ltd.
属性分类: 店面
包含CD :
绝版 : 未绝版
图书简介

图书特色

Hadoop自动化安装和配置的问题在于隐藏了许多Hadoop组件协同工作的重要细节,本书介绍如何手动安装和配置主要的Hadoop组件,以便高效使用Hadoop平台。通过设置一个完全可运行的集群,可对Hadoop内部的运行机制产生更深入的了解,并且有助于你调试任何可能发生的问题。本书还介绍了保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计,并包括在企业内部来确保Hadoop及其生态系统相关组件安全的详细方案。

通过阅读本书,你将了解:
如何手动配置主要的Hadoop组件,以及Hadoop生态系统。
如何在云端使用Hadoop,包括Elastic MapReduce和Whirr的应用。
如何配置Kerberos并建立安全的Hadoop集群。
如何保护Hadoop生态系统中的敏感数据。

作者简介
Danil Zburivsky 资深数据库管理员,目前是全球数据基础构架管理公司Pythian的咨询师,其客户涉及金融、娱乐以及通信领域,主要方向是创建各种Hadoop集群。研究兴趣包括Python编程、机器学习等。
Sudheesh Narayanan 在大数据解决方案咨询与实施领域具有丰富经验的实践者和技术战略家。他在IT领域的经验超过15年,涉及信息管理、商务智能、大数据分析及云应用和J2EE应用开发等。

译者简介
刘杰 中国科学院软件所副研究员,具有多年Hadoop平台研发与实施经验,与团队一起研发基于Hadoop的可视化大数据分析工具Haflow,该工具应用于医疗、交通等多个领域。研究方向包括企业数据集成、面向大数据的系统软件、数据挖掘等。
沈鑫  毕业于同济大学计算机科学与技术系,资深网络工程师,从事网络安全、管理信息系统的开发与维护,参与开发了多个相关的项目。兴趣爱好是网络安全技术与嵌入式技术。

本书手把手教你配置高效的Hadoop集群,以便充分利用Hadoop平台的优势, 并为Hadoop生态系统实现强健的端到端的安全保障。
本书共13章:第1章概述主要的Hadoop组件以及选择规划;第2章讲解安装和配置主要Hadoop组件的详细步骤;第3章介绍Sqoop、Hive和Impala的配置步骤;第4章讲解确保各种Hadoop组件安全的方法;第5章指导读者逐步将集群开发至实际应用阶段;第6章介绍如何在虚拟环境中使用Hadoop;第7章详细介绍大数据安全参考框架;第8章详细介绍Hadoop安全保障系统的内部设计细节以及关键概念;第9章提供配置Kerberos并建立安全Hadoop集群的详细步骤;第10章介绍Hadoop生态系统组件之间的交互和通信协议;第11章关注如何集成Hadoop安全模型与企业已有的安全系统;第12章提供保护Hadoop生态系统中敏感数据的详细实现方法;第13章深入介绍大数据平台中安全事件监控系统,提供实现安全流程和策略的最新实践。

图书前言

在过去的数年中,Hadoop已经成为数据集成平台的标准解决方案。各企业都在数据基础设施架构中融入新的技术,这要求系统工程师和数据管理员要迅速地掌握新组件的各个方面。由于Hadoop是一款包含多种软件的产品,其中集成了多种不同的开源项目,因此掌握这些技术并不简单,需要进行正确安装和配置才能确保Hadoop平台的健壮性和稳定性。
  许多已有的Hadoop发行版本通过某种类型的图形界面来简化Hadoop的安装。这种方法极大地缩短了构建完整Hadoop集群所需的时间,同时也降低了管理集群配置的复杂性。自动化安装和配置的问题在于隐藏了许多有关Hadoop组件协同工作的重要细节,比如某些组件需要其他组件的原因或者哪些是最为关键的配置参数,等等。
  本书前6章讲解如何手动安装和配置所有主要Hadoop组件。通过设置一个完全可运行的集群,你将会对Hadoop内部的运行机制产生一定的了解并且有助于你调试任何可能发生的问题。你也可以将第1~6章用作主要Hadoop组件和综合配置选项的快速参考。在编写本书的过程中,我自己在实际配置Hadoop集群时也参阅了本书来查找某个特定的变量或者在配置操作系统时寻找最佳步骤。这更加让我坚信,本书会为其他充满热情和经验丰富的Hadoop管理员与开发者提供帮助。
  目前,许多组织在生产环境中实现Hadoop。当一个组织开始大数据之旅,大数据的安全就成为一个重要的问题,而保障敏感数据的安全具有最高的优先级。企业安全部门会担心将Hadoop集成到企业系统后带来的安全隐患。本书第7~13章则提供保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计思想,并且包括在企业内部来确保Hadoop及其生态系统安全的详细方法。这部分的目标是通过深入研究大数据安全参考架构,从企业视角提供端到端的大数据安全,并且详细介绍如何集成各种技术构建一个安全的大数据平台。
本书的内容
  第1章“构建Hadoop集群”回顾主要的Hadoop组件以及选择规划和集群硬件的方法,同时还介绍不同的Hadoop发行版本。
  第2章“安装和配置Hadoop”提供安装和配置主要Hadoop组件的详细步骤:NameNode节点(包括高可用方案)、JobTracker节点、DataNode节点以及TaskTracker。
  第3章“配置Hadoop生态系统”介绍Sqoop、Hive和Impala的配置步骤。
  第4章“Hadoop安全”讲解确保不同Hadoop组件安全的方法,同时还对在Hadoop中配置Kerberos进行介绍。
  第5章“监控Hadoop集群”指导读者逐步将集群开发至实际应用阶段。
  第6章“在云端使用Hadoop”介绍如何在虚拟环境中使用Hadoop,其中包括Elastic MapReduce和Whirr的应用。
  第7章“Hadoop平台安全概述”阐述基于Hadoop的大数据平台安全保障带来的关键挑战和需求,提供大数据安全的企业视角,详细介绍大数据安全参考架构。
  第8章“Hadoop安全体系设计”详细介绍Hadoop安全保障系统的内部设计细节,讲解Kerberos安全机制的关键概念。重点介绍理解本书其他章节所需要的各种术语和概念。
  第9章“配置一个安全Hadoop集群”介绍配置Kerberos并建立安全Hadoop集群的详细步骤。
  第10章“Hadoop生态系统安全保障”详细介绍Hadoop生态系统组件之间的交互和通信协议,及带来的安全隐患,提供构建安全的大数据生态系统的详细步骤。
  第11章“集成Hadoop与企业安全系统”介绍如何集成Hadoop安全模型与企业已有的安全系统,如何集中化管理Hadoop生态系统中的用户访问控制。
  第12章“Hadoop中敏感数据的安全保护”提供保护Hadoop生态系统中敏感数据的详细实现方法,介绍大数据平台中适用的各种数据加密技术。
  第13章“安全事件与审计日志”深入介绍大数据平台中安全事件监控系统,提供实现安全流程和策略的最新实践。
  附录“Hadoop安全机制解决方案”介绍用于构建安全的Hadoop大数据生态系统所需要的各种商业的或开源的技术,深入介绍这些技术的细节及它们在大数据安全参考架构中的位置和作用。
阅读本书需要的条件
  本书中的示例对于软件并没有特定的要求。如果计划在沙盒环境下安装Hadoop集群,那么读者可能需要某种虚拟化软件(比如Virtual Box)。
  为了实践本书提供的例子,则需要一个Hadoop集群。你需要一个多节点Linux集群(最少两个节点安装有CentOS 6.2操作系统或类似系统)。推荐采用Cloudera CDH4.1来安装Hadoop集群。也可以采用任何最新版本的Apache Hadoop发布版本。需要从MIT网站下载并安装Kerberos 5 Release 1.11.3(http:// web.mit.edu/kerberos/krb5-1.11/)。
适合本书的读者群
  本书十分适合Hadoop实践者(大数据架构师、开发人员、系统管理员)阅读,他们具有一定的Hadoop工作经验并且期望保障Hadoop的安全。本书也适合于为企业设计端到端安全保障的大数据平台的大数据架构师。本书同时适合作为实现和配置安全Hadoop系统管理员的参考手册。
约定
  本书在排版中会采用一些特殊字体与正文区别,下面是一些示例及其说明。
  代码片段如下所示:

  如果我们希望读者对某些代码块引起重视,则会设置为粗体:

  任何命令行的输入或者输出如下所示:

  特殊段落的标识如下:
  这里给出警告或者重要注意事项。
  这里给出提示或者技巧。

上架指导

计算机\程序设计

封底文字

Hadoop自动化安装和配置的问题在于隐藏了许多有关Hadoop组件协同工作的重要细节,本书详细介绍如何手动安装和配置所有主要Hadoop组件,以便高效使用Hadoop平台。通过设置一个完全可运行的集群,你将会对Hadoop内部的运行机制产生更深入的了解并且有助于你调试任何可能发生的问题。而且本书还介绍了保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计,并包括在企业内部来确保Hadoop及其生态系统相关组件安全的详细方案。

通过阅读本书,你将了解:
如何手动配置主要的Hadoop组件,以及Hadoop生态系统
如何在云端使用Hadoop,包括Elastic MapReduce和Whirr的应用
如何配置Kerberos并建立安全Hadoop集群
如何保护Hadoop生态系统中敏感数据

作者简介

(美)Danil Zburivsky,Sudheesh Narayanan 著:暂无简介

译者简介

刘杰 沈鑫 译:暂无简介

译者序

信息安全是国家安全的重要组成部分,而数据安全则是信息安全的关键。在大数据时代,数据的集中为数据深入分析提供了可能,也带来了安全隐患。一方面,大数据系统集成了几十个复杂的分布式系统,系统的复杂性也带来新的安全漏洞,大规模集群环境对网络安全的防护带来了挑战;另一方面,数据的深入分析将挖掘出核心商业知识或者个人隐私信息,如何保护这些数据成为大数据项目成败的关键。本书详细介绍了大数据平台Hadoop生态系统的集群搭建,并围绕这个平台提出一套完整的大数据安全体系架构,给出了可以直接实施的解决方案。
  本书由两个部分组成,第1~6章从基本的Hadoop知识开始,逐步带领读者构建一个完整的Hadoop网络,同时在每一个章节中都会列举完成实际项目所需要的基本概念和知识,最后通过实际的动手操作让读者对所学到的知识有更深层次的了解,有助于读者日后能够自行根据需求进行开发和设计。此外作者还提供了一份详细的补充资源列表,其中包括许多实际项目示例的网站以及交流社区,通过这些额外的学习资料,读者可以进一步拓展自己在Hadoop网络的知识面。第7章~13章涵盖认证授权、数据加密、访问控制、审计日志等Hadoop安全的各个方面,提供保障基于Hadoop的大数据平台安全的实现方案和最佳实践。
  本书的特色是考虑了企业信息架构的需求,讲解了在各个环节如何与已有的企业系统来集成,形成安全的大数据平台。本书还十分完整地介绍了Hadoop生态系统各个子系统的安全防护方案,包含MapReduce、HDFS、Hive、Pig、HBase、Oozie等。本书写作浅显易懂,很适合Hadoop系统运维人员作为操作手册。通过阅读本书可以让你从另一个角度来了解Hadoop生态系统,来理解大数据。
  本书的作者是一位精通语法的语言天才,原书的语言诙谐幽默,但又不失技术类书籍的专业性。本书由沈鑫与刘杰合作翻译,沈鑫翻译了第1~6章,刘杰翻译了第7~12章。译者在翻译的过程中力求在最大程度上还原原书的精华之处,即使如此可能还会有不尽人意的地方,希望各位读者批评指正。
  刘杰致谢:
  很高兴可以翻译市面上第一本介绍Hadoop安全的书籍。在本书成稿之时,正好我家
宝宝诞生,这也算是双喜临门吧。十分感谢支持我的家人、同事和学生。
  沈鑫致谢:
  我要感谢我的父母和教导过我的老师,感谢他们无私地把知识传授给我。

图书目录

译者序
作者简介
审校者简介
前言
第1章 构建Hadoop集群1
1.1 选择Hadoop集群硬件2
1.1.1 选择DataNode硬件3
1.1.2 低存储密度集群4
1.1.3 高存储密度集群5
1.1.4 NameNode和JobTracker硬件配置6
1.1.5 网关和其他辅助服务8
1.1.6 网络配置8
1.1.7 Hadoop硬件总结9
1.2 Hadoop发行版10
1.2.1 Hadoop版本10
1.2.2 选择Hadoop发行版11
1.2.3 Cloudera Hadoop 发行版11
1.2.4 Hortonworks Hadoop发行版12
1.2.5 MapR12
1.3 为Hadoop集群选择操作系统13
1.4 小结14
第2章 安装和配置Hadoop15
2.1 在Hadoop集群中配置操作系统15
2.1.1 选择和设置文件系统15
2.1.2 设置Java开发包16
2.1.3 其他操作系统设定17
2.1.4 设置CDH存储库18
2.2 设置NameNode18
2.2.1 JournalNode节点、ZooKeeper以及故障转移控制器22
2.2.2Hadoop配置文件23
2.2.3 NameNode高可用方案配置25
2.2.4 JobTracker配置31
2.2.5DataNode配置36
2.3 小结47
第3章 配置Hadoop生态系统48
3.1托管Hadoop生态项目48
3.2 Sqoop49
3.2.1安装和配置Sqoop49
3.2.2 Sqoop导入示例50
3.2.3 Sqoop导出示例52
3.3 Hive52
3.3.1Hive架构53
3.3.2安装Hive Metastore54
3.3.3 安装Hive客户端 56
3.3.4 安装Hive Server57
3.4Impala59
3.4.1 Impala架构59
3.4.2 安装Impala state store60
3.4.3 安装Impala server60
3.5 小结63
第4章 Hadoop安全64
4.1 Hadoop安全概述64
4.2 Hadoop分布式文件系统安全65
4.3 MapReduce安全66
4.4 Hadoop服务级别验证 68
4.5 Hadoop和Kerberos69
4.5.1 Kerberos概述70
4.5.2 Hadoop中的Kerberos71
4.6 小结76
第5章 监控Hadoop集群77
5.1 监控策略介绍77
5.2 Hadoop参数78
5.2.1 JMX参数79
5.2.2 使用Nagios监控Hadoop80
5.2.3 监控Hadoop分布式文件系统81
5.2.4 NameNode校验81
5.2.5 JournalNode检查83
5.2.6 ZooKeeper检查83
5.3 监控MapReduce84
5.4 使用Ganglia监控Hadoop85
5.5 小结86
第6章 在云端使用Hadoop87
6.1 Amazon Elastic MapReduce87
6.1.1 安装EMR命令行接口88
6.1.2 选择Hadoop版本89
6.1.3 启动EMR集群89
6.2 使用Whirr93
6.3 小结94
第7章 Hadoop平台安全概述95
7.1 为什么需要保障Hadoop生态系统的安全96
7.2 确保Hadoop生态系统安全面临的挑战96
7.3 关键安全因素97
7.4 小结99
第8章 Hadoop安全体系设计100
8.1 什么是Kerberos100
8.1.1 Kerberos关键术语101
8.1.2 Kerberos如何工作102
8.1.3 Kerberos 的优点103
8.2 不采用Kerberos的Hadoop默认安全模型103
8.3 Hadoop Kerberos 安全模型实现105
8.3.1 用户层次的访问控制105
8.3.2 服务层次的访问控制105
8.3.3 用户和服务认证106
8.3.4 授权令牌106
8.3.5 作业令牌106
8.3.6 数据块访问令牌107
8.4 小结108
第9章 配置一个安全Hadoop集群109
9.1 前提条件109
9.2 设置Kerberos110
9.3 配置Hadoop使用Kerberos认证117
9.3.1 在所有Hadoop节点设置Kerberos客户端117
9.3.2 配置Hadoop服务标识118
9.4 Hadoop用户设置124
9.5 安全Hadoop自动部署124
9.6 小结125
第10章 Hadoop生态系统安全保障126
10.1 为Hadoop生态系统组件配置Kerberos127
10.1.1 Hive安全设置127
10.1.2 Oozie安全设置130
10.1.3 Flume安全设置131
10.1.4 HBase安全设置134
10.1.5 Sqoop安全设置137
10.1.6 Pig安全设置138
10.2 Hadoop生态系统组件安全保障最佳实践138
10.3 小结139
第11章 集成Hadoop与企业安全系统140
11.1 集成EIM系统141
11.1.1 配置EIM与Hadoop集成142
11.1.2 集成基于Active Directory的EIM系统与Hadoop生态系统143
11.2 从企业网络访问安全Hadoop集群144
11.2.1 HttpFS145
11.2.2 HUE145
11.2.3 Knox Gateway Server146
11.3 小结147
第12章 Hadoop中敏感数据安全保护148
12.1 Hadoop中敏感数据及保护方法148
12.2 小结154
第13章 安全事件与审计日志155
13.1 Hadoop集群安全事故和事件监控155
13.2 Hadoop集群审计日志设置158
13.3 小结160
附录 Hadoop安全机制解决方案161

教学资源推荐
作者: Brian W.Kernighan,Dennis M.Ritchie
作者: (美)Mary Campione,Kathy Walrath,Alison Huml
作者: 施霞萍 王瑾德 史建成 马可幸 张欢欢 编著
参考读物推荐
作者: [英]詹森·奥尔斯(Jason Alls) 著
作者: (英)Frank Boumphrey 等
作者: 王宇韬 房宇亮 肖金鑫 编著
作者: Dave Shreiner, Mason Woo, Jackie Neider, Tom Davis