高性能计算系统与大数据分析
作者 : [印] 佩瑟鲁·拉吉(Pethuru Raj) 阿诺帕马·拉曼(Anupama Raman) 德维亚·纳加拉杰(Dhivya Nagaraj) 悉达多·杜格拉拉 (Siddhartha Duggirala) 著
译者 : 齐宁 庞建民 张铮 韩林 译
出版日期 : 2018-10-24
ISBN : 978-7-111-61175-2
定价 : 79.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 288
开本 : 16
原书名 : High-Performance Big-Data Analytics:Computing Systems and Approaches
原出版社: Springer
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

大数据时代,数据的规模、速度、范围和结构对计算、存储和网络基础设施提出了更高的要求,如何构建更加高效的基础设施对于获得良好的大数据分析结果至关重要。本书从大数据分析中对高性能技术的需求讲起,分析了进行高性能大数据分析需要的网络基础设施、存储基础设施,如何使用高性能计算进行实时分析,高性能计算范型,大数据分析中的高性能集成系统、数据库和数据仓库,高性能大数据分析的可视化等内容。

图书特色

1

图书前言

一些行业趋势以及一系列强大的技术和工具无疑将导致大规模的数据爆炸。不经意间,数据已经压倒性地成为各行各业的战略资产。这些前所未有的数据包括以下值得注意的变化:设备生态系统随着人们不断变化的想象而持续扩展;随着智能仪器和互联技术的发展,机器变得智能,并且产生了高达PB乃至EB级的数据;个人及专业应用都支持服务,从而可以互相操作,进而实现有益的数据共享;社交网站每天产生TB级的数据;我们周围的普通物体都被精密地数字化,以不同的速度产生大量的多结构数据。另一方面,ICT基础设施和平台被高度优化和组织以进行有效的数据存储、处理和分析,具有适应性的WAN技术正在形成以加速数据的安全传输,新的架构模式被融入,过程也系统地变得更加灵活,等等,目的是使数据有意义。
仔细分析数据可以提供丰富的信息,这些信息能够彻底改变我们生活的方方面面。这个想法已经在当今IT领域演变成为游戏规则改变者,被人们称为大数据分析。考虑到数据的规模、速度、范围和结构,计算、存储和网络基础设施需要非常高效。大数据为IT带来了三个关键挑战:大数据的存储和管理,大数据分析,产生利用大数据分析的复杂应用。准确地说,大数据分析(BDA)正在迅速成为下一代高性能计算学科,学生、学者和科学家需要挖掘出有效的算法、模式、方法、最佳实践、关键准则、评价指标等。
本书概要介绍这些技术。为了高效率地捕捉、获取、吸收、处理大数据,以便实现知识发现和传播,目前需要对网络和存储基础设施优化进行认真的分析。本书中还包含了大数据分析在各个行业中的应用案例,目的是使读者以简明的方式了解数据分析的重要性。
第1章:IT领域的变革以及未来趋势。本章列出了IT领域尤其是大数据和快速数据背景下的新变化。对ICT领域有前景的、潜在的技术及工具进行了特别介绍,目的是让读者了解本书中会涵盖哪些内容。
第2章:大数据/快速数据分析中的高性能技术。本章对高性能大数据及快速数据分析中最具代表性的技术进行了分类。
第3章:大数据与快速数据分析对高性能计算的渴望。本章解释了大数据和快速数据分析的本质,目的是强调高性能计算需求的重要性,从而能够从数据堆中获取可行的洞见。
第4章:高性能大数据分析的网络基础设施。本章总结了有效地传输大数据的网络基础设施要求。为了能够通过网络有效地进行大数据传输,需要对现有网络基础设施进行一些改动。可以使用的技术包括网络虚拟化、软件定义网络(SDN)、两层Leaf-Spine架构、网络功能虚拟化,本章对这些技术进行了详细的讨论。此外,还需要对现有的广域网基础设施进行优化,以有效地传输大数据。本章还讨论了一种名为FASP的技术,它能够有效利用TCP/IP协议传输大数据。FASP的一些实现方面的问题也包含在本章中。
第5章:高性能大数据分析的存储基础设施。本章总结了产生大数据的应用程序的存储基础设施需求。目前的存储基础设施没有对存储和处理大数据进行优化,现有存储技术的主要问题在于缺乏可扩展性,因此,设计一种能够有效处理大数据的新存储技术是当务之急。在本章中,首先介绍了现有存储基础设施以及它们对处理大数据的适合程度。之后,介绍了一些专门为处理大数据而设计的平台和文件系统,例如Panasas文件系统、Lustre文件系统、GFS、HDFS。
第6章:使用高性能计算进行实时分析。本章讨论了实时环境中的分析问题,涵盖了新近的实时分析解决方案,例如机器数据分析和运营分析。本章可以让读者了解数据是如何进行实时处理的,以及实时处理对我们更美好的未来生活的价值。
第7章:高性能计算范型。本章详细介绍了多年来高性能计算在大型机上的演变以及背后的原因。几年前,得出的结论是大型机将随着技术的发展而消失,但是像IBM这样的公司已经证明,大型机不会消失,而是通过提供曾经被认为完全不可能的解决方案继续发挥作用。
第8章:in-database处理与in-memory分析。本章阐明in-database分析技术以及in-memory分析技术。当业务系统大规模运行时,将数据移入或移出数据存储可能是非常令人畏惧且代价昂贵的。当我们将“处理”移动到“数据”的附近时,数据处理是在数据存储中完成的,这样做可以减少数据移动成本,并使用更大的数据集来挖掘数据。随着企业的发展,速度已经变得至关重要,此时就需要实时数据库来发挥作用。本章涵盖了in-database分析技术及in-memory分析技术的方方面面,并给出了适当的例子。
第9章:大数据/快速数据分析中的高性能集成系统、数据库和数据仓库。在即将到来的大数据时代,对新型数据管理系统有着独特的需求。本章清晰地介绍了新出现的集群SQL数据库、NoSQL数据库和NewSQL数据库,并对专用于大数据的数据仓库进行了解释。
第10章:高性能网格和集群。本章阐明了可用于支持大数据分析及数据密集型处理的技术和软件工具。全球的企业都面临着降低分析平台的TCO(总体拥有成本)的压力,同时还要在必要的水平上继续运行。使用这些高性能系统,企业能够满足所需的性能要求。本章介绍了集群和网格计算系统在大数据分析领域的不同用例。
第11章:高性能P2P系统。本章介绍了大数据分析领域中使用的P2P技术和工具。由于数据存储或分析系统的大规模性质,服务器之间通常具有主从关系。这有助于应用程序的并行化,但是当主节点故障时会产生问题—所有的请求都得不到回复。在这种场景下,如果软件结构是分散的,即没有主服务器,那么就不会发生单点故障,因此所有的请求都会得到回复。本章介绍了使用高性能P2P系统的不同用例。
第12章:高性能大数据分析的可视化维度。本章主要介绍可视化技术和工具。随着数据大小以及数据复杂性的增加,理解数据的含义变得更加困难。如果数据或分析输出以某种可视化形式而不是简单的数字显示,用户可以轻松地获取其含义并据此开展工作。本章介绍了大数据分析领域所使用的信息可视化技术的不同用例。
第13章:用于组织增权的社交媒体分析。本章重点介绍社交媒体分析,这是大数据分析的主要技术用例之一。大数据的主要驱动之一就是社交媒体网络所产生的大量非结构化数据。这导致了一种名为社交媒体分析的新分析潮流的出现。本章讨论了社交媒体分析演变的各种驱动因素,详细讨论了描述社交媒体分析用于组织变革的各种用例,此外还详细讨论了跟踪社交媒体对组织的影响时使用的内容指标。用于社交媒体分析的关键预测分析技术是使用文本挖掘的网络分析和情感分析,本章对这两种技术进行了讨论,此外还讨论了一些用于社交媒体分析的工具。
第14章:医疗保健的大数据分析。这一章说明了分析在医疗保健领域的重要性。不言而喻,医疗保健的未来是我们所有人的未来。本章涵盖了医疗保健分析的重要驱动因素以及医疗保健中的大数据分析用例。本章提供了一个例子,该例子说明过去未被注意的数据有望以高性价比方式向患者提供优质护理。

上架指导

计算机\数据科学

封底文字

随着信息技术的发展,数据规模越来越大,数据产生的速度越来越快,数据结构也越来越多样,这就对完成大数据分析所需的计算模式、存储方式、网络基础设施提出了更高的要求。大数据分析与高性能计算系统的融合已成为必然的趋势。
本书强调了数据分析在智能未来中不可或缺的作用,介绍了新兴的大数据分析类型和相关数据分析技术,并对相应的高性能计算系统进行了详细介绍。除了全面覆盖多种多样的计算机系统以及用于高性能大数据分析的成熟技术外,本书还提供了丰富的案例、实践指导等,使决策者能够选择恰当的计算机系统和解决方案。

主题与特色:
案例研究和学习活动贯穿全书,且每章结尾有习题。
为用于商业智能的社交媒体分析以及医疗保健部门的大数据分析提供详细的案例研究。
描述大数据高效传输所需的网络基础设施,以及生成大数据的应用程序所需的存储基础设施。
考察实时分析解决方案,例如机器数据分析和运营分析。
介绍用于数据挖掘的in-database处理和in-memory分析技术。
讨论大型机在处理实时大数据中的用途,以及用于大数据和快速数据分析的新类型的数据管理系统。
提供使用集群、网格、云计算系统进行大数据分析和数据密集型处理的信息。
回顾可用于大数据分析的P2P技术和工具以及常见的信息可视化技术。

译者序

近年来,随着信息技术的发展,特别是互联网和物联网的飞速发展,产生、收集、存储了大量的数据,急需有效的分析方法从数据中挖掘有意义的规律,这使得大数据技术成为当前非常流行的一种技术。
本书同市面上常见的介绍大数据技术或工具的书籍有较大的不同,更侧重于介绍大数据分析所需的高性能基础设施以及高性能大数据分析领域的新技术和工具。本书内容非常丰富,在新兴分析类型方面,涵盖了传感器分析、机器分析、运营分析、实时分析、高性能分析、社交媒体和网络分析、客户情绪分析、品牌优化分析、金融交易及趋势分析、零售分析、能量分析、药物分析以及效用分析等。在IT基础设施方面,则包含了大型机、并行和超级计算系统、P2P、集群和网格计算系统设备、专业集成和按需定制的系统、实时系统、云基础设施等。
本书由齐宁、庞建民、张铮、韩林完成主要章节的翻译,刘浩、刘镇武也参与了本书的部分翻译工作。在为期近一年的翻译过程中,虽然我们已经对译稿进行了仔细校对,查阅了大量相关资料,使译文尽可能符合中文习惯并保持术语的一致性,但由于本书涉及的范围非常广泛,错误或不当之处仍难以完全避免,敬请各位读者和同行专家谅解,诚挚希望读者将相关意见、建议发送到电子邮箱qining2005@126.com。
特别感谢机械工业出版社华章分社的朱劼编辑,没有她的信任、耐心与支持,整个翻译工作不可能完成。

译者
2018年9月于郑州

图书目录

译者序

前言
第1章 IT领域的变革以及未来趋势1
1.1 引言1
1.2 新兴的IT趋势1
1.3 数字化实体的实现与发展4
1.4 物联网/万物互联5
1.5 对社交媒体网站的广泛采用7
1.6 预测性、规范性、个性化分析时代7
1.7 用于大数据及分析的Apache Hadoop11
1.8 大数据、大洞见、大动作13
1.9 结论15
1.10 习题15
第2章 大数据/快速数据分析中的高性能技术16
2.1 引言16
2.2 大数据分析学科的出现17
2.3 大数据的战略意义18
2.4 大数据分析的挑战19
2.5 高性能计算范型19
2.6 通过并行实现高性能的方法21
2.7 集群计算22
2.8 网格计算24
2.9 云计算27
2.10 异构计算29
2.11 用于高性能计算的大型机31
2.12 用于大数据分析的超级计算32
2.13 用于大数据分析的设备32
2.13.1 用于大规模数据分析的数据仓库设备33
2.13.2 in-memory大数据分析35
2.13.3 大数据的in-database处理37
2.13.4 基于Hadoop的大数据设备38
2.13.5 高性能大数据存储设备41
2.14 结论42
2.15 习题42
参考文献43
第3章 大数据与快速数据分析对高性能计算的渴望44
3.1 引言44
3.2 重新审视大数据分析范型45
3.3 大数据和快速数据的含义47
3.4 用于精确、预测性、规范性洞见的新兴数据源48
3.5 大数据分析为何不俗50
3.6 传统的和新一代的数据分析案例研究51
3.7 为何采用基于云的大数据分析55
3.8 大数据分析:主要处理步骤57
3.9 实时分析58
3.10 流分析62
3.11 传感器分析63
3.11.1 大数据分析与高性能计算的同步:附加价值63
3.12 结论64
3.13 习题64
第4章 高性能大数据分析的网络基础设施65
4.1 引言65
4.2 当前网络基础设施的局限66
4.3 高性能大数据分析网络基础设施的设计方法68
4.3.1 网络虚拟化68
4.3.2 软件定义网络76
4.3.3 网络功能虚拟化78
4.4 用于传输大数据的广域网优化79
4.5 结论81
4.6 习题81
参考文献81
第5章 高性能大数据分析的存储基础设施82
5.1 引言82
5.2 直连式存储83
5.2.1 DAS的缺点84
5.3 存储区域网络85
5.3.1 块级访问85
5.3.2 文件级访问85
5.3.3 对象级访问85
5.4 保存大数据的存储基础设施需求86
5.5 光纤通道存储区域网络87
5.6 互联网协议存储区域网络88
5.6.1 以太网光纤通道88
5.7 网络附属存储89
5.8 用于高性能大数据分析的流行文件系统89
5.8.1 Google文件系统89
5.8.2 Hadoop分布式文件系统91
5.8.3 Panasas92
5.8.4 Luster文件系统94
5.9 云存储简介96
5.9.1 云存储系统的架构模型96
5.9.2 存储虚拟化98
5.9.3 云存储中使用的存储优化技术100
5.9.4 云存储的优点101
5.10 结论101
5.11 习题101
参考文献102
进一步阅读102
第6章 使用高性能计算进行实时分析103
6.1 引言103
6.2 支持实时分析的技术103
6.2.1 in-memory处理103
6.2.2 in-database分析105
6.3 大规模在线分析106
6.4 通用并行文件系统107
6.4.1 GPFS用例107
6.5 GPFS客户案例研究111
6.5.1 广播公司:VRT111
6.5.2 石油公司从Lustre迁移到GPFS113
6.6 GPFS:关键的区别113
6.6.1 基于GPFS的解决方案114
6.7 机器数据分析114
6.7.1 Splunk114
6.8 运营分析115
6.8.1 运营分析中的技术115
6.8.2 用例以及运营分析产品116
6.8.3 其他IBM运营分析产品117
6.9 结论117
6.10 习题118
第7章 高性能计算范型119
7.1 引言119
7.2 为何还需要大型机119
7.3 大型机中HPC是如何演化的120
7.3.1 成本:HPC的一个重要因素120
7.3.2 云计算中的集中式HPC120
7.3.3 集中式HPC的要求121
7.4 HPC远程模拟121
7.5 使用HPC的大型机解决方案121
7.5.1 智能大型机网格121
7.5.2 IMG的工作原理122
7.5.3 IMG架构122
7.6 架构模型125
7.6.1 具有共享磁盘的存储服务器125
7.6.2 没有共享磁盘的存储服务器125
7.6.3 无存储服务器的通信网络125
7.7 对称多处理126
7.7.1 什么是SMP126
7.7.2 SMP与集群方法126
7.7.3 SMP是否真的重要126
7.7.4 线程模型127
7.7.5 NumaConnect技术127
7.8 用于HPC的虚拟化127
7.9 大型机方面的创新127
7.10 FICON大型机接口128
7.11 大型机对手机的支持129
7.12 Windows高性能计算129
7.13 结论130
7.14 习题131
第8章 in-database处理与in-memory分析132
8.1 引言132
8.1.1 分析工作负载与事务工作负载的对比132
8.1.2 分析工作负载的演化133
8.1.3 传统分析平台135
8.2 in-database分析135
8.2.1 架构137
8.2.2 优点和局限138
8.2.3 代表性的系统138
8.3 in-memory分析140
8.3.1 架构141
8.3.2 优点和局限142
8.3.3 代表性的系统142
8.4 分析设备145
8.4.1 Oracle Exalytics145
8.4.2 IBM Netezza145
8.5 结论147
8.6 习题147
参考文献148
进一步阅读148
第9章 大数据/快速数据分析中的高性能集成系统、数据库和数据仓库149
9.1 引言149
9.2 下一代IT基础设施和平台的关键特征150
9.3 用于大数据/快速数据分析的集成系统150
9.3.1 用于大数据分析的Urika-GD设备151
9.3.2 IBM PureData System for Analytics152
9.3.3 Oracle Exadata Database Machine153
9.3.4 Teradata数据仓库和大数据设备153
9.4 大数据分析的融合式基础设施154
9.5 高性能分析:大型机+Hadoop155
9.6 快速数据分析的in-memory平台158
9.7 大数据分析的in-database平台160
9.8 用于高性能大数据/快速数据分析的云基础设施161
9.9 用于大数据的大文件系统164
9.10 用于大数据/快速数据分析的数据库和数据仓库166
9.10.1 用于大数据分析的NoSQL数据库167
9.10.2 用于大数据/快速数据分析的NewSQL数据库169
9.10.3 用于大数据分析的高性能数据仓库170
9.11 流分析173
9.12 结论176
9.13 习题176
第10章 高性能网格和集群177
10.1 引言177
10.2 集群计算179
10.2.1 集群计算的动机179
10.2.2 集群计算架构180
10.2.3 软件库和编程模型182
10.2.4 先进集群计算系统189
10.2.5 网格与集群间的差异189
10.3 网格计算190
10.3.1 网格计算的动机191
10.3.2 网格计算的演进192
10.3.3 网格系统的设计原则和目标192
10.3.4 网格系统架构193
10.3.5 网格计算系统的优点和局限196
10.3.6 网格系统和应用196
10.3.7 网格计算的未来201
10.4 结论202
10.5 习题202
参考文献203
进一步阅读204
第11章 高性能P2P系统205
11.1 引言205
11.2 设计原则与特点206
11.3 P2P系统架构207
11.3.1 集中式P2P系统207
11.3.2 分散式P2P系统208
11.3.3 混合P2P系统210和框架211
11.4 高性能P2P应用212
11.4.1 Cassandra212
11.4.2 SETI @ Home214
11.4.3 比特币:基于P2P的数字货币215
11.5 结论216
11.6 习题217
参考文献217
进一步阅读219
第12章 高性能大数据分析的可视化维度220
12.1 引言220
12.2 常用技术224
12.2.1 图表224
12.2.2 散点图225
12.2.3 树状图226
12.2.4 箱形图226
12.2.5 信息图227
12.2.6 热图227
12.2.7 网络和图的可视化228
12.2.8 词云与标签云228
12.3 数据可视化工具与系统229
12.3.1 Tableau229
12.3.2 Birst231
12.3.3 Roambi232
12.3.4 Qlikview233
12.3.5 IBM Cognos234
12.3.6 Google Charts和融合表234
12.3.7 Data-Driven Documents(D3.js)235
12.3.8 Sisense236
12.4 结论237
12.5 习题237
参考文献238
进一步阅读238
第13章 用于组织增权的社交媒体分析239
13.1 引言239
13.1.1 社交数据收集239
13.1.2 社交数据分析240
13.1.3 移动设备的发展240
13.1.4 强大的可视化机制240
13.1.5 数据本身的快速变化240
13.2 社交媒体分析入门241
13.3 建立一个用于企业社交媒体分析的框架242
13.4 社交媒体内容指标243
13.5 社交媒体分析的预测分析技术244
13.6 使用文本挖掘的情感分析架构245
13.7 社交媒体数据的网络分析246
13.7.1 社交媒体数据的网络分析入门246
13.7.2 使用Twitter的网络分析247
13.7.3 极化网络图247
13.7.4 In-Group图248
13.7.5 Twitter品牌图248
13.7.6 Bazaar网络248
13.7.7 广播图248
13.7.8 支持网络图248
13.8 组织的社交媒体分析的不同方面249
13.8.1 收入及销售的潜在客户开发250
13.8.2 客户关系和客户体验管理251
13.8.3 创新251
13.9 社交媒体工具251
13.9.1 社交媒体监控工具251
13.9.2 社交媒体分析工具252
13.10 结论252
13.11 习题252
参考文献252
第14章 医疗保健的大数据分析253
14.1 引言253
14.2 影响医疗保健的市场因素254
14.3 不同的相关方设想不同的目标255
14.4 大数据对医疗保健的好处255
14.4.1 医疗保健效率和质量256
14.4.2 早期疾病检测256
14.4.3 欺诈检测256
14.4.4 人口健康管理257
14.5 大数据技术采纳:一个新的改进258
14.5.1 IBM Watson258
14.5.2 IBM Watson架构258
14.6 医疗保健领域中的Watson259
14.6.1 WellPoint和IBM259
14.7 EHR技术259
14.7.1 EHR数据流260
14.7.2 EHR的优点261
14.8 远程监控和传感261
14.8.1 技术组件261
14.8.2 应用远程监控的医疗保健领域261
14.8.3 远程监控的局限262
14.9 面向医疗保健的高性能计算262
14.10 人脑网络的实时分析262
14.11 癌症检测263
14.12 3D医学图像分割263
14.13 新兴医疗方法264
14.14 BDA在医疗保健方面的用例264
14.15 人口健康控制265
14.16 护理流程管理265
14.16.1 核心IT功能265
14.17 Hadoop用例266
14.18 大数据分析:成功案例268
14.19 BDA在医疗保健方面的机会269
14.20 Member 360269
14.21 基因组学269
14.22 临床监测271
14.23 BDA在医疗保健中的经济价值271
14.24 医疗保健的大数据挑战272
14.25 医疗保健大数据的未来273
14.26 结论273
14.27 习题273

教学资源推荐
作者: [美]安妮塔·伍尔福克(Anita Woolfolk) 著
作者: 主编 李春华 贾楠
作者: (美) 保罗C.科兹比(Paul C.Cozby)        加利福尼亚州立大学富勒顿分校    著斯科特C.贝茨(Scott C. Bates)犹他州立大学
作者: [美]罗伯特R.帕加诺(Robert R.Pagano) 著
参考读物推荐
作者: [美]凯尔西·克罗(Kelsey Crowe),埃米莉·麦克道尔(Emily McDowell) 著