教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 301

开本 : 16

原书名 : Programming Models for Parallel Computing

原出版社: MIT Press

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

本书采用一种独特的教程方式来概述了目前用在高性能计算和超算系统的最主流的并行编程模型。本书一开始描述的是最常用的分布式内存计算的并行编程模型，信息传递应用程序接口（MPI）。接下来讨论单向通信模型，范围从低层运行时库（GASNet, OpenSHMEM）到高层编程模型（UPC, GA, Chapel）；面向任务的编程模型（Charm++, ADLB, Scioto, Swift, CnC），这蕾模型允许用户描述自己的计算和数据单位为任务，使得运行时系统如有需要可以管理计算和数据移动；用于多核架构及相关加速器（OpenMP, Cilk Plus, TBB, CUDA, OpenCL）环境下节点并行化的并行编程模型。

图书特色

随着并行计算时代的到来，计算机科学家更加关注如何设计适用于高性能并行计算以及超级计算系统的编程模型。由于多个处理单元同时计算以及移动数据，并行系统上的编程是十分复杂的。本书作者根据自己多年的实际并行编程经验，以一种职业程序员易于掌握的方式对高性能计算以及超级计算系统上的一些最重要的并行编程模型进行了综述。
对于这些编程模型，书中并没有采用学术文献中的正式方法对其进行描述，而是以使用说明的形式进行介绍。本书内容所涵盖的并行编程模型十分广泛，并且配备大量应用和程序示例，可以使读者很好地理解每种编程模型所提供的功能。书中首先对适用于分布式内存架构的并行编程模型进行了介绍，包括最为常用的消息传递接口（MPI）编程模型，以及GASNet、OpenSHMEM、UPC、GA、Chapel等单边通信编程模型；然后面向非规则应用程序，对任务并行编程模型进行了讲解，包括Charm++、ADLB、Scioto、Swift以及CnC编程模型；之后面向节点内多核处理器架构，对OpenMP、Cilk Plus、TBB三种多线程编程模型进行了综述；最后面向异构众核架构，对比了CUDA及OpenCL两种大规模轻量级线程编程模型。
作者简介
帕万·巴拉吉（Pavan Balaji）是美国阿贡国家实验室的计算机科学家以及项目组负责人，西北大学的西北-阿贡科学与工程研究所的研究员，芝加哥大学计算所的研究员。他在超级计算领域享有盛名，是MPI标准的制定者之一，目前负责MPICH的开发与维护。他长期从事并行编程模型、通信及I/O运行时系统、计算机系统结构等相关研究，在SC、PPoPP、TPDS等顶级国际会议及期刊上发表论文超过100篇，并担任超级计算领域若干顶级会议及期刊的主席、程序委员会主席及主编等。

图书前言

对于正在编程的程序员，编程模型可被看作一台虚拟机，并可通过编程语言和函数库实现。如果某个编程模型成为计算机科学研究中的热点，需要具有以下特性：高效性（易于描述各种抽象算法）、移植性（兼容各种硬件计算平台）、高性能（高效均衡地利用硬件平台的计算能力）、通用性（广泛地描述各种算法）。针对特定的编程模型，同时具有上述四种特性中的一种或两种相对容易，但同时具备这四种特性几乎是不可能的。特定的编程模型无法同时具备四种特性的主要原因在于编程模型的多样性，因此需要根据具体的科学应用，选择不同的编程模型特性。
随着并行计算技术的发展，计算机科学领域的专家将研究重点转移到能够适应高性能并行计算和超级计算系统的编程模型设计方向。并行编程模型包含执行模型（选择代码执行路径）和内存模型（管理计算节点间和节点内的数据流）。多核计算需要并发计算和移动数据，这增加了程序运行结果和性能的不确定性，导致并行编程模型变得更加复杂。
从技术上分析，编程模型和编程系统间存在一定区别。编程模型是一种编程方式，例如采用大量同步或者隐含编译器协助的并行化方式，而编程系统指程序员编写程序时实际使用的系统抽象接口。随着时间推移，编程模型和编程系统间的区别逐渐变得模糊。目前，编程模型既是一种编程方式，也是模型实例化过程中所使用的系统抽象接口。
与通用的编程模型设计不同，在大多数并行系统中，程序开发人员往往不采用单一的并行编程模型。不同的开发人员会选择不同层次的虚拟化方式，并在高效性、移植性、高性能和通用性四种编程模型特性中选择不同的组合。针对面向终端的程序开发应用，具体研究领域的科学家通常倾向于选择更高效和高级别的编程模型，即使该编程模型只能针对特定的算法而缺乏通用性。针对编程语言和函数库，程序开发者一般更倾向于选择高性能和低级别的编程模型，即使该编程模型具有较高的使用难度。然而，针对面向终端的程序应用以及编程语言和函数库开发，上述编程模型选择并非是绝对的，可根据实际的开发应用情况进行调整。
关于本书
本书对当今高性能计算以及超级计算系统上的几种最主要的并行编程模型进行了概述。书中包含多种并行编程模型，它们拥有不同的生产效率、可移植性、性能以及表达范围。因此，读者可以学习和理解每种编程模型提供了哪些折中。
第1章讨论了消息传递接口（MPI）。MPI是当今面向分布式内存计算的最重要的并行编程模型。该章对MPI最常用的功能进行了概述，并涉及MPI标准的第三个主要版本 ——MPI-3。
第2～5章从低层次的运行时库到高层次的编程模型，对单边通信模型进行了讨论。第2章介绍了全局地址空间网络（GASNet），它是一种低层次的编程模型，用于多种分区全局地址空间（PGAS）模型的一种通用可移植运行时系统。第3章讨论了OpenSHMEM单边通信库，它用于向用户直接呈现本地硬件通信功能。OpenSHMEM通过扩展库的形式模拟了许多PGAS模型的功能，这样做的好处是不依赖于语言扩展及相应的编译器支持。第4章提供了Unified Parallel C（UPC）编程模型的概述。UPC是基于C语言的PGAS模型，它为全局地址空间内存的创建与管理提供了相应的语言扩展及库接口。第5章介绍了全局数组（GA），与OpenSHMEM类似，GA是另一种基于库的单边通信模型。但GA基于多维数组提供了更高层次的抽象，以方便用户编程。
第6章讨论了Chapel。它是一种高生产率编程模型，支持以任务并行及数据并行两种方式对应用进行描述。Chapel同时也具有一级语言概念，可对局部性进行描述与推理，这与它支持的并行特性是互不相关的。
第7～11章展示了面向任务的编程模型，它们允许用户以任务的方式描述计算及数据单元，并允许运行时系统来管理计算以及必要的数据移动。第7章对Charm++编程模型进行了讨论。Charm++提供了一种依赖于工作过分解的抽象模型，以在可用的计算单元间动态地管理任务。第8章深入讨论了异步动态负载均衡（ADLB）库，它提供了另一种面向任务的工作共享方法，并以MPI作为低层次的通信模型。第9章讨论了可扩展任务对象集合（Scioto）编程模型，它依赖于类似PGAS的单边通信框架来实现基于工作窃取的负载均衡。第10章描述了Swift，它是一种高层次的脚本语言，允许用户使用高层次语义对计算进行描述，并在内部将其翻译成其他面向任务的编程模型，如ADLB。第11章描述了并行集（CnC），它是一种高层次的声明式模型，允许用户将应用描述为由相互通信的内核构成的图。
第12～16章展示了面向节点内并行的编程模型，涉及的硬件环境包括多核架构、加速器以及两者同时存在的情况。第12章讨论了OpenMP。OpenMP是当今科学计算领域最重要的节点内并行编程模型。该章介绍了OpenMP的进化历程以及核心特性，并涉及OpenMP 4.0。第13章讨论了Cilk Plus编程模型，它是一种对C及C++语言的并行扩展，用于在现代共享内存多核机器上开发规则以及非规则并行。第14章讨论了Intel TBB（Threading Building Block），它是一个基于C++模板类实现的库。与Cilk Plus类似，TBB支持共享内存多核架构上的并行执行。第15章讨论了NVIDIA提供的CUDA（Compute Unified Device Architecture）编程模型。CUDA通过单指令多线程块运行方式来支持NVIDIA图形处理单元上的并行计算。尽管CUDA是NVIDIA设备上的专有编程模型，但CUDA在并行编程社区中具有广泛影响力，并在应用中得到广泛使用，因此第15章对CUDA进行了讨论。第16章描述了OpenCL（Open Computing Language）模型，它提供了一个低层次的、平台无关的编程模型，可以在不同异构架构上进行编程，其中包括图形处理单元。
本书对不同编程模型的讲解方式在其他书籍中是很少见的。尤其是通过使用说明的方式来展示材料，而不是以更正式的类似于研究论文的方式展示。本书不是一个致力于详细描述每个编程模型语法及语义的参考手册。本书的目标是描述使用这些模型进行并行编程的通用方法，以及每种方法所实现的目标。不过，本书提供了一些模型所提供的核心接口的语法及语义定义，我们将这些定义作为编程模型所提供抽象的例子。提供这些定义的目的是提高内容的可读性。这些定义并不一定是最重要的或最常用的接口，而只是作为例子说明如何使用该编程模型。
致谢
首先感谢对本书不同章节做出贡献的所有作者：
William D. Gropp，伊利诺伊大学厄巴纳-香槟分校
Rajeev Thakur，阿贡国家实验室
Paul Hargrove，劳伦斯伯克利国家实验室
Jeffery A. Kuehn，橡树岭国家实验室
Stephen W. Poole，橡树岭国家实验室　
Kathy Yelick，加州大学伯克利分校，劳伦斯伯克利国家实验室
Yili Zheng，劳伦斯伯克利国家实验室
Sriram Krishnamoorthy，美国太平洋西北国家实验室
Jeff Daily，美国太平洋西北国家实验室
Abhinav Vishnu，美国太平洋西北国家实验室
Bruce Palmer，美国太平洋西北国家实验室
Bradford L. Chamberlain，Cray公司
Laxmikant Kale，伊利诺伊大学厄巴纳–香槟分校
Nikhil Jain，伊利诺伊大学厄巴纳–香槟分校
Jonathan Lifflander，伊利诺伊大学厄巴纳–香槟分校
Ewing Lusk，阿贡国家实验室
Ralph Butler，中田纳西州州立大学
Steven C. Pieper，阿贡国家实验室
James Dinan，Intel公司
Timothy Armstrong，芝加哥大学
Justin M. Wozniak，阿贡国家实验室，芝加哥大学
Michael G.Burke，阿贡国家实验室，芝加哥大学
Ian T. Foster，阿贡国家实验室，芝加哥大学
Kath Knobe，莱斯大学
Michael G. Burke，莱斯大学
Frank Schlimbach，Intel公司
Barbara Chapman，休斯敦大学
Deepak Eachempati，休斯敦大学
Sunita Chandrasekaran，休斯敦大学
Arch D. Robinson，Intel公司
Charles E. Leiserson，麻省理工学院
Alexey Kukanov，Intel公司
Wen-mei Hwu，伊利诺伊大学厄巴纳–香槟分校
David Kirk，NVIDIA公司
Tim Mattson，Intel公司
尤其感谢Ewing Lusk以及William Gropp对本书的整体贡献以及对修辞的润色。
我也要感谢阿贡国家实验室的数学与计算机科学部的技术作家Gail Pieper，她对本书的格式以及用法进行了不可或缺的指导，极大地提高了本书的可读性。

上架指导

计算机\并行计算

封底文字

随着并行计算时代的到来，计算机科学家更加关注如何设计适用于高性能并行计算以及超级计算系统的编程模型。由于多个处理单元同时计算以及移动数据，并行系统上的编程是十分复杂的。本书作者根据自己多年的实际并行编程经验，以一种职业程序员易于掌握的方式对高性能计算以及超级计算系统上的一些最重要的并行编程模型进行了综述。

对于这些编程模型，书中并没有采用学术文献中的正式方法对其进行描述，而是以使用说明的形式进行介绍。本书内容所涵盖的并行编程模型十分广泛，并且配备大量应用和程序示例，可以使读者很好地理解每种编程模型所提供的功能。书中首先对适用于分布式内存架构的并行编程模型进行了介绍，包括最为常用的消息传递接口（MPI）编程模型，以及GASNet、OpenSHMEM、UPC、GA、Chapel等单边通信编程模型；然后面向非规则应用程序，对任务并行编程模型进行了讲解，包括Charm++、ADLB、Scioto、Swift以及CnC编程模型；之后面向节点内多核处理器架构，对OpenMP、Cilk Plus、TBB三种多线程编程模型进行了综述；最后面向异构众核架构，对比了CUDA及OpenCL两种大规模轻量级线程编程模型。

作者简介

[美] 帕万?巴拉吉（Pavan Balaji）编著：
帕万•巴拉吉（Pavan Balaji）是美国阿贡国家实验室的计算机科学家以及项目组负责人，西北大学的西北-阿贡科学与工程研究所的研究员，芝加哥大学计算所的研究员。他在超级计算领域享有盛名，是MPI标准的制定者之一，目前负责MPICH的开发与维护。他长期从事并行编程模型、通信及I/O运行时系统、计算机系统结构等相关研究，在SC、PPoPP、TPDS等顶级国际会议及期刊上发表论文超过100篇，并担任超级计算领域若干顶级会议及期刊的主席、程序委员会主席及主编等。

译者简介

张云泉李士刚逄仁波袁良译：暂无简介

译者序

随着多核/众核处理器的普及以及并行计算集群应用的日益广泛，如何编写正确、高效的并行程序已经成为软件开发人员面临的一大挑战。并行编程模型是对并行计算机体系结构的抽象，利用它可以更方便地表达并行算法及其组合。从程序员的角度来说，并行编程模型是开发并行程序的工具。根据底层硬件架构及应用领域的不同，通常会有不同的并行编程模型。在特定的机器架构上，选择一种高效的并行编程模型对于并行应用程序的编写及性能至关重要。
本书内容涵盖了当前流行的并行编程模型。针对不同的并行计算机体系结构以及不同的并行应用程序特点，本书深入浅出地介绍了与之对应的并行编程模型。书中首先对适用于分布式内存架构的并行编程模型进行了介绍，包括最为常用的MPI编程模型，以及GASNet、OpenSHMEM、UPC、GA、Chapel等单边通信编程模型；然后面向非规则应用程序，对任务并行编程模型进行了讲解，包括Charm++、ADLB、Scioto、Swift以及CnC编程模型；之后面向节点内多核处理器架构，对OpenMP、Cilk Plus、TBB三种多线程编程模型进行了综述；最后面向异构众核架构，对比了CUDA及OpenCL两种大规模轻量级线程编程模型。本书不仅详细介绍了各种编程模型的特点及使用方法，同时也详细讨论了编程模型的实现细节及关键优化技术，从而帮助读者深入理解并行程序的后台运行原理。此外，本书配备大量应用和程序实例，方便读者掌握相关技巧。总之，本书作者根据自己多年的实际并行编程经验，从程序员的角度思考并行编程模型的本质，并以一种职业程序员易于掌握的方式对最为关键的基本知识和技术进行了细致讲解。本书可作为并行编程的入门材料，也可为具有一定并行编程经验的软件开发人员提供参考，提升并行程序的开发效率。
由于时间仓促，而且书中某些术语目前没有统一译法，所以我们对一些术语采取了保留其英文名称的方法。译文的错误和不妥之处，恳请广大读者不吝批评指正。

图书目录

出版者的话
译者序
前言
第1章　消息传递接口　1
1.1　引言　1
1.2　MPI基础　1
1.3　点对点通信　2
1.4　数据类型　3
1.5　非阻塞式通信　4
1.6　聚合通信　5
1.7　单边通信　7
1.8　并行I/O　9
1.9　其他特性　11
1.10　MPI开发心得　12
1.11　总结　13
第2章　全局地址空间网络　14
2.1　研究背景与动机　14
2.2　GASNet概述　14
2.2.1　相关术语　15
2.2.2　线程　15
2.2.3　API组织　16
2.3　核心API　16
2.3.1　开始和结束　16
2.3.2　段信息　18
2.3.3　屏障　18
2.3.4　锁与中断　19
2.3.5　活动消息　20
2.3.6　活动消息进程　22
2.3.7　活动消息规则与约束　22
2.3.8　出错代码　23
2.4　扩展API　23
2.4.1　GASNet段　23
2.4.2　排序与内存模型　24
2.4.3　阻塞与非阻塞　24
2.4.4　批量与单个　24
2.4.5　寄存器–内存与远程memset操作　24
2.4.6　扩展API总结　25
2.5　附加内容　26
2.5.1　GASNet工具　26
2.5.2　可移植平台头文件　27
2.6　示例　27
2.6.1　编译和运行示例　27
2.6.2　Hello World示例　28
2.6.3　AM Ping-Pong示例　28
2.6.4　AM Ring示例　30
2.6.5　MCS Locks示例　32
2.7　未来方向　35
第3章　OpenSHMEM　37
3.1　引言　37
3.2　设计理念和根据　37
3.3　OpenSHMEM存储模型　39
3.4　对称堆管理　39
3.4.1　初始化和查询　40
3.4.2　分配和释放　40
3.4.3　关于分配和对称堆的说明　41
3.5　远程内存访问：put和get　41
3.5.1　RMA函数语义　41
3.5.2　RMA函数使用　42
3.6　排序和同步　44
3.6.1　全局同步屏障　44
3.6.2　fence和quiet：RMA操作排序　45
3.6.3　锁　46
3.6.4　wait和wait_until　46
3.7　集合操作　47
3.7.1　选择集合参与者　47
3.7.2　同步数组和工作数组　47
3.7.3　非全局同步屏障　48
3.7.4　广播　48
3.7.5　收集　49
3.7.6　归约　50
3.8　原子内存操作　51
3.8.1　原子加和递增　52
3.8.2　原子取–加和取–递增　52
3.8.3　原子交换和条件交换　53
3.9　未来方向　54
第4章　统一并行C　55
4.1　UPC简史　55
4.2　UPC编程模型　56
4.2.1　术语　56
4.2.2　全局地址空间　56
4.2.3　执行模型　57
4.3　UPC概览　57
4.3.1　自省　57
4.3.2　数据布局　57
4.3.3　通信　59
4.3.4　UPC内存一致性模型　60
4.3.5　同步　61
4.3.6　集合操作　62
4.4　UPC程序示例　63
4.4.1　随机访问基准　63
4.4.2　雅可比5点stencil　64
4.4.3　排序示例　65
4.4.4　一维FFT　68
4.5　未来方向　71
第5章　全局数组　72
5.1　引言　72
5.2　编程模型与设计原则　73
5.3　核心功能　74
5.4　进程组　77
5.5　扩展的数组结构　78
5.6　稀疏数组操作的支持　79
5.7　数组上的集合操作　80
5.8　动态负载均衡　80
5.9　实际应用　80
第6章　Chapel　82
6.1　Chapel简史　82
6.1.1　全面启动　82
6.1.2　初始方向　83
6.1.3　HPCS时代　83
6.1.4　后HPCS时代　84
6.2　Chapel的主题思想　84
6.2.1　通用并行性表达　84
6.2.2　支持多线程执行模型　85
6.2.3　支持全局视图编程　85
6.2.4　支持多尺度设计　85
6.2.5　支持局部性控制　86
6.2.6　支持以数据为中心的同步　86
6.2.7　用户与编译器的不同角色　86
6.2.8　缩小主流语言和HPC语言之间的差距　87
6.2.9　从头开始（但争取令人熟悉）　87
6.2.10　远大目标　88
6.2.11　促使Chapel成为可移植的开源软件　88
6.3　Chapel特性概述　88
6.3.1　基本语言特性　89
6.3.2　任务并行　92
6.3.3　数据并行　96
6.3.4　位置特性　98
6.4　总结与未来方向　100
第7章　Charm++　102
7.1　引言　102
7.2　Charm的编程范例以及执行模型　102
7.2.1　以过分解作为核心思想　102
7.2.2　消息驱动的执行模型　103
7.2.3　授权自适应运行时系统　104
7.3　基本语言　104
7.3.1　chare：分解的基本单元　104
7.3.2　入口方法：基本的调度单元　105
7.3.3　异步方法调用　105
7.3.4　带索引的chare集合：chare数组　105
7.3.5　只读变量　106
7.3.6　Charm++对象：用户及系统角度　107
7.3.7　结构化匕首符号　108
7.3.8　示例：一维分解的5点stencil代码　108
7.4　过分解的好处以及消息驱动执行　110
7.4.1　不依赖于处理器个数　110
7.4.2　异步归约　110
7.4.3　自适应计算与通信重叠　110
7.4.4　合成性　111
7.4.5　软件工程方面的好处：逻辑实体的相互独立　111
7.5　一个设计示例：分子动力学模拟　111
7.6　自适应运行时特性　112
7.6.1　Charm++中负载均衡功能　112
7.6.2　容错　113
7.6.3　缩小或扩展处理器集合　114
7.6.4　异构处理器以及加速器的支持　115
7.6.5　额外特性　115
7.6.6　实验特性：热能与功耗管理　115
7.7　底层架构概述　115
7.8　基于Charm++的高层次语言家族　116
7.9　通过Charm++来开发应用程序　117
7.10　作为研究工具的Charm++　118
7.11　Charm++：历史以及现状　118
7.12　总结　118
第8章　异步动态负载均衡　119
8.1　引言　119
8.2　manager-worker模型与负载均衡　119
8.3　ADLB库定义　121
8.3.1　API简介　121
8.3.2　基本的ADLB API　122
8.3.3　使用批处理优化内存使用　123
8.3.4　获取和使用ADLB　124
8.4　实现ADLB　124
8.4.1　ADLBM实现　124
8.4.2　其他实现　125
8.5　示例　125
8.5.1　一个简单的批处理调度　125
8.5.2　动态任务创建：数独解法　126
8.5.3　任务单元类型：旅行推销员问题　127
8.5.4　GFMC　127
8.5.5　Swift　128
8.6　DMEM：一个处理大数据的辅助库　128
8.7　总结与未来方向　129
第9章　可拓展任务对象集合　130
9.1　Scioto任务并行执行模型　131
9.1.1　任务对象　131
9.1.2　任务输入/输出模型　132
9.1.3　任务执行模型　132
9.2　多级并行任务集合　133
9.3　Scioto + GA编程接口　134
9.3.1　核心编程结构　134
9.3.2　实现一个Scioto任务　135
9.3.3　示例：矩阵–矩阵乘法　135
9.4　Scioto运行时系统　136
9.4.1　共享任务队列方法　136
9.4.2　动态负载均衡方法　137
9.4.3　终止检测　137
9.5　总结　138
第10章　Swift：极端规模的隐式并行脚本　139
10.1　第一个示例：并行因式分解　140
10.2　一个真实的示例：晶体坐标转换　140
10.3　Swift发展历史　142
10.4　Swift语言和编程模型　142
10.4.1　Hello World示例　143
10.4.2　变量和标量数据类型　143
10.4.3　数据流执行　144
10.4.4　条件判断语句　145
10.4.5　数据依赖控制流　145
10.4.6　foreach循环和数组　145
10.4.7　Swift函数　146
10.4.8　外部函数　147
10.4.9　文件和app函数　148
10.5　Swift执行模型　148
10.6　大规模并行运行时系统　150
10.7　运行时架构　151
10.8　性能分析　153
10.9　Swift的大规模并行编译　153
10.10　相关工作　154
10.11　总结　155
第11章　并发集合编程模型　157
11.1　引言　157
11.2　研究动机　158
11.3　CnC领域语言　158
11.3.1　概述　158
11.3.2　特征　160
11.3.3　示例　161
11.3.4　执行语义　162
11.3.5　CnC编程　163
11.3.6　未来工作　167
11.4　CnC调优语言　168
11.4.1　描述　168
11.4.2　特征　171
11.4.3　示例　171
11.4.4　执行模型　173
11.4.5　未来工作　175
11.5　当前状态　175
11.6　相关工作　175
11.7　总结　177
第12章　OpenMP　178
12.1　引言　178
12.2　概述　179
12.2.1　术语　179
12.2.2　管理数据环境　180
12.2.3　OpenMP概念简述　181
12.3　OpenMP特性　182
12.3.1　并行区域　182
12.3.2　同步　186
12.3.3　工作共享　187
12.3.4　任务并行化　191
12.3.5　向量化　195
12.3.6　加速器支持　196
12.3.7　区域取消　199
12.4　性能优化建议　200
12.5　关于正确性的思考　201
12.6　总结与未来方向　201
第13章　Cilk Plus　202
13.1　引言　202
13.2　向量并行化　203
13.2.1　数组标注　204
13.2.2　pragma SIMD　205
13.2.3　支持SIMD的函数　206
13.3　线程并行　208
13.4　并行性能　211
13.5　数据竞争　215
13.6　实践技巧　216
13.7　历史　219
13.8　总结　220
第14章　Intel TBB工具　221
14.1　引言　221
14.1.1　概述　221
14.1.2　基本信息　221
14.2　泛型并行算法　222
14.2.1　简单循环的并行化　222
14.2.2　在STL容器中处理数据　223
14.2.3　复杂迭代空间　224
14.2.4　其他算法　226
14.3　流图　226
14.3.1　概述　227
14.3.2　节点通信协议　227
14.3.3　控制依赖图　228
14.3.4　数据流图　230
14.3.5　流图、算法和无环图的选择　232
14.4　总结　232
第15章　CUDA　233
15.1　CUDA简史　233
15.2　CUDA编程结构　234
15.3　示例：向量加法　235
15.4　设备内存和数据传输　236
15.5　kernel函数与线程　238
15.6　线程组织　240
15.7　线程和多维数据的映射　242
15.8　同步与透明可扩展性　243
15.9　线程块的资源分配　244
15.10　CUDA流与任务并行　244
15.11　总结　248
第16章　OpenCL开放计算语言　249
16.1　计算语言与OpenCL　249
16.2　基本定义　250
16.3　计算机、编程和异构　250
16.4　OpenCL的诞生　251
16.5　OpenCL的核心模型　252
16.5.1　平台模型　252
16.5.2　执行模型　253
16.5.3　内存模型　255
16.5.4　编程模型　257
16.6　OpenCL主机程序：向量加法　258
16.7　总结　266
参考文献　268