片上网络原理与设计
作者 : 王志英 主编 马胜 黄立波 赖明澈 石伟 王鹏 著
出版日期 : 2017-01-12
ISBN : 978-7-111-55516-2
适用人群 : 本书可以用于高级计算机体系结构课程,适合学习计算机
定价 : 99.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 353
开本 : 16
原书名 :
原出版社:
属性分类: 教材
包含CD :
绝版 :
图书简介

本书采用自底向上的方式深入探索了片上网络的设计空间,从底层路由器、缓冲结构和网络拓扑的逻辑实现,到网络层路由算法和流控机制的研究,到上层编程模式和片上网络的协同设计。

图书特色

国内首部片上网络领域学术专著
国防科技大学王志英教授领衔撰写,全景呈现其科研团队国际领先的研究方法和研究成果

面对众核处理器时代的新挑战,片上网络将报文交换思想引入芯片内部,这已成为事实上的片上通信标准,并且直接决定着未来计算机体系结构的发展方向。本书基于以通信为核心的跨层次优化方法,涵盖大量有趣的课题,既阐明了片上网络的基本原理,也为解决当下的设计难题带来了启示。

本书特色
自底向上 全面且深刻地探索片上网络设计空间,从底层路由器、缓存和拓扑结构的实现,到网络层路由算法和流控机制的设计,再到片上网络与高层并行编程模式的协同优化。
前沿创新 针对业界的性能瓶颈,讨论了多项创新性技术思想,如无死锁路由算法和无死锁流控机制等,实验数据详实,切实提高了众核处理器的通信层性能,并降低了硬件开销。
引领方向 如何设计电源门控以降低静态功耗?如何提高CPU和GPU异构结构的效率?如何面向事务存储编程模式定制片上网络结构?这些追问或将展开体系结构设计的新维度。

核心内容
逻辑实现层:低延迟路由器结构,高效动态虚通道结构,虚拟总线拓扑结构。
片上互连层:面向负载聚集模式的路由算法,完全自适应路由算法,Torus片上网络的无死锁高效流控机制,具有高效能和公平性的流控机制。
编程模式层:面向主流共享存储编程模式和消息传递编程模式的优化设计,定制或专用的通信硬件。

作者简介
王志英 国防科技大学计算机学院教授、博士生导师,1992年成为国家级突出贡献中青年专家并享受政府特殊津贴。现任教育部计算机类专业教学指导委员会副主任、全国高校计算机教育研究会理事长、中国计算机学会教育专委会副主任。他的主要研究方向为微处理器设计和计算机系统结构,近十余年作为负责人主持国家自然科学基金、国家“973”计划、国防预研基金、国家“863”高技术研究等科研项目近20项,其研究成果在关键技术上都处于业界领先水平。
作者团队长期从事计算机体系结构研究,在IEEE/ACM Transactions、ISCA、HPCA、DAC等国际顶级期刊和会议上发表了数篇片上网络方向的研究论文,研究成果具有较大的影响力。

图书前言

半导体工艺的进步使得集成电路的晶体管数目不断增加,设计复杂单核处理器面临的功耗急剧上升和收益逐渐下降等问题导致研究人员转向设计多核处理器。当前处理器已经集成了数十甚至上百个计算核,业界已进入众核处理器时代,但是众核处理器设计依然面临着从底层逻辑实现到高层编程模式等方面的关键挑战。众核处理器的正确性、性能和效率都取决于处理器内部的通信机制,有效解决众核处理器面临的众多挑战需要采用以通信为核心的跨层次优化方法。
传统的片上总线通信机制存在带宽较低、延迟较大、功耗较高、可扩展性较差等缺陷。为避免这些缺陷,片上网络将报文交换思想引入芯片内部通信机制中,由于它具备许多优良的特性,因此迅速成为系统结构领域的一个重要研究方向。尽管片上网络与片外网络具有一定的相似性,但是两者在延迟、功耗和面积等方面有着本质区别。片上网络要与计算核一起竞争芯片宝贵的功耗和面积资源,这使得片上网络只能利用有限的功耗和面积资源。为了在有限的功耗和面积开销下获得较高的性能,设计者应该更加关注片上网络的优化,包括底层逻辑实现的优化、网络层路由和流控的优化以及面向高层编程模式的优化。
我们课题组从事计算机系统结构前沿领域的研究,在片上网络方向已有十余年的耕耘,在许多国际知名期刊和会议上发表了数十篇具有影响力的论文。本书对课题组发表的较具影响力的片上网络相关论文进行了回顾和总结,包括在顶级和权威会议ISCA、HPCA、DAC、ICCD、ASAP、ASP-DAC发表的7篇论文,以及在顶级和权威期刊《IEEE Transactions on Computers》《IEEE Transactions on Parallel and Distributed Systems》《ACM Transactions on Architecture and Code Optimization》《Microprocessors and Microsystems》发表的6篇论文。
本书并不是对课题组研究成果和设计经验的简单堆叠,而是对内容进行了精心组织,自底向上涵盖了从底层路由器、缓存和拓扑结构的实现,到网络层路由算法和流控机制的设计,再到片上网络与高层并行编程模式的协同优化等内容。本书包括五个部分,第一部分对本书内容进行简介,第五部分对全书内容进行总结并展望了未来工作,中间三部分是本书的主体部分。
第二部分关注底层逻辑实现,由第2~4章组成。第2章讨论了一种基于翼通道的单周期路由器结构,它能显著降低网络延迟。第3章研究了两种具备拥塞感知能力的动态虚通道结构,这些结构能够在不同虚通道或者不同物理端口之间共享缓存资源。第4章介绍了一种扩展虚拟总线的片上网络拓扑,这种拓扑结构能高效支持重要的多播和广播通信。
第三部分讨论路由算法和流控机制,包括第5~8章。第5章设计面向负载整合模式的路由算法,该路由算法能为多个同时运行的应用程序提供较高适应性和动态隔离性。第6章提出了一种面向完全自适应路由算法的流控机制,它能显著提升缓存资源的利用率。第7章讨论了面向Torus网络的流控机制,所提出的切片气泡流控在低开销条件下获得了较高的性能。第8章研究高效能和公平性流控机制,提出的基于当值缓存的流控机制可有效支持对缓存进行电源门控,同时提出了考虑报文传输公平性的流控机制。
第四部分研究片上网络和高层并行编程模式的协同优化,包括第9~11章。第9章为cache一致性协议中的聚合通信提供硬件支持以防止这些通信成为性能瓶颈。第10章面向消息传递编程模式定制片上网络,为消息传递基本原语提供了专用硬件实现。第11章研究了一种自适应消息传递通信协议,该协议兼具缓存通信模式和同步通信模式的优点。
总之,基于以通信为核心的跨层次优化方法,本书内容显著推动了片上网络和多核处理器研究领域的进步。本书以一种自底向上的方式全面探索了片上网络设计空间,研究成果涵盖片上网络领域的大量研究主题,不仅提升了众核处理器通信层的性能并降低了硬件开销,还有效缓解了众核处理器逻辑实现层和并行编程模式层面临的问题。
本书由王志英主编、策划和统筹,写作分工如下:第1章、第5章、第6章、第7章、第9章和第12章由马胜撰写,第2章由赖明澈撰写,第3章由石伟和赖明澈撰写,第4章、第10章和第11章由黄立波撰写,第8章由王鹏撰写。
本书的编写得到了机械工业出版社的大力支持,并得到了如下项目的资助:国家自然科学基金课题61572508、61272144、61672526、61303065、61472435、61572509和61402497,国家重点研发计划课题2016YFB0200203,国家863计划课题2015AA015302。
本书是国内第一部片上网络领域的学术专著,可用作研究人员的科研参考书,也可作为计算机科学和微电子专业高年级本科生和研究生教材。
由于作者的能力和知识面有限,书中难免存在错误和缺陷,恳请读者批评指正。

王志英
国防科技大学
zywang@nudt.edu.cn
2016年11月于湖南长沙

上架指导

计算机体系结构

封底文字

【英文书名】The Principle and Design of Networks on Chip

面对众核处理器时代的新挑战,片上网络将报文交换思想引入芯片内部,这已成为事实上的片上通信标准,并且直接决定着未来计算机体系结构的发展方向。本书基于以通信为核心的跨层次优化方法,涵盖大量有趣的课题,既阐明了片上网络的基本原理,也为解决当下的设计难题带来了启示。

本书特色
·自底向上。全面且深刻地探索片上网络设计空间,从底层路由器、缓存和拓扑结构的实现,到网络层路由算法和流控机制的设计,再到片上网络与高层并行编程模式的协同优化。
·前沿创新。针对业界的性能瓶颈,讨论了多项创新性技术思想,如无死锁路由算法和无死锁流控机制等,实验数据详实,切实提高了众核处理器的通信层性能,并降低了硬件开销。
·引领方向。如何设计电源门控以降低静态功耗?如何提高CPU和GPU异构结构的效率?如何面向事务存储编程模式定制片上网络结构?这些追问或将展开体系结构设计的新维度。

图书目录

前言
第一部分 序言
第1章 绪论2
1.1 众核处理器时代2
1.2 以通信为核心的跨层次优化3
1.3 片上网络简介5
1.3.1拓扑结构6
1.3.2 路由算法7
1.3.3 流控机制8
1.3.4 路由器微结构10
1.3.5 性能评价指标13
1.4 片上网络研究现状14
1.4.1 拓扑结构的研究14
1.4.2 单播通信路由的研究15
1.4.3 聚合通信路由的研究16
1.4.4 流控机制的研究17
1.4.5 路由器微结构的研究18
1.5 真实处理器的片上网络19
1.5.1 MIT RAW处理器19
1.5.2 Tilera TILE64处理器21
1.5.3 Sony/Toshiba/IBM Cell处理器23
1.5.4 U. T. Austion TRIPS处理器24
1.5.5 Intel Teraflops处理器26
1.5.6 Intel SCC处理器27
1.5.7 Intel Larrabee处理器29
1.5.8 Intel Knights Corner处理器30
1.5.9 真实处理器片上网络特性总结32
1.6 全书内容概述34
1.7 参考文献36
第二部分 逻辑层实现
第2章 单周期翼通道路由器结构48
2.1 引言48
2.2 翼通道路由器体系结构50
2.2.1 翼通道单周期路由器总体结构50
2.2.2 翼通道工作原理55
2.3 路由器微体系结构设计58
2.3.1 通道分配部件58
2.3.2 快速仲裁部件60
2.3.3 SIG管理单元和SIG控制单元61
2.4 实验评估62
2.4.1 模拟环境62
2.4.2 流水线延迟分析63
2.4.3 延迟与吞吐率64
2.4.4 面积与功耗67
2.5 本章小结68
2.6 参考文献69
第3章 动态虚通道路由器71
3.1 引言71
3.2 拥塞感知的动态虚通道结构72
3.2.1 动态虚通道72
3.2.2 拥塞缓解策略74
3.3 拥塞感知的多端口共享缓冲结构75
3.3.1 多端口共享缓冲的动态虚通道75
3.3.2 拥塞缓解策略78
3.4 DVC路由器微结构78
3.4.1 虚通道控制部件79
3.4.2 拥塞缓解电路81
3.4.3 虚通道仲裁部件与开关仲裁部件82
3.5 HiBB路由器微结构84
3.5.1 虚通道控制部件85
3.5.2 虚通道仲裁部件与输出端口仲裁部件86
3.5.3 虚通道调整结构88
3.6 实验评估89
3.6.1 DVC路由器评估89
3.6.2 HiBB路由器评估92
3.7 本章小结95
3.8 参考文献96
第4章 虚拟总线拓扑结构98
4.1 引言98
4.2 相关研究99
4.3 研究动机100
4.3.1 基本片上通信网络100
4.3.2 片上网络问题分析101
4.3.3 基于事务的总线通信优势103
4.4 虚拟总线片上网络103
4.4.1 拓扑结构103
4.4.2 虚拟总线机制105
4.4.3 饿死与死锁避免111
4.4.4 VBON路由器结构111
4.5 实验评估112
4.5.1 模拟框架113
4.5.2 合成流量评估115
4.5.3 真实应用评估118
4.5.4 功耗分析119
4.5.5 开销分析119
4.6 本章小结120
4.7 参考文献120
第三部分 网络层路由和流控设计
第5章 区域隔离路由算法124
5.1 引言124
5.2 相关研究126
5.3 研究动机127
5.3.1 局部自适应算法的局限性128
5.3.2 应用程序内部的干扰129
5.3.3 应用程序之间的干扰130
5.4 区域隔离路由算法131
5.4.1 拥塞信息传播网络132
5.4.2 DBAR路由器微结构134
5.4.3 路由函数设计136
5.5 实验评估139
5.5.1 路由函数评估140
5.5.2 单区域性能142
5.5.3 多区域性能145
5.5.4 集中型网格网络性能148
5.6 硬件开销讨论151
5.6.1 连线资源151
5.6.2 路由器开销151
5.6.3 功耗和能量延迟积151
5.7 进一步讨论152
5.7.1 拥塞信息传播网络带宽152
5.7.2 DBAR的可扩展性153
5.7.3 拥塞信息传播延迟153
5.8 本章小结153
5.9 参考文献153
第6章 完全自适应路由算法的流控机制158
6.1 引言158
6.2 相关研究161
6.2.1 死锁避免理论161
6.2.2 完全自适应路由算法设计162
6.3 研究动机162
6.3.1 虚通道分配策略162
6.3.2 路由灵活性163
6.4 流控和路由设计165
6.4.1 全报文发送165
6.4.2 逃逸虚通道的积极分配策略168
6.4.3 完全自适应路由算法171
6.4.4 路由器微结构171
6.5 合成流量模式评测173
6.5.1 合成流量模式结果174
6.5.2 路由算法的缓存利用率176
6.5.3 敏感性分析178
6.6 真实应用程序评测181
6.6.1 实验方法和实验配置182
6.6.2 PARSEC测试集结果182
6.7 流控机制的详细分析183
6.7.1 缓存利用率的详细分析183
6.7.2 流控机制的公平性分析187
6.8 进一步讨论189
6.8.1 报文长度和虚通道深度189
6.8.2 DAMQ和混合流控机制190
6.9 本章小结190
6.10 参考文献190
第7章 切片气泡流控机制195
7.1引言195
7.2传统设计的局限197
7.2.1dateline197
7.2.2本地气泡策略198
7.2.3关键气泡策略198
7.2.4处理变长报文的低效性199
7.3切片气泡流控机制及策略200
7.3.1理论描述200
7.3.2本地切片气泡策略202
7.3.3关键切片气泡策略202
7.3.4饿死现象203
7.4路由器流水线和微结构205
7.4.1FBFC路由器205
7.4.2VCT路由器206
7.5实验方法207
7.6一维Torus网络性能评测208
7.6.1性能208
7.6.2缓存利用率210
7.6.3短报文和长报文的传输延迟211
7.7二维Torus网络性能评测212
7.7.14×4 Torus网络性能212
7.7.2单切片报文比例敏感性分析214
7.7.3缓存数量敏感性分析215
7.7.48×8 Torus网络可扩展性分析216
7.7.5饿死现象分析217
7.7.6PARSEC测试集实验结果219
7.7.7大规模系统和消息传递编程模式220
7.8开销:功耗和面积221
7.8.1测试方法学222
7.8.2功耗222
7.8.3面积225
7.8.4与网格网络的比较226
7.9进一步讨论和相关工作229
7.9.1进一步讨论229
7.9.2相关工作229
7.10本章小结230
7.11参考文献231
第8章 高效能与公平性流控235
8.1基于当值缓存高效能路由器设计235
8.1.1引言235
8.1.2高效能路由器236
8.1.3实验设计240
8.1.4实验评估241
8.1.5小结243
8.2基于报文剩余跳数的自适应流控244
8.2.1引言244
8.2.2报文之间的相互作用245
8.2.3公平性流控246
8.2.4实验评估249
8.2.5小结252
8.3参考文献253
第四部分 软件层编程模式支持
第9章 一致性协议聚合通信支持256
9.1引言256
9.2归约消息组合框架259
9.2.1消息组合表格式260
9.2.2消息组合实例260
9.2.3消息组合表项的不足262
9.3均衡自适应多播路由算法262
9.4路由器流水线和微结构264
9.5实验评估266
9.5.1性能267
9.5.2BAM和RPM多播虚拟网络性能271
9.5.3消息组合表大小272
9.5.4敏感性分析274
9.6功耗和能量延迟积分析276
9.7相关研究277
9.7.1消息组合277
9.7.2片上网络多播路由算法278
9.8本章小结278
9.9参考文献279
第10章 MPI原语的定制通信架构283
10.1引言283
10.2研究背景284
10.3研究动机286
10.3.1在NoC上实现MPI286
10.3.2MPI函数优化286
10.4定制通信架构287
10.4.1体系结构概述287
10.4.2定制的片上网络设计:VBON288
10.4.3MPI原语实现:MU288
10.5实验评估295
10.5.1方法295
10.5.2实验结果297
10.6本章小结303
10.7参考文献304
第11章 MPI通信协议优化308
11.1引言308
11.2研究背景309
11.2.1MPI的通信协议309
11.2.2现存问题310
11.2.3相关工作313
11.3研究动机314
11.4自适应通信协议315
11.4.1目标与方法315
11.4.2基本MPI加速的片上网络设计316
11.4.3ADCM结构的支持318
11.4.4与理想协议的比较323
11.5实验评估324
11.5.1方法324
11.5.2合成流量结果326
11.5.3真实应用程序328
11.5.4敏感性分析330
11.5.5硬件开销331
11.6本章小结331
11.7参考文献332
第五部分 后记
第12章 结语与展望336
12.1结语336
12.2展望338

教学资源推荐
作者: [美] 琳达·纳尔(Linda Null) 朱莉娅·洛博( Julia Lobur) 著宾夕法尼亚州立大学
作者: (美)Marilyn Wolf 著 佐治亚理工学院
作者: 陈仪香 陈彦辉 编著
作者: 江国强
参考读物推荐
作者: Mark Artiges等
作者: [丹麦]克劳斯·埃尔克(Klaus Elk) 著
作者: 吴飞青,丁晓,李林功,练斌
作者: [英]姚文祥(Joseph Yiu) 著