Eflops,Zflops的芯片挑战

上传者：7****0 2022-06-06 20:57:39上传 PPT文件 1.01MB

《Eflops,Zflops的芯片挑战》由会员分享，可在线阅读，更多相关《Eflops,Zflops的芯片挑战（19页珍藏版）》请在文档大全上搜索。

1、挑战1:Eflops，Zflops的芯片每10年1000倍性能提升21998(Tflops) 2008(Pflops) 2018(Eflops) 2028(Zflops)今后构建大规模高性能计算机的挑战有哪些?2022-5-27并行计算介绍应用需求在人类历史上很少有任何技术产品能够向高性能计算机的峰值速度一样在如此长的时间内维持指数速度的增长，从过去20年高性能计算机峰值速度的发展规律来看，大约每10年性能可以提高3个数量级。以此推算：在2008年已出现了Pflops(1015 flops)计算机，预计到2018年可能出现峰值速度为Eflops（1018flop/s）的系统，2028年可

2、能出现峰值速度为Zflops（1021flop/s）的系统。2022-5-273并行计算介绍是否需要这么快的计算机一个直观的问题是人类是否需要这么快的计算机，到底有哪些应用需要Eflops，Zflops的性能？实际上，应用对性能的需求几乎是没有止境的，1KM网格的气象模式可以更加准确地对天气情况进行预报，但需要20Pflops的持续性能，以目前的实际应用程序的计算效率为5%左右来看，这意味着接近0.5 Eflops的峰值速度。其它应用，如全球气候模式的模拟需要更多的计算能力。计算化学中很多近似算法的复杂度都是N4，可以很容易地“消费”掉所能提供的计算能力。密码破译、武器研制、高精度气象预报

3、、地球系统模式研究以及新材料研究等，都对使用更高性能的计算机提出了强烈需求。因此，研制速度为Eflops，Zflops的计算系统是保障我国经济建设、科技发展和国防安全的重要任务。2022-5-274并行计算介绍 Computing are Pervasive and PowerfulComputing resources become cheap and prolific.Increasingly low cost for fast CPUs and large memory.Cluster and Internet connect computing nodes easily. Three

4、 types of major computing resources:High end systems, e.g. Blue Gene/L, Earth Simulator.Ultra high performance but expensive. (customer designed nodes/networks)Cluster systems, e.g. ICTs Downing (and many other Top-500s)Low cost, but low sustained performance. (commodity nodes/networks)Google has be

5、en a successfully scalable example. Grid systems, e.g., TeraGrid. Microsoft/IBM “cloud computing”Utilizing global computing resources, but high Internet cost and overhead. Clients are pervasive in everywhere in the globeDesktops, laptops, PDAs, et. al directly connect to the Internet or via wireless

6、Major Resources in Computing and Network Systems Good News in supplyCPU cycles: oversupplied for many applications. Memory bandwidth: improved dramatically.Memory capacity: increasingly large and low cost.I/O bandwidth: improved dramatically. Disk capacity: huge and cheap. Cluster and Internet bandw

7、idths: very rich.Bad News in demandCPU cycles per Watt decreases. (less energy efficient).Cache capacity: always limited. Improvement of data access latencies significantly lags behind. Adam Smith: the balance is guided by an “invisible hand” in the market. We need to balanceOversupplied cyclesHigh

8、demand of fast data accesses and low energy cost7q 1970s-80s:1970s-80s: Killer applications demand a lot of CPU cycles a single processor was very slow (below 1MH) challenges: parallel algorithms, architecture, implement q 1980s:1980s: communication bottlenecks and burden of PP challenge I: fast int

9、erconnection networks challenge II: automatic PP, and shared virtual memoryq 1990s:1990s: “Memory Wall” and utilization of commodity processors challenge I: cache design and optimization challenge II: Networks of Workstations for HPCq 2000s and now:2000s and now: “Disk Wall” and Multi-core processor

10、s 8Moores Law in 37 Years (IEEE Spectrum, May 2008)9Implications and New ChallengesSingle-core CPU reached its peak performance 1971 (2300 transistors on Intel 4004 chip): 0.4 MHz 2005 (1 billion + transistors on Intel Pentium D): 3.75 GHz After 10,000 times improvement, GHz stopped and dropped CPU

11、improvement is reflected by number of cores in a chip Increased DRAM capacity enables large working sets 1971 ($400/MB) to 2006 (0.09 cent/MB): 444,444 times lowerBuffer cache is increasingly important to break “disk wall” Systems/application software faces real challengesTo utilize parallelism in m

12、ulticore is much more complex Resource competition in multicore cause new problems Software needs reconstructions to adapt its new home 10 Multi-Core is the only Choice to Continue Moores LawPerformancePowerDual-CoreOver-Clocked (1.2x)1.13 x1.73 x0.51 x0.87 xUnder-Clocked (0.8x)1.73 xDual-Core (0.8x

13、)1.02 xR.M. Ramanathan, Intel Multi-Core Processors: Making the Move to Quad-Core and Beyond, white paper Much better performance1.00 xBaseline Frequency1.00 xSimilar r power consumption通用部件方式的“成本墙”与“功耗墙” 根据LLBL的一项研究表明，使用现有的集群技术构建200Pflops的系统，如果使用AMD Opteron CPU（处理器频率为2.8GHz），将需要18亿美元的建造成本，功耗为175MW！

14、如果使用IBM的 BlueGene/L（处理器频率为700MHz），建造成本为26亿美元，功耗为27MW。 2022-5-2711并行计算介绍高达数十亿美元的建造成本将使得Eflops计算机的构建面临巨大的挑战，与此同时，数十至数百兆瓦的功耗也为高性能计算机部署与使用设置了重大障碍。由于耗电量巨大，甚至需要为高性能计算机单独设置发电站与供电线路。巨大的系统功耗还对散热系统提出了极高的要求。所有这些因素，都将进一步增加高性能计算机的部署成本和使用成本。因此，要研制下一代高性能计算机，达到Eflops甚至是Zflops的计算性能，就必须对现有的计算机系统结构进行重大变革。2022-5-2712并行

15、计算介绍研究趋势国际上对国际上对Eflops-Zflops系统的研制可以分为系统的研制可以分为两类工作两类工作: 1. 仍基于现有的微电子技术，主要在系统结构、编程仍基于现有的微电子技术，主要在系统结构、编程语言和系统软件方面展开改进性的工作，例如大规模并语言和系统软件方面展开改进性的工作，例如大规模并行加速器技术、可重构技术等。行加速器技术、可重构技术等。 2. 在器件方面希望取得突破，以取代现有的在器件方面希望取得突破，以取代现有的CMOS技技术。术。 132022-5-27并行计算介绍器件方面142022-5-27并行计算介绍Tensilica的半定制CPU 核心来研制大规模的并行系统

16、Tensilica是一家基于美国加州的公司，采用基于Open64的高性能编译器，可让用户方便地定制所需的全套软件工具和芯片，为执行特定类型的应用提供远远高出通用CPU的性能。目前，其已实现了一个188核心的网络处理器，并用于Cisco的路由器中。技术参数为：每核心占芯片面积：0.11平方毫米，功耗：0.05W600MHz以INTEL通用处理器Intel Core2 sc (笔记本电脑用CPU)为例，其技术参数为：芯片面积：130平方毫米，功耗:15W1000MHz可以看出，定制核心的芯片面积和功耗都比通用处理器低了2-3个数量级，使得在同一个芯片上集成数百个乃至上千个处理器核心成为可能。半

17、定制技术使得应用性能与通用核心相比甚至超越通用核心。美国LBNL已决定采用Tensilica来构建其Eflops级高性能计算机。152022-5-27并行计算介绍IBM BlueGene/C BlueGene/L已被IBM用于构建多台Pflops级的系统。与此同时，IBM还启动了BlueGene/C计划（又称Cyclops64）。Cyclops64处理器在一个芯片内封装了80个处理器核心，工作频率500MHz，每个核心包括一个64位的浮点运算单元和2个线程单元，使得每个核心可以同时执行两个线程，整个芯片的峰值速度可以达到80Gflops。一个完整的Cyclops64系统由24x24x24个芯片

18、连接而成，峰值速度为1.1Pflops。可以看到，与BlueGene/L相比，Cyclops64在单个芯片内可集成更多的芯片，大大减少了构建高性能计算系统所需的芯片数，从而可以有效地降低成本和功耗。 162022-5-27并行计算介绍体系结构图 172022-5-27并行计算介绍其它并行加速器比如IBM的CELL芯片，采用一个通用PPE和8个向量SPE，其用于高性能计算的PowerXCell 8i 可以达到102 GFLOPS的双精度浮点性能，世界上第一台超过Pflops的系统就是IBM基于CELL和AMD Opteron平台混合构建的RoadRunner系统。在标志着系统性能功耗比的Green500排行榜上，第1-7名均为基于PowerXCell的高性能计算机系统。使用图形处理器进行计算也引起了重视，目前的GPU可封装256个线程，单精度浮点数的运算性能可达到每块卡1Tflops，对于某些应用来说，具有很好的应用前景。但GPU的双精度性能还较差，而且不遵守IEEE 754标准，特别是除法的精度很差，要在更广泛的范围内应用还需要在结构上进行进一步地改进和优化。ClearSpeed并行加速器等。182022-5-27并行计算介绍谢谢!

文档来源：https://www.renrendoc.com/paper/212535244.html

文档标签：Eflops Zflops 芯片挑战

Eflops,Zflops的芯片挑战

下载地址

文档大全热门下载