2022年5月30日,在德国汉堡举行的 ISC 2022公布了第59届的全球超算TOP500榜单,位于美国橡树岭国家实验室 (ORNL) 的新型超级计算机Frontier以绝对优势,成功超越日本的Fugaku,成为了全球最强超级计算机,同时也是全球首个真正的百亿亿次超级计算机。中国的神威·太湖之光和天河二号排名下滑至第六和第九。

百亿亿次超级计算机Frontier:性能最强,能效最高

据介绍,Frontier 在美国橡树岭国家实验室的计算设施 (OLCF) 占地 372 平方米,由 74 个 Cray EX 机柜组成,拥有 9,408 个节点,每个节点配备一个 AMD Milan “Trento” 7A53 Epyc CPU 和 四个AMD Instinct MI250X GPU(GPU核心总数达到了37,632)。

每个节点通过 Hewlett Packard Enterprise(HPE)的 200 Gbit/秒的Slingshot-11 互连连接。

每个节点在 CPU 上运行 512GiB DDR4 内存,在整个节点上运行了 512GiB HMB2e(每个 GPU 128GiB)以及一致的内存。

[备注:1GiB=(1024*1024*1024)B=1073741824B

1GB(1000*1000*1000)B=1000000000B)]

全球超算TOP500:美国突破百亿亿次、中国笑而不语

全球超算TOP500:美国突破百亿亿次、中国笑而不语

全球超算TOP500:美国突破百亿亿次、中国笑而不语

整个Frontier 系统聚合了8730112个计算核心,9.2 PB 的内存(包括4.6 PB 的 DDR4 和 4.6 PB 的 HBM2e),37 PB 的节点本地存储,并可访问 716 PB 的中心范围存储。

凭借强大的硬件配置,Frontier在 Linpack 基准测试下达到了1.102 exaflops 的峰值实测性能,是排名第二的日本Fugaku性能(442 petaflops)的两倍,比TOP500榜单上第2至8名性能的总和还要高。

全球超算TOP500:美国突破百亿亿次、中国笑而不语

美国橡树岭国家实验室主任Thomas Zacharia 在昨天举行的媒体预先简报会上说:“1.1 exaflops的性能,很容易四舍五入而忽视这个0.1,但这个 0.1 代表了 100 petaflops的巨大性能。”

此外,TOP500榜单上还列出了Frontier的理论最大峰值速度 (rPeak),但 HPE 和 美国橡树岭国家实验室 及其他相关者,希望进一步的进行优化,以将Frontier的理论峰值速度提高到 2 petaflops 的项目目标。

在这种情况下,Linpack 得分也将得到提高(Linpack 效率也可能提高,目前仅为 65.4%)在昨天举行的媒体简报会上,Thomas Zacharia也证实了这一消息。

更为值得一提的是,Frontier功耗仅为21,100KW,比排名第二的Fugaku的29,899KW功耗还要更低。同时,Frontier还以每瓦 52.23 gigaflops 的极高能效比,超过了日本的 Preferred Networks MN-3 系统,在 Green500 中也位居榜首。

“世界上最快的超算也是最节能的,这一事实简直令人惊叹。”Thomas Zacharia说到。

美国优势扩大,欧洲开始崛起,中国仍有望逆袭

在2021年5月底公布的全球TOP500超算榜单上,美国当时仅有四个超算系统位居前十榜单,分别排在第二、第三、第六和第七的位置。当时中国的神威·太湖之光和天河2号还占据了第四和第五名。

但是,时隔一年,随着美国百亿亿次超算Frontier的登顶,全球超算格局发生巨变,美国在超算领域的优势扩大,在前十榜单当中也已占据了一半。

全球超算TOP500:美国突破百亿亿次、中国笑而不语
△2021年5月底公布的全球TOP500超算前十榜单(图源:快科技)

全球超算TOP500:美国突破百亿亿次、中国笑而不语
最新的全球TOP500超算前十榜单(图源:快科技)

在最新的全球TOP500超算前十榜单上,除了排名第一的Frontier之外,美国橡树岭国家实验室Summit 在HPL 基准测试中,以 148.8 Pflop/s 的性能排名全球第四。

Summit 有 4,356 个节点,每个节点包含两个具有 22 个内核的IBM Power9 CPU内核和六个NVIDIA Tesla V100 GPU,每个都具有 80 个流式多处理器 (SM)。这些节点通过 Mellanox 双轨 EDR InfiniBand 网络链接在一起。

位于美国加利福尼亚州劳伦斯利弗莫尔国家实验室的Sierra以94.6 Pflop/s的性能排名第 5。它的架构与Summit 非常相似。它由 4,320 个节点,每个节点两个IBM Power9 CPU 和四个 NVIDIA Tesla V100 GPU 构建而成。

此外,美国的超级计算机Perlmutter和Selene分别以64.6 Pflop/s和63.4 Pflop/s的性能,排名第7和第8。其中,Perlmutter基于 HPE Cray“Shasta”平台,以及一个具有基于 AMD EPYC 的节点和 1536 个 NVIDIA A100 加速节点的异构系统;Selene同样是基于AMD EPYC 处理器和NVIDIA A100节点。

全球超算TOP500:美国突破百亿亿次、中国笑而不语

全球超算TOP500:美国突破百亿亿次、中国笑而不语

TOP10超算当中的另一个新变化是——芬兰的 EUROHPC/CSC 的LUMI系统以152 PFlop/s的成绩登上了第三名。这个新的超算系统拥有 1,110,144 个内核。此外,法国 GENCI-CINES 的超算系统Adastra也以 46.1 Pflop/s进入了第10名。

中国的超级计算机神威·太湖之光和天河2号,则分别以 93 Pflop/s 和61.4 Pflop/s的成绩分别排名第6和第9,相比之前排名均有所下滑。

不可否认的是,美国对于中国的先进技术的禁运,以及对于中国超算相关企业的制裁(去年将神威·太湖之光的处理器供应商申威列入了实体清单),在一定程度上阻碍了中国在超算领域前进的步伐。

不过,据可靠消息显示,中国的超级计算机神威·太湖之光和天河2号的继任者,Sunway Oceanlite和天河3号在 Linpack 基准测试中都实现了1.3 exaflops 的性能。如果这两个新系统进入排名,那么今年秋季的 TOPO500 榜单格局将会重新改写。

但是,需要指出的是,在今年5月10日晚间,在英特尔On产业创新峰会上,Intel联合阿贡国家实验室的计算、环境和生命科学实验室,首次展示了支持超过两百亿亿次计算(≥2 exaflops)的极光(Aurora)超级计算机。

全球超算TOP500:美国突破百亿亿次、中国笑而不语

全球超算TOP500:美国突破百亿亿次、中国笑而不语

据介绍,极光(Aurora)超级计算机之所以能够提供每秒超过两百亿亿次的双精度峰值计算性能,主要是因为其采用了内置高带宽内存(HBM)的代号为Sapphire Rapids的英特尔至强处理器和代号为Ponte Vecchio的英特尔数据中心显卡。

目前Aurora超级计算机正在安装当中,或许也将会出现在今年秋季的全球超算TOPO500榜单当中。