NVIDIA发布96个节点的DGX Superpod超算

国际超算大会ISC 2019本周在德国法兰克福召开,在第一天的会议上,NVIDIA发布了使用96个节点构建的DGX Superpod超算集群。使用不到100个节点,NVIDIA就构建了可以在2019年6月的Top 500超算榜单上位列第22位的超算。在美国第二台目标Exaflop的超算Frontier正式公布一文中,我列出了Top 500榜单排名前十超算的主要规格,这些超算的节点数量通常都是成千上万。所以,使用不到100个节点就能达到如此高的性能排名,DGX Superpod超算在软硬件性能上还是相当不错的。

DGX Superpod总共使用了96台DGX-2H,每台DGX-2H中有16块NVIDIA Tesla V100 GPU,这意味着该超算集群中总共有1536块GPU卡。下图是NVIDIA DGX-2H和DGX-2规格参数对比,可以看到DGX-2H只是在DGX-2基础上小幅提升的一款产品。

NVIDIA宣称其只用了三个星期就搭建好了DGX Superpod,这个速度在超算建设中是相当快的。由于NVIDIA已经收购了Mellanox,在DGX Superpod中继续使用Mellanox EDR 100Gbps IB卡用于网络数据交换。虽然DGX Superpod只使用了不到100个节点,但其功耗仍然达到1MW,同时提供9.4 PetaFlops的计算性能。

在AI如火如荼的今天,超算早已不仅仅只用于各类科学计算工作了,人们更多地会使用超算进行大型AI模型训练,如用于自动驾驶汽车的AI模型。DGX Superpod虽然在Top 500超算榜单上只位列第22位,但仍然可以在不到2分钟内完成ResNet-50模型的训练工作。由于DGX Superpod的规模较小,NVIDIA认为这是非常适合于AI企业的IT基础架构。

总 结

以往提起超算,人们总会有高大上的感觉。但随着AI应用越来越普及,人们对小型超算的需求也在日益增加。象DGX Superpod这样规模较小的基础架构设备未来可能会在AI头部企业的机房中逐渐出现。

下一篇
« Prev Post
没有更早的了