作为老牌服务器厂家,Supermicro在服务器液冷技术方面已经有了很长时间的研究。就在不久前,Supermicro还公布了其新的液冷服务器产品组合,用来应对功耗日益增加的CPU和GPU散热要求。
对于液冷技术,在当我们谈论数据中心液冷的时候,我们到底在谈论什么?一文中进行过深入探讨,对业界液冷技术现有成果和发展趋势做了一番总结和展望。但在众多关于液冷技术的介绍文章中,其取得的散热效果更多地是从数据中心PUE的宏观角度来进行说明的。具体到某一台设备,液冷究竟能带来多大的散热作用呢?针对这一问题,Supermicro在其最新款GPU服务器上所做的一系列测试给出了更为量化的结果。
Supermicro的AS-4124GO-NART是一款提供8个NVIDIA A100 SXM4形态GPU模块的服务器,即可以采用风冷散热方案,也可以改造为液冷散热方案。在风冷散热方式下,其配备的是400W功耗A100 GPU模块;在液冷散热方式下,A100 GPU模块的功耗可以进一步提升到500W的最高等级。
Supermicro AS-4124GO-NART服务器 |
AS-4124GO-NART服务器的液冷散热使用的是技术最为成熟的冷板式液冷,因此可以将风冷机型和液冷机型放置在同一个机架上。为了使设备散热的测试场景尽可能接近用户真实的使用场景,Supermicro在机架上将两台GPU服务器堆叠放置,并在最上面还放置了一台2U高的机架式服务器。
Supermicro用于测试的冷板式液冷机架 |
为了改造为液冷机型,AS-4124GO-NART服务器前面板最中间的两个风扇需要被拆掉,用于放置四组冷/热水管。每组冷/热水管与两个SXM4 A100 GPU模块相连,构成水冷的回路。在前面板上部1U空间的六块硬盘旁边,还有一组额外的冷/热水管,用于给该服务器主板上的CPU芯片进行液冷散热。
Supermicro AS-4124GO-NART服务器前部的冷热水管 |
机架上另一台采用风冷散热的AS-4124GO-NART服务器的前面板则维持原状,只是引出了两根网线,连接到机架后部,用于设备管理。
机架上另一台采用风冷散热的AS-4124GO-NART服务器前部 |
两台分别采用了风冷和液冷的AS-4124GO-NART服务器后部没有明显差别,都需要通过四个一次电源模块给整机供电。液冷机型前面板处的五组冷/热水管会通过相邻两台设备间的空隙被引到机箱后部,在这里与机架侧壁上的水管接头相连。
两台AS-4124GO-NART服务器的后部 |
在机架的侧壁上,放置了大量的液冷水管接头,用于为液冷服务器提供冷却水循环通路。由于水管接头较多,对那些不使用的接头,需要保证接头上的塞子处于塞紧状态,从而避免出现液体渗漏的情况。
冷板式液冷机架后部与服务器相连的冷热水管接头 |
在机架侧壁数量众多的小水管接头的上部,是液冷机架与冷却液分配单元(CDU:Coolant Distribution Unit)之间相连的管路。这部分管路会使用更粗一些的水管,方便CDU通过泵机使冷却水在机架内部循环起来。
冷板式液冷机架后部与水冷管路相连的接头 |
在本文最开始所展示的Supermicro冷板式液冷机架整体图中,在三台服务器的最上部,放置的就是一台机架式InRackCDU设备,来自于Asetek(艾司特科)公司。Asetek公司是一家以生产和销售计算机液体制冷器为主营业务的高科技公司,总部在丹麦,运营中心设置在美国硅谷。
液冷机架上的InRackCDU设备 |
在液冷机架后部的上方,可以看到水冷管路与Asetek InRackCDU设备之间的连接。在CDU设备内部,实现机架内部的冷却水与机架外部的冷却水之间的热量交换。
机架后部与CDU直连的水冷管路 |
在InRackCDU设备后部,同样地引出了一根网线,用于对该设备的管理使用。
CDU设备后部的控制接口 |
Supermicro在两台设备上均运行了HPL(High Performance Linpack)程序,结果是使用了500W 80GB SXM4 GPU模块的液冷服务器计算性能为~100TFLOPS,基于400W 40GB SXM4 GPU模块的风冷服务器计算性能为~80TFLOPS,两者在计算性能上存在20%左右的差异,这应该主要是由于两种A100 GPU内存容量上的差异导致的。
在功耗方面,400W 40GB SXM4 8x GPU的风冷服务器整机峰值功耗为5164W,500W 80GB SXM4 8x GPU的液冷服务器整机峰值功耗为5364W。两个系统在运行HPL程序时的功耗差异只有200W,并没有想象中的那么大差异。
Supermicro AS-4124GO-NART风冷服务器峰值功耗 |
在理论功耗相差800W,但实际整机功耗只相差200W的情况下,GPU服务器计算性能有20%左右的提升,从使用者的角度来看,这无疑是相当值得付出的代价。远低于理论计算的功耗增加量,其产生的主要原因就在于冷板式液冷散热技术的使用。虽然采用冷板式液冷会对机箱内部和机架做一定程度的改造,但考虑到高功耗的GPU服务器那昂贵的售价,这些能够使其充分发挥计算性能的结构上的改造是值得去实施的。
Supermicro AS-4124GO-NART液冷服务器峰值功耗 |
总 结
由于不同用户机架上设备配置的差异,Supermicro在这个实验中得到的数据并不一定适用于所有场景。但这一实验的价值在于,Supermicro以量化的数据向人们展示了冷板式液冷在散热方面所能带来的好处。
使用冷板式液冷的最大风险是水管接头处的漏液或管路上的冷凝液有可能会带来的短路故障。为了能够预防这一风险的发生,Supermicro在管路接头处和管路上都会缠上漏液检测传感器。一旦检测到有液体的存在,传感器就会进行故障报警。这也是业界在使用冷板式液冷散热方案时最为常用的监测方案。
Supermicro用于检测管路漏液的传感器 |
Supermicro的浸没式液冷Tank |
虽然目前Supermicro还没有对外推出用于浸没式液冷的产品,但相信在不久的将来,我们就能看到Supermicro在这方面研究的成果展示了。让我们一同期待液冷散热时代的到来!