服务器领域的液冷方案-Lenovo Neptune散热系统

在芯片功耗持续提升和全球碳达峰、碳中和的大背景之下,消耗全球2%-3%电力的数据中心通过更高效率的液冷进行散热,已经成为了业界无法回避的话题。随着时间逐渐走向2022年,对液冷技术的探讨不仅越来越火热,而且其大规模实际部署应用也已经近在眼前。在本公众号前不久的当我们谈论数据中心液冷的时候,我们到底在谈论什么?、Supermicro用服务器实测数据告诉你液冷有多大散热作用和机架级浸没式液冷会是解决散热和可维护性的一条新路吗?这三篇文章之后,本文将进一步谈谈服务器厂家正在部署之中的具体液冷技术。

作为超算领域的一个重要厂家,Lenovo早在2018年6月就推出了命名为Neptune的液冷散热解决方案。Neptune在罗马神话里是指海神尼普顿,用来作为液冷系统的命名还真是恰如其当。在Lenovo看来,之所以需要推出液冷散热方案,其根本原因在于服务器整机功耗的不断提升。以两路计算型服务器为例,其功耗已经普遍超过了800W,正在向着1000W的大关迈进。Lenovo在这里给出的数据其实还有点保守,对于市面上配备了各类PCIe加速卡的服务器,其整机功耗往往还会更高。

服务器功耗逐渐逼近风冷散热极限

在整机功耗较高的情况下,不论是两路半宽还是两路全宽节点的主板,都会存在较为明显的散热问题。尤其是2U4节点这样的高密服务器机型,其散热问题将会更为突出。

Lenovo还给出了CPU、GPU、内存和网卡的功耗发展趋势。和对服务器整机功耗的预估一样,Lenovo给出的数据仍然偏向保守。众所周知,在即将到来的2022年,Intel Sapphire Rapid CPU的功耗将会达到350W;就在今年,NVIDIA A100 GPU已经有了500W功耗的产品规格,未来下一代GPU卡则有望达到700W左右的功耗等级。在CPU和GPU功耗都在快速提升的同时,芯片最高容许温度(Tcase)反倒在逐步下降,这意味着芯片在运行过程中产生的热量增幅在进一步增大。在现阶段使用风冷散热的情况下,很多设备往往需要通过限制规格或运行条件来控制发热量。这些实际应用情况都表明风冷散热正在逐渐逼近其散热效能的极限,液冷散热已经成为了非常迫切的需求。

芯片和内存的功耗提升迫切需要液冷散热

正如本公众号之前多篇文章中所提到的,液冷散热方案里的冷板式液冷是目前技术最为成熟的液冷散热方案。与风冷简单地使用散热风扇不同的是,使用冷板式液冷,需要使用到液冷板、快速接头、集水分歧管、液冷分配单元(CDU)和冷却器(Cooler)等多个部件和设备。在散热效率得到提升的同时,整个冷却系统的复杂度将会有一定程度的增加。

全链条冷板式液冷系统

Lenovo本身是一个服务器厂家,因此其在Neptune项目里与Asetek和CoolIT System这两家专门从事液冷的厂家进行合作,从而提供从机柜到服务器节点的完整液冷解决方案。CoolIT System这家公司在本公众号以往的文章中也有提到,作为一家加拿大公司,其主营业务就是为游戏PC、专业工作站和数据中心服务器提供液冷设备。根据其公布的2021上半年营收数据,其数据中心液冷部分的营收首次超过了桌面液冷设备的营收。虽然CoolIT System只是一家年营收1亿美元左右的中小型公司,但其业务发展状况还是展现了液冷在业界的发展趋势。

Lenovo Neptune液冷散热解决方案

Lenovo Neptune液冷系统最大的特点在于其采用了45℃到50℃之间的温水进行散热,而没有使用常温或更低温度的吸热液体。这就使得吸收热量之后的水能够被用于工业生产和居民生活的其它方面,从而使得ICT设备所产生的热能获得进一步的利用。

Lenovo Neptune液冷散热的优势

具体到液冷方案的实施,主要体现在Lenovo SD650和SD650-N这两款服务器节点上。这两款节点都已经发展到第二代产品,分别命名为SD650 V2和SD650-N V2节点。

Lenovo使用液冷散热的SD650 V2节点

SD650 V2节点实际上是由两个单宽双路节点组合而成。每个单宽节点上前后放置两个CPU,再加上前置的硬盘和网卡,在1U高度空间里提供了高密的计算性能。SD650-N V2节点则是将SD650 V2节点中的一个双路节点改为放置四块NVIDIA A100 SXM4 GPU卡,综合提供CPU和GPU计算能力。

Lenovo使用液冷散热的SD650-N V2节点

由于有较高的CPU和GPU芯片密度,因此在每个单宽节点上Lenovo对CPU和GPU芯片都采用了冷板式液冷,这是目前业界较为常见的设计方式。除此之外,Lenovo更进一步地在内存条、硬盘和网卡这些高功耗设备上也加上了液冷冷板,使得机箱内部完全消除了散热风扇,彻底地通过液冷方式进行散热。由于机箱内部不再有风扇,留出了一定的空间。因此用于散热液体循环的入水口、出水口和相关的管路都可以放置在节点后部,从而充分利用节点内部空间。

SD650 V2节点上的液冷散热回路

完全的液冷节点设计是SD650 V2节点最大的特点,毕竟对内存条、硬盘和网卡的散热即涉及到机箱结构上的改动,又涉及到这些部件的调整,这充分体现出了Lenovo在服务器工程设计方面的能力。

SD650 V2节点并不是Lenovo首次使用冷板式液冷设计,在其上一代产品上也用上了冷板式液冷,因此该设计方案已经经过了市场三年多的验证。在V2这一代产品上,Lenovo升级了CPU、内存和网卡的性能。虽然功耗有进一步的增加,但现有的Neptune液冷方案仍然可以满足其散热要求。

Lenovo SD650 V2和SD650-N V2节点的更新点

SD650 V2和SD650-N V2这两种节点会被安装在Think System DW612这款机箱内部。在机箱后部,除了提供冗余备份的一次电源模块之外,还有专门用于连接节点上液冷管的接头。

使用SD650 V2节点的Think System DW612机箱

DW612后部的液冷管接头将会与机架上的集水分歧管相连,最终由放置在机架内部的泵机带动冷却水在服务器设备内部的循环。

Think System DW612机箱外部的水管回路

集水分歧管通常安装在机架内部两侧,在主管道之外还有很多小的接头。设计者也可以将服务器节点上的出/入水管直接引入,通过快接头插到集水分歧管上的小接头上。下面这个放置了集水分歧管的实际机架上,就是采用了这样的水管环路连接方式。

放在机架上的水管回路

总 结

采用液冷方案不仅仅可以为ICT设备向更高功率等级演进提供散热途径,在整个数据中心层面上还有助于减少能源消耗。在吸收了芯片散发出来的热量之后,这些高温的冷却水可以用于建筑加热、家庭取暖等用途。这也是Lenovo对于Neptune液冷系统未来更大应用前景的展望。当然,要实现这一点,需要对数据中心现有的基础架构做进一步的升级改造。

Lenovo使用Neptune液冷系统降低碳排放

除此之外,液冷散热还在数据中心里带来了一个立竿见影的好处。由于散热风扇的减少,风扇运行产生的噪声等级也会得到明显的改善。也许在不久的将来,数据中心运维人员再也不需要戴着防噪耳塞进入机房区域了。在整个机房区域,将只会听到设备运行时低沉的嗡嗡震动声。

下一篇
« Prev Post
上一篇
Next Post »