可持续性难题:推动HPC和AI极限扩展

随着摩尔定律的减缓,构建更强大的HPC和 AI 集群意味着要建造更大、更耗电的设施。

“如果你追求高性能,需要购买更多硬件,导致更大系统,进而导致更多的能量消耗和冷却需求,”犹他大学教授Daniel Reed在最近在丹佛举行的SC23超级计算大会上解释道。

如今,Top500上最大的超级计算集群消耗超过20兆瓦,而许多数据中心园区,特别是为了支持AI训练和推理需求而建造的园区,甚至更为庞大。有预测指出,到2027年,一套能力级超级计算机所需的电力将高达120兆瓦。

在关于高性能计算的碳中和和可持续性的专题讨论中,来自芝加哥大学、施耐德电气、洛斯阿拉莫斯国家实验室、HPE和芬兰科学信息中心的专家们纷纷发表看法,并提供了关于未来规划、部署、报告和运营这些设施的洞察。

卓越的功耗效率,但不应以水资源为代价

讨论的一个核心主题是电能利用效率(PUE)。作为参考,该行业标准通过比较计算、存储或网络设备使用的电量与总利用率来度量数据中心的效率。PUE越接近1.0,设施的效率就越高。

虽然PUE是优化数据中心运营电力消耗的有效工具,但HPE的Nicolas Dubé指出,它导致一些超大规模和其它大型数据中心运营商养成了一些不良习惯。

“一些超大规模企业,我点到为止,在亚利桑那、新墨西哥等一些非常干燥的地区建造了大型数据中心。在那里建造数据中心,如果使用蒸发冷却,将会有惊人的PUE。但是,这将消耗一种对当地社区来说比单纯优化少数能源消耗更为重要的资源。”他说。“我认为这是犯罪行为,他们应该因此受到惩罚。”

对于那些不熟悉的人来说,蒸发冷却 - 有时被称为沼泽冷却器 - 是在功耗方面效率最高的冷却技术之一。这些系统在干燥和干旱环境中特别有效,但需要大量水来实现。

洛斯阿拉莫斯的Genna Waldvogel指出,对于已经采用蒸发冷却的设施,比如国家实验室的设施,有方法减轻这些系统的影响。

“我们的数据中心几乎100%使用回收水,”她说。“我们有一个非常先进的系统…从废水处理厂获取废水,进行处理,然后将其泵送回我们的超级计算机。”

根据Reed的介绍,蒸发冷却所消耗的大量水正在迫使运营商考虑系统的选址。

选址和规划至关重要

Dubé强调了在选址过程中位置的重要性。他认为,通过在拥有丰富绿色能源供应的地方部署数据中心,可以在一定程度上减轻生成式AI的环境影响。

以QScale在魁北克开发的一个100兆瓦数据中心设施为例,其中近乎100%的电力来自水力和风力等可再生能源。他说:“推理和一些其它工作负载对延迟非常敏感,它们需要与人口共同驻地,而且有点难以移动,但大规模的训练任务不需要。”“当你考虑这一点时,这些大规模的工作负载实际上应该被重新安置或推到计算它们最可持续的地方。”

除了在可再生能源附近部署数据中心的明显优势之外,Dubé认为,还有一个机会可以利用这些设施产生的热量,而不仅仅是将其排放到大气中。

Dubé提到的QScale设施将与农业温室共同设置,并将利用设施捕获的废热在加拿大漫长的冬季为它们供暖。

为了说明这个机会,Dubé提出了一个相当幽默的问题:通过一次对GPT-3的训练,你能种植多少番茄。根据他的计算,这是一个不足为奇的数量。

假设每个500平方米温室每年需要1000吉焦耳的供暖,以及用于训练GPT-3的1,287兆瓦时,这相当于4.6个温室。以每年每平方米75千克的番茄和85%的温室可用于生产,Dubé得出了147677千克或略多于一百万个番茄。这是很多酱料!

热能再利用在HPC或AI领域绝非新概念。欧洲最大的超级计算机LUMI系统就是一个典型例子。“我们位于如此北方,我们的气候足够寒冷,全年都可以使用干冷却器运行。”芬兰科学信息中心的Esa Heiskanen说。除了免费冷却外,该设施还使用热量捕获系统,为卡亚尼市提供20%的区域供热需求。

如果我们有时关闭系统会怎样?

除了更高效的技术和选址,芝加哥大学不可阻挡计算CERES中心的Andrew Chien认为,通过以更加动态的方式运行数据中心,有机会提高其可持续性。

这里的思路是,与其一直以来以不变的容量运行HPC集群或数据中心,运营商可以根据某个特定时间内电网上的电力量或电力混合情况,调整系统的利用率。

例如,在一天中的某些时段,你可能会看到来自风能或太阳能的更高产出,这可能使设施能够以更高的容量运行,同时还减少其碳足迹。

将这些技术应用于日本理研实验室的“Fugaku Next”项目,该项目预计将在2030年至2040年之间投入使用。Chien预测,在此期间,除了电网改进外,有可能实现电力成本的90%降低和碳排放的40%减少。

“大家都认为电力是问题,但在我看来,碳更像是一个更为严格的约束条件,”他解释道,这暗示了未来能源电网可能会看到更多可持续能源的混合。

需要更好、更一致的报告

正如你所预料的,降低越来越大的HPC和AI集群的碳影响将需要更好、更一致的报告,这一事实被施耐德电气首席技术官办公室的创新产品负责人Robert Bunger强调。

“我的提议是,HPC社区应该努力成为领导者。他们在性能的所有其它方面都是领导者,我认为可持续性报告和测量应该是其中之一,”Bunger说道。

Bunger解释说,其中一个问题是数据中心运营商在报告可持续性指标方面存在很大差异。这可能并未得到帮助,因为超大规模运营商不喜欢详细讨论诸如电力或水消耗之类的事务。

为了解决这个问题,施耐德提出了他们认为数据中心运营商应该追踪的28个指标。这些包括常见因素,如总电力消耗、PUE、总可再生能源消耗、总水消耗、水利用效率。然而,该清单还建议追踪其它因素,如可再生能源因子、能量重复利用、服务利用率,甚至包括噪音和土地利用。

Bunger承认,对许多设施来说,试图跟踪所有28个指标可能是令人望而却步的,但他建议数据中心运营商从其中的六个开始,然后逐步增加。