六月好几个省份的智算中心项目扎堆开工,液冷散热是标配方案,服务器液冷系统泵的采购量一下子就上去了。圈子里最近讨论最多的不是品牌之争,而是服务器液冷系统泵到底怎么选才不白花钱。这个问题理不清楚,后面全是返工的坑。

很多人拿风冷那套逻辑往液冷上套,觉得服务器液冷系统泵越大越稳当。实际上服务器液冷系统泵的流量必须跟冷板散热需求一一对应,大了浪费电,小了压不住芯片温度。每个智算中心项目的冷板数量、管路长度、GPU功耗密度都不一样,服务器液冷系统泵的参数必须单独核算,套用通用模板基本都会出问题。

扬程是服务器液冷系统泵选型里最容易翻车的环节。智算中心的液冷管路比传统机房复杂得多,从泵出来到最远端的冷板,中间弯头、三通、阀门加起来阻力非常大。服务器液冷系统泵的扬程如果只按直管长度估算,不把局部阻力算进去,冷却液根本送不到远端。近端流量撑死,远端流量饿死,温度分布一塌糊涂。服务器液冷系统泵的扬程选型,必须把整条管路的阻力特性全部算清楚,留足余量,这一步谁都省不了。

变频控制对服务器液冷系统泵来说不是加分项,是必选项。智算中心的GPU负载一天到晚都在变,训练任务启动瞬间功耗拉满,任务间隙功耗又掉下来。服务器液冷系统泵如果定速运转,不管负载高低都满负荷跑,低负载时段电就白白烧掉了,一年下来浪费的电费非常吓人。现在这批开工的智算中心里,服务器液冷系统泵基本都配了变频驱动,转速跟着温度信号走,负载高的时候顶上去,负载低的时候收下来。不上变频的服务器液冷系统泵,在智算中心里就是个电老虎。

服务器液冷系统泵在智算中心里的可靠性要求跟传统机房完全不是一个量级。传统机房一台泵出问题,影响几个机柜,还能临时切换。智算中心不行,训练任务一跑好几天不停机,服务器液冷系统泵要是趴窝,冷却液循环一断,几百张卡的温度几分钟就飙上去,训练直接中断,损失按小时算都是天价。轴承寿命够不够长,密封形式抗不抗漏,冷却液兼容性过不过关,这些在智算中心场景下全是硬约束,一个都不能含糊。磁力驱动的服务器液冷系统泵没有机械密封的磨损问题,漏液风险几乎为零,这种方案在智算中心项目里越来越成为主流。

服务器液冷系统泵的能效表现直接决定了智算中心的PUE能不能达标。液冷方案本来就是冲着低PUE去的,结果服务器液冷系统泵本身效率拉胯,整个方案的意义就打了折扣。服务器液冷系统泵的效率不是一个固定值,是随工况变化的。智算中心负载波动大,服务器液冷系统泵大部分时间不在额定工况点运行,效率曲线在常用区间内掉得厉害的话,一年多烧的电非常可观。选服务器液冷系统泵的时候,效率曲线必须跟实际工况一一匹配,不能只盯着峰值效率看。

多地智算中心集中开工,服务器液冷系统泵的需求在快速增长,选型的坑也在变多。服务器液冷系统泵怎么选才不白花钱?流量跟冷板需求对齐,扬程按管路阻力单独算,变频控制必须上,可靠性按不停机标准卡,能效曲线跟工况匹配。这几条每一条都不能省,省了后面就是返工。与其等开工之后再发现问题,不如现在就把服务器液冷系统泵的选型逻辑理清楚,后面不管上多大的项目,都不会再踩同样的坑。