浅谈DELL PowerEdge 15G服务器液冷服务器环境稳定性(以PowerEdge R750为例)

这两天开始看到Dell EMC PowerEdge 15G服务器的技术规格、安装和服务手册,可以跟大家谈一些细节了。

浅谈DELL PowerEdge 15G服务器液冷服务器环境稳定性(以PowerEdge R750为例)

上图就是液冷配置的PowerEdge R750 2U双路3rd Xeon Scalable服务器,本文就以该机型为例进行讨论。

浅谈DELL PowerEdge 15G服务器液冷服务器环境稳定性(以PowerEdge R750为例)

安装冷板式液冷模块示意图

注意:上图中的导管都是带漏液检测的,其实早在至少5年前Dell就开始重视液冷导管的漏液检测了。

风冷散热支持270W CPU的限制

我们先来看一下风冷散热器(CPU散热片)的情况:

图片点开后可缩放,以下同

如文档所示,1U高度的标准散热片支持不高于165W CPU的散热;2U高度的高性能散热片支持165W以上CPU。由于有些情况下GPU全长卡与高尺寸散热片干涉的问题,同时为了更好地保证各自风道,对于具有GPU的所有TDP(CPU),这里均使用T型散热片(图片可参考我在前文中列出的AMD服务器机型PowerEdge R6525)。

浅谈DELL PowerEdge 15G服务器液冷服务器环境稳定性(以PowerEdge R750为例)

风冷散热的PowerEdge R750,可以支持在35℃进风温度下配置270W CPU,当然不可能完全没有限制。比如在12个3.5英寸驱动器,特别是再加上背面的2.5寸盘,环境温度就可能要降低到30℃。

上面图表只是第一部分——“带有≤64 GBRDIMM(非GPU)的散热限制值”,接下来还有如下几个表格,具体的大家可以看文档,就不在此逐一列出了:

-带有128 GB LRDIMM(非GPU)的散热限制值表

-带有256 GB LRDIMM(非GPU)的散热限制值表

-带有BPS +≤128 GBDIMM(非GPU)的散热限制值表

-带有BPS + 256 GB LRDIMM(非GPU)的散热限制值表

-带有≤128 GBDIMM (GPU)的散热限制

-通过BPS +≤128 GBDIMM (GPU)进行散热限制

注:BPS就是指IntelOptane Persistent Memory(傲腾持久内存)

浅谈DELL PowerEdge 15G服务器液冷服务器环境稳定性(以PowerEdge R750为例)

在配置270W CPU的同时,风冷的PowerEdge R750可以支持2个NVIDIA A100或者6个T4 GPU卡,此时前面板也不能是12个3.5英寸驱动器(进风量不满足)。另外,单条DRAM内存容量不能超过128GB。如果再加上BPS(Optane DIMM),限制则会更多一点。

由于服务器背面的驱动器进风温度较高,因此部分功耗较高的NVMe SSD在CPU风冷散热情况下不能放在这个位置(液冷则无此限制,见下图)。Dell应该是把已经测试过的情况都注明了。

还记得我之前写过“OCP QSFP(网卡部分)的spec温度上限105℃”,有位同行朋友指出有些SFP模块支持的温度没有这么高。如上图,受影响的还有网卡的活动光纤线缆(AOC)。

液冷(CPU冷板散热)优势:还是密度和PUE?

浅谈DELL PowerEdge 15G服务器液冷服务器环境稳定性(以PowerEdge R750为例)

如上表,当把PowerEdge R750服务器的CPU改成冷板式液冷之后,系统的散热限制表都简略了许多。

首先,270W或者较低功耗的CPU已经没有影响了,这里可以顺便展望下一代服务器的350W CPU。

此外,由于CPU的热量通过金属管内的液体(水)带走,余下GPU等配件的散热压力和限制也放松了——比如GPU + BPS +大容量LRDIMM这样在全风冷下不支持的配置。

浅谈DELL PowerEdge 15G服务器液冷服务器环境稳定性(以PowerEdge R750为例)

如上图,ASHRAE A3和A4分别对应40℃和45℃的环境(进风)温度。我们看到当风冷散热情况下,PowerEdge R750在40℃时支持的CPU TDP降到165W;45℃时进一步降低到120W。

而在(冷板式)液冷配置时完全没有这点限制了,就是说即使在45℃高温环境下,2颗270W CPU也能照样用。

就先分享到这里吧,我引用的参考文档可以从Dell官网查看/下载,希望对大家有帮助:)