冷板液冷服务器在使用过程中,服务器的算力芯片(GPU)发生超温告警,故障原因和大致诊断步骤如下:
检查CDU二次侧工质温度设置(推荐值:30℃~40℃),有异常的及时进行正确设置;
如果设置值正常,而实际温度异常,检查CDU水泵转速、系统流量、一次侧温度、流量等相关数值设置是否正常;
如上述情况正常,检查一次侧水温和流量,如有异常现象及时修复。
检查二次侧机柜内部系统是否存在空气,通过放空阀进行排气操作;
检查二次侧管网是否存在漏液等异常情况,结合CDU补液告警综合检查;
检查二次侧水泵转速情况,是否正常;
检查二次侧工质情况,如乙二醇浓度是否正常,是否存在缺液,浓度、浊度异常的问题,根据需要更换或补充二次侧工质。
如果液冷服务器超温为个例情况,重点检查该服务器机柜的manifold、液管、芯片液冷板是否存在堵塞、阀门是否打开。
检查冷板波纹管是否被挤压导致水流不通畅;
检查整柜与二次侧主管路连接的软管是否被挤压;
检查整柜二次侧球阀是否完全打开;
液管、芯片液冷板是否存在堵塞情况。
如果二次侧工质流量正常,进出温度正常,检查下列内容:
检查确认冷板的弹簧螺钉是否拧紧;
检查冷板与芯片之间的导热垫放置是否正常,有无压缩异常情况
联系客服