业界首部《全液冷冷板系统参考设计及验证白皮书》现已正式开放下载,该白皮书由浪潮信息、英特尔、OCTC开放计算标准工作委员会、全国信息技术标准化技术委员会算力标准工作组、中国电子技术标准化研究院联合撰写,详细解读了液冷技术的背景、技术优化方向以及全液冷冷板系统的设计、验证和展望,为全液冷冷板服务器设计和规模应用中面临的主要难点提供了创新设计参考,对全液冷冷板技术在通用架构上实现快速导入和推广具有重要指导意义。
主流中的前沿——全液冷冷板技术
目前,冷板式液冷由于在产业链成熟度、改造成本、可维护性、兼容性等方面的优势,已经成为液冷数据中心主流。IDC数据显示,2023上半年中国液冷服务器市场中,冷板式占比高达90%。但现有的冷板式液冷技术依然有持续优化的空间,最主要的问题在于冷板一般仅覆盖CPU、GPU等高功耗发热部件,数据中心需要配置CDU和空调两套冷却系统,PUE值无法达到接近于1的理想状态。同时,传统冷板式服务器是高度定制化产品,冷板的材质选择、结构设计、加工工艺以及部件规格等不一致,规模化应用受限。因此,冷板式液冷需要从系统级解决方案出发,以模块化解耦设计思维,创新出一种高能效、易运维、使用更安全,兼容性更出色、液冷覆盖率更高的全液冷冷板结构设计。
作为目前液冷产业技术创新的前沿领域,全液冷冷板技术可实现“服务器内去风扇、数据中心去空调化”运行,更加高效节能与静音,并以高集成度节省30%左右的数据中心空间,单机柜支持100KW的高密度部署。
浪潮信息基于自身在液冷技术创新、产业化推进及国标团标等产业标准化方面的长期实践,与英特尔、OCTC开放计算标准工作委员会、全国信息技术标准化技术委员会算力标准工作组、中国电子技术标准化研究院联合编写了《全液冷冷板系统参考设计及验证白皮书》,旨在为全液冷冷板服务器设计和规模应用中面临的主要难点提供创新设计参考,以模块化解耦的先进设计理念,推动基于通用服务器架构的全液冷冷板技术快速普及。
白皮书指出,冷板液冷服务器设计技术优化方向主要围绕通过技术创新进一步提高能效,降低初期投资成本,减少漏液安全隐患及提高运维便利性展开,一是持续完善部件液冷方案,提高液冷覆盖率;二是提高通用化及可维护性;三是拓展冷板液冷材料范围,减轻重量,降低成本;四是提升液冷系统长期使用的安全性,降低漏液风险。
创新实践——全液冷冷板服务器,打通规模化应用的“最后一公里”
白皮书详细介绍了浪潮信息在全液冷冷板技术上的创新实践成果——全液冷冷板服务器,实现了对CPU、高功耗内存、NVMe硬盘、OCP网卡、电源、PCIe转接卡和光模块等服务器主要发热部件的冷板全液冷覆盖,并针对不同部件的结构、材质、工作温度等差异化需求,创新设计了诸多系统部件级液冷解决方案,实现了液冷模块解耦,为全球液冷产业链上下游提供极具价值的参考样板,推动先进全液冷冷板解决方案在全球数据中心的大规模部署应用,实现数据中心更加绿色低碳可持续发展。
全液冷冷板服务器的CPU冷板模组基于英特尔第五代至强平台可扩展处理器冷板的设计要求,综合考虑散热,结构性能,成品率,价格及不同材质冷板设计兼容性等因素优化而成的一款CPU冷板参考设计,主要由CPU冷板铝支架,CPU冷板及冷板接头等部件组成。
△CPU冷板模组
内存液冷设计采用创新型的枕木散热器液冷方案,因内存插满如铁轨上的枕木而得名。它将传统风冷散热和冷板散热相结合,通过内置热管的散热器(或纯铝/铜板、VaperChamber等)把内存上的热量传递至两端,与冷板通过选定的导热垫片接触,最终通过冷板内的冷却液把热量带走实现内存散热。相比现有的管路(Tubing)内存液冷方案,枕木散热器液冷方案采用模块化设计,具有易于组装和维护、通用性好、性价比高等优势。
固态硬盘液冷方案同样采用创新设计,通过内置热管的散热器把硬盘区域的热量导出与硬盘区域外的冷板通过导热垫片垂直接触实现换热。此固态硬盘液冷方案主要由装有散热器的固态硬盘模组,固态硬盘冷板,硬盘模组锁紧机构,及硬盘支架组成。硬盘模组锁紧机构固定在硬盘支架上提供合适的预紧力来保证固态硬盘模组和固态硬盘冷板的长期接触可靠性。为了方便硬盘冷板环路在狭小空间内的安装,硬盘支架在服务器深度方向采用了抽屉式的安装方式设计。相比业界已有的硬盘液冷尝试,此方案可支持30次以上系统不断电热插拔,可靠性高,对加工工艺要求低,漏液风险低,同时可灵活适配不同厚度和数量的固态硬盘系统。
此外,浪潮信息对PCIe卡、OCP网卡和电源等部件均进行了创新的冷板设计,在冷板材质方面也进行了探索实践,分别基于铜材质和铝合金材质冷板,从换热性能、可靠性、成本、重量等多方面进行对比及优化,同时对与铝质冷板液冷循环回路相匹配的液冷工质,进行了选型和相应的腐蚀性测试验证,为进一步降低冷板液冷成本提供了丰富的实践数据支持。
在测试验证部分,全液冷冷板服务器进行了散热性能测试、液冷热捕获效率(HCR)测试、流阻测试等多项测试。在散热性能测试中,铜冷板系统(冷却工质PG25)在目标最差边界条件下所有的零部件温度都满足温度要求,并且还有一定安全温度裕量;在液冷热捕获效率(HCR)测试中,在典型的液冷系统工作边界条件下—系统进水温度38⁰C(W32),空气环境温度35⁰C,全液冷冷板服务器液冷热捕获效率(HCR)在93%左右,整机柜测试HCR值更高,可接近98%;在流阻测试中,冷却工质PG25在相同温度和流量下比纯水流阻高20%左右,同一工质温度越高流阻越低,PG25的流阻相比纯水对温度更为敏感。在51⁰C进水温度1.3LPM流量条件下,采用冷却工质PG25和纯水的系统流阻分别是118kPa和99.6kPa。
全面测试结果表明,浪潮信息全液冷冷板服务器可实现接近100%液冷散热,系统无风扇运行,可达到PUE接近于1的极限水平,并通过“去空调化”节省30%以上的数据中心空间,充分满足数据中心的高密度部署需求。