芯片“泡水”背后：中国算力为何押注浸没式液冷技术？

电影《流浪地球2》中服务器浸没于海水的场景，曾让许多观众感到不可思议。然而，这种将电子设备完全浸泡在液体中的散热方式，早已不是科幻构想，而是当前数据中心应对算力爆发式增长所采取的现实技术路径——浸没式液冷。这项技术的核心，在于用一种特殊的、不导电的液体取代空气，直接与发热的芯片和电子元件接触，从而以远超传统方式的效率带走热量。

浸没式液冷服务器示意图

要理解为何行业不惜将价值不菲的服务器“泡”进液体，必须首先正视一个严峻的现实：芯片的发热功率已经达到了传统散热技术无法承受的临界点。

十年前，数据中心的主流服务器单颗CPU功耗通常在几十瓦到一百瓦之间，依靠铝制散热片和风扇组成的风冷系统足以应对。然而，人工智能的浪潮彻底改变了游戏规则。用于训练大模型的GPU，其单卡功耗已从数百瓦飙升至700瓦乃至1000瓦以上。当数十张这样的高功耗计算卡被密集部署在一个标准机柜内时，整个机柜的功率轻松突破30千瓦、50千瓦，并正朝着100千瓦甚至更高的水平迈进。

这种功率密度意味着什么？一个直观的对比是，一台3匹家用空调的制冷量约为7千瓦。一个满载高性能AI芯片的机柜，其发热量相当于十几台家用空调同时全力运行所产生的热量。对于一个拥有成千上万个此类机柜的大型数据中心而言，散热问题已从单纯的运维挑战，演变为制约算力规模扩张的根本性瓶颈。

传统风冷依赖空气作为传热介质，但空气的比热容和导热系数都极低。当机柜功率超过30千瓦后，即便将风扇转速提升至产生巨大噪音的极限，并将空调制冷系统开到最大，热量仍会在机柜内部局部积聚，导致芯片因温度过高而触发降频保护，计算性能大幅下降，严重时甚至直接宕机，影响服务的连续性。

更深远的影响在于能源消耗。衡量数据中心能源利用效率的关键指标是PUE（电源使用效率），即数据中心总耗电与IT设备耗电的比值。理想值为1.0，意味着所有电力都用于计算本身。然而，采用传统风冷的数据中心，有相当大一部分电力被空调制冷系统和风扇本身消耗掉，其PUE值普遍在1.4至1.6之间，经过优化的新一代数据中心可达到1.2左右。国际能源署的数据显示，全球数据中心耗电量已占人类总用电量的约2%，且随着AI算力需求激增，这一比例预计将在2030年前翻倍。如果继续沿用风冷技术支撑未来的算力增长，我们很可能陷入“为散热而耗电”的恶性循环，大量的能源将被浪费在非生产性的冷却环节上。

面对风冷技术的物理极限，液冷技术自然成为了接棒者。但液冷并非单一技术，而是一个包含不同实现路径的技术谱系，主要分为冷板式、喷淋式和浸没式三大类。

冷板式液冷是目前最成熟、应用最广泛的过渡方案。其原理是在CPU、GPU等核心发热元件的表面贴合一块内部嵌有微通道的金属冷板，冷却液在封闭的管道内循环流动，通过金属板间接带走芯片热量。这种方案类似于高端个人电脑中使用的水冷散热系统。由于冷却液不与电子元件直接接触，安全性高，且对现有服务器架构改造相对较小，因此成为许多传统数据中心向液冷升级的首选。然而，其散热效率受限于金属板的热阻，且机柜内其他部件（如内存、硬盘）仍需依赖风冷，形成了混合散热模式，存在“冷热不均”的局限性。

冷板式液冷原理示意图

喷淋式液冷则更为激进，它通过精密设计的喷头，将冷却液直接喷洒到发热元件表面，利用液体的蒸发潜热快速吸热。这种方式散热效率高于冷板式，能更精准地针对热点进行冷却。但其系统复杂性高，存在喷头堵塞、液体分布均匀性控制难、蒸发损耗补充以及潜在的电气安全风险等工程挑战，目前在大规模商业化部署上仍处于探索和试点阶段。

浸没式液冷代表了当前散热技术的最高形态。它将整台服务器或整个机柜完全浸没在特殊的绝缘冷却液中，使液体与每一个电子元件直接、充分接触。液体的导热能力是空气的25倍以上，其单位体积所能携带的热量更是空气的数百倍。这种直接接触的方式消除了所有中间热阻，使得单机柜的散热能力达到风冷方案的数倍乃至十几倍，足以应对未来100千瓦以上的超高功率密度。此外，由于服务器完全浸没，彻底告别了风扇，实现了近乎静音的运行环境，也完全杜绝了灰尘对精密元器件的影响。

技术路线的选择并非简单的替代关系，而是基于功率密度、成本、可靠性等多重因素的综合考量。一个清晰的趋势是：对于30千瓦以下的机柜，优化后的风冷方案仍具经济性；在30千瓦至50千瓦的区间，冷板式液冷展现出最佳的性价比；而当功率密度突破50千瓦，尤其是迈向100千瓦级时，浸没式液冷则成为唯一可行的技术选择。未来相当长一段时间内，这三种方案将在数据中心内根据不同的业务负载和硬件配置混合部署，形成分区分级的散热架构。

解决了“为何要用液冷”的问题后，下一个核心挑战是“用什么液体以及如何保证安全”。数据中心承载着互联网、金融、人工智能乃至自动驾驶等关键业务，任何散热方案都必须将绝对的安全性置于首位。用于浸没的液体必须同时满足不导电、不腐蚀、低挥发性、高化学稳定性、高热容和高导热系数等近乎苛刻的要求。

早期的探索曾尝试使用矿物油或变压器油，即“油冷”。这类油品虽然绝缘，但黏度大、流动性差导致散热效率不高，且长期使用后易氧化、产生杂质，维护清理极其麻烦。后续出现的硅油性能有所改善，但距离理想介质仍有差距。

目前行业公认较为成熟的解决方案是电子氟化液。这是一种人工合成的有机氟化合物，具备多项关键特性：首先，其电阻率极高，完全绝缘，即使服务器在带电状态下浸入，也不会发生短路。其次，它具有极佳的化学惰性，对服务器内部复杂的金属（铜、金、银、铝）、塑料、橡胶、陶瓷等材料均无腐蚀性，经过长期浸泡测试，元器件仍能保持完好。最后，其沸点通常在110摄氏度以上，远高于服务器正常工作温度（70-80摄氏度），因此在运行过程中蒸发损耗极微，无需频繁补充。

电子氟化液特性展示

尽管如此，将浸没式液冷从实验室推向大规模工程应用，仍面临一系列艰巨挑战。首当其冲的是密封技术。容纳服务器和冷却液的槽体必须做到绝对密封，所有管线（电源线、光纤、液管）的进出口都需要特殊的穿舱密封结构，任何微小的泄漏都可能造成昂贵的设备损失和运营中断。

其次是运维模式的变革。传统数据中心运维人员可以随时打开机柜进行硬件更换、升级或故障排查。但对于浸没式系统，维护操作需要先排空或转移槽体内的冷却液，流程复杂、耗时更长。此外，并非所有硬件都天生适应液体环境，例如某些机械硬盘和光模块可能需要重新设计或选用特定型号。

成本是另一个现实考量。电子氟化液本身价格昂贵，加之需要定制的密封槽体、液冷循环泵、室外干冷器或冷却塔等全套系统，浸没式液冷的初始建设成本通常比传统风冷高出20%至30%。然而，从全生命周期成本分析，其巨大的节能效益能够显著抵消初始投资。根据一些已部署项目的测算，凭借将PUE降至1.07甚至更低的卓越能效，浸没式液冷系统通过节省的电费，大约可在3到5年内收回额外的投资成本，长期经济效益显著。

浸没式液冷的概念已存在十余年，为何直到近几年才迎来规模化落地的契机？这背后是技术、市场与政策多重因素共振的结果。

最直接的驱动力来自硬件功耗的爆炸式增长。以英伟达为代表的AI芯片厂商，其产品迭代速度不断加快，单卡功耗持续攀升，使得高密度算力集群的散热需求超越了风冷乃至冷板式液冷的极限。浸没式液冷从“可选方案”变成了“必选方案”。

应用场景的细化也推动了散热技术的差异化部署。AI算力主要分为训练和推理两大类。训练大模型需要GPU集群持续数周甚至数月满负荷运行，产热稳定且巨大，浸没式液冷的高效、稳定散热优势在此场景下发挥得淋漓尽致。而在推理场景中，用户请求呈脉冲式、波动性大，算力负载时高时低，冷板式液冷或高效风冷因其更灵活的响应能力和相对较低的成本，可能更具适用性。因此，未来的智算中心很可能采用“训练集群浸没式，推理集群冷板/风冷”的混合架构。

国产算力生态的崛起为液冷技术提供了新的舞台和需求。过去，液冷方案主要围绕英伟达GPU的规格和散热设计进行优化。如今，华为昇腾、海光、寒武纪、燧原科技等国产AI芯片已进入大规模应用阶段。这些芯片的功耗特性、封装形式和散热设计可能与国外产品存在差异。浸没式液冷“液体包裹一切”的通用性特点，使其能够更好地适配多样化的芯片硬件，为国产算力平台构建高效、可靠的基础设施提供了有力支撑。这也解释了为何在一些以国产算力为核心的数据中心枢纽，浸没式液冷会得到率先和重点部署。

未来数据中心混合散热架构

更深层次看，液冷技术的竞赛，实质上是算力时代底层能源博弈的缩影。训练一个GPT-4级别的大模型，耗电量足以媲美数万个家庭一年的用电总和。在全球推进“双碳”目标、能源供应日趋紧张的宏观背景下，提升算力基础设施的能效，降低PUE，已不仅仅是节约电费的经济账，更是关乎可持续发展与国家战略竞争力的关键。将PUE从1.2优化至1.07，这0.13的改进对于一座百万千瓦级的超大规模数据中心而言，意味着每年节省的电力可能相当于一座中型水电站的发电量，减少的碳排放更是可观。

因此，浸没式液冷技术的推广，远不止于散热方式的革新。它代表着算力基础设施正从粗放式的规模扩张，转向精细化、绿色化的高质量发展。它通过解决散热瓶颈，释放了高密度算力的部署潜力；通过提升能源效率，缓解了算力增长与能源约束之间的矛盾；通过适应多元芯片架构，为自主可控的算力生态建设夯实了基础。

当然，技术演进永无止境。当单机柜功率向200千瓦、500千瓦继续迈进时，今天的氟化液和浸没式系统也可能面临新的挑战。相变材料、超导散热、甚至地缘散热（如将数据中心建于海底或极地）等更前沿的概念已在探索之中。可以确定的是，只要人类对更强算力的追求不息，对更高效散热方案的探索就不会停止。在这场与物理定律的持续博弈中，每一次微小的效率提升，都将是推动整个数字世界向前迈进的重要一步。