国产算力突破IB垄断后,十万卡级集群面临哪些技术挑战?

0

国产算力突破IB垄断后的规模挑战

3月12日,中科曙光在郑州正式发布全自研的scaleFabric高速网络产品,并在国家超算互联网核心节点成功部署了万卡级国产智算集群。这一里程碑事件标志着国产算力基础设施在突破"卡脖子"关键环节上迈出了坚实一步。

然而,当国产算力刚刚叩开万卡时代的大门,海外巨头英伟达已宣称构建了十万卡甚至更大规模的集群。从万卡到十万卡,国产算力需要跨越的不仅是数字的鸿沟,更是技术、生态与系统工程的全面挑战。

国产算力集群示意图

万卡初成与十万卡之距

"目前,从我知道的信息角度,曙光这个万卡是唯一一个(全国产化集群)。"中国科学院计算技术研究所专家指出。这一判断揭示了当前国产算力集群的现实:实现CPU、GPU、交换机芯片、网卡芯片全栈国产化的万卡集群,曙光scaleX是已知的孤例。

与之形成鲜明对比的是,英伟达凭借其CUDA生态与InfiniBand网络,早已将集群规模推向了十万卡级别,并持续探索更大规模。在国家超算互联网核心节点国产万卡集群亮相之前,高速互联领域的IB网络技术长期被英伟达形成垄断格局。

这不仅仅是数字上的差距,其背后反映的是系统性能力的代际落差。而曙光scaleX万卡集群的成功落地,依托自研的scaleFabric高速网络实现了IB网络技术的国产化突破,一举打破了英伟达的技术垄断。

中科曙光高级副总裁表示,从万卡到十万卡的突破,最核心的技术挑战并非来自计算节点本身,而在于互联系统。当集群规模呈数量级增长时,如何保证计算效率的可扩展性、如何维持超高可靠性,成为压倒性的难题。

据行业调查数据显示,到2025年底,全球智算基础设施投资规模巨大,而支撑下一代万亿乃至十万亿参数大模型,需要八万到十万卡左右的集群规模。国产算力若想参与这场顶级竞赛,就必须攻克超大规模组网的技术壁垒。

超大规模集群的技术挑战分析

规模效应下的可靠性挑战

规模从百卡放大到十万卡,单点故障率即便极低,在系统层面也会被指数级放大。确保十万张加速卡能够高度协同、稳定持续运行数小时乃至数天完成一次大模型训练,其技术复杂度呈几何级数上升。

未来万卡、十万卡集群可能是常态,每一次计算失败背后都是巨大的成本损耗。规模扩大后,故障率恢复时间都是指数级增长,因此高可靠性是比高带宽、低延迟更重要的指标。

scaleFabric的设计正是围绕此展开,其采用与InfiniBand相同的基于信用的流控机制,从理论上保证无损传输,避免因少量丢包引发的性能雪崩。同时,研发了链路故障路由快速恢复技术,将故障恢复时间降至毫秒级且与规模无关。

网络协议的技术演进

随着规模扩大,对交换机的交换带宽和存储容量提出了极高要求(如25.6T、51.2T乃至更高),这是国产化需要追赶的。更关键的挑战在于端侧(网卡)和协议层面。

传统基于IB或RoCEv2的协议面向的是"无损网络",但当集群规模达到万卡乃至十万卡时,网络必然变为"有损网络"。这将引发一系列连锁问题:如何高效重传、处理丢包、管理大规模拥塞?

通过自研的协议栈,采用更快速的检测与重传机制,来应对这些挑战。然而,硬件和协议只是基础。生态协同的极端重要性不容忽视。到了超大规模,需要网络侧、计算侧、供电与机柜形态、上层控制系统进行整体协同。

软硬件深度协同的必要性

算力集群的高效协同,不仅取决于硬件,更取决于上层应用的算法和分布式训练策略。集群能协同高效工作,"需要跟应用的算法和流程去高度的耦合"。这意味着硬件系统设计不能背离应用需求太远。

通过利用scaleFabric支持的GPU显存直接互联技术,将通信路径从"GPU->CPU内存->网络->CPU内存->GPU"优化为"GPU显存直通网络到GPU显存",显著降低了通信开销。在某些测试中,工程计算软件的通信时间占比从50%降至10%,在万卡规模下仍能保持较高的并行效率。

这表明,硬件能力必须通过软件栈的深度适配和优化,才能转化为实际应用性能。然而,这种深度协同需要跨领域的专家团队,既懂芯片与系统架构,又懂AI算法与分布式框架,目前国内此类复合型人才团队仍显稀缺。

系统级调优的技术门槛

工程化能力的差距

国内大模型工程化落地能力比较弱,有很强的算法能力,但到大规模系统上效率往往很低。真正让万卡以上集群性能发挥好,需要一支专业团队进行从硬件到软件的全栈调优。

从用户角度看,国产单卡性能已对标甚至超越英伟达A100,但"从单卡到八卡,在一个机器内它的性能度做得还是比较好的,但是如果把它扩散到万卡,没有多少厂商有那么高的信心"。其核心瓶颈就在于网络以及基于网络的系统性调优能力。

实现"1+1=2"的前提是网络不成为瓶颈,而国内具备强大网络能力和集群方案能力的厂商并不多。这不仅是硬件的比拼,更是系统工程能力和软件栈实力的较量。

算存传一体化设计

突破三重挑战需要从芯片、网络、存储、冷却到系统软件、应用框架的"算存传一体化"协同设计。未来高性能计算是一项系统工程,计算、存储、网络任何一环的短板都会被指数级放大。

提出的超集群和算存传耦合架构,正是试图通过系统级创新,实现"1+1+1>3"的效果。然而,这条道路漫长且需要全产业链的紧密协作。

技术路线选择与产业现实

IB与以太网的技术路线之争

在迈向超大规模的道路上,国产算力还面临着一个基础性的选择与挑战:高速互联的技术路线之争。当前主要存在InfiniBand和基于以太网的RoCE两条路径,它们背后代表着不同的技术传承、产业阵营和用户习惯。

scaleFabric选择了兼容IB生态的路线。IB是"真正的无损网络",这一特性对RDMA性能至关重要。然而,另一部分行业专家观点则认为:当前全球大部分智算中心还是基于以太网的RoCE技术,而非IB。

IB最初主要服务于超算领域,被英伟达发扬光大后应用于智算,但由于其协议存在局限性,且互联网大厂已拥有成熟的以太网架构体系,若在智算领域单独部署IB网络,会大幅增加网络形态的复杂性。

用户习惯与迁移成本

这种分歧并非偶然,而是根植于用户背景。做超算的行业从业者,原来用的是IB体系,所以他们肯定更喜欢用IB。但是现在做智算那帮人还是以互联网企业为主。这些互联网企业,他们原来做云的时候,他们就用的是以太网,所以他们觉得以太用得更顺手。

在全新部署的国产集群上,应用可以无缝迁移。但如果用户想保留原有英伟达IB交换机,只替换国产网卡,可能会因英伟达的私有协议限制而无法通信。这体现了生态替代过程中的现实摩擦,也凸显了掌握自主核心技术的必要性。

国产解决方案的差异化优势

国产算力正走出一条更具优势、更符合未来趋势的发展路径。美国走的是"暴力堆算力"的路线,追求单卡算力和规模的快速迭代;而中国则走高效集约、自主可控、开放共享的精细化发展路线。

通过提升算力效率、降低成本,推动AI普惠,同时依托电力优势和互联技术的快速追赶,实现"以系统优势弥补单点差异"的高质量发展。在软件层面,国产厂商通过精细化优化,充分挖掘现有硬件的算力潜力。

在架构层面,DSA路线、存算一体、重构计算等新型架构的探索,也为国产算力突破海外限制提供了新路径。国产解决方案能否成功,不仅取决于单一技术路线的性能优劣,更取决于坚定并做强自主可控的技术路线,同时以开放的姿态,灵活适配双轨生态,降低不同背景用户的迁移和运维成本。

未来发展方向与建议

加强系统工程能力建设

十万卡级国产算力集群的建设需要加强系统工程能力的整体提升。这包括:建立完善的可靠性工程体系,开发智能运维管理系统,构建跨领域的专家团队,以及建立完整的测试验证体系。

推动产业生态协同

需要推动芯片厂商、系统厂商、软件开发商和最终用户之间的深度协同。建立开放的技术标准和接口规范,促进不同技术路线之间的互联互通,降低用户的迁移成本和使用门槛。

注重人才培养与积累

加强复合型人才培养,既懂硬件架构又懂软件算法的人才尤为关键。建立产学研用一体化的人才培养机制,促进技术创新与产业应用的深度融合。

通过以上措施,国产算力有望在突破IB网络垄断的基础上,进一步攻克十万卡级集群的技术难题,为全球AI基础设施发展贡献中国方案。