国产算力突破IB垄断后，十万卡级集群面临哪些技术挑战？

国产算力突破IB垄断后的规模挑战

3月12日，中科曙光在郑州正式发布全自研的scaleFabric高速网络产品，并在国家超算互联网核心节点成功部署了万卡级国产智算集群。这一里程碑事件标志着国产算力基础设施在突破"卡脖子"关键环节上迈出了坚实一步。

然而，当国产算力刚刚叩开万卡时代的大门，海外巨头英伟达已宣称构建了十万卡甚至更大规模的集群。从万卡到十万卡，国产算力需要跨越的不仅是数字的鸿沟，更是技术、生态与系统工程的全面挑战。

国产算力集群示意图

万卡初成与十万卡之距

"目前，从我知道的信息角度，曙光这个万卡是唯一一个（全国产化集群）。"中国科学院计算技术研究所专家指出。这一判断揭示了当前国产算力集群的现实：实现CPU、GPU、交换机芯片、网卡芯片全栈国产化的万卡集群，曙光scaleX是已知的孤例。

与之形成鲜明对比的是，英伟达凭借其CUDA生态与InfiniBand网络，早已将集群规模推向了十万卡级别，并持续探索更大规模。在国家超算互联网核心节点国产万卡集群亮相之前，高速互联领域的IB网络技术长期被英伟达形成垄断格局。

这不仅仅是数字上的差距，其背后反映的是系统性能力的代际落差。而曙光scaleX万卡集群的成功落地，依托自研的scaleFabric高速网络实现了IB网络技术的国产化突破，一举打破了英伟达的技术垄断。

中科曙光高级副总裁表示，从万卡到十万卡的突破，最核心的技术挑战并非来自计算节点本身，而在于互联系统。当集群规模呈数量级增长时，如何保证计算效率的可扩展性、如何维持超高可靠性，成为压倒性的难题。

据行业调查数据显示，到2025年底，全球智算基础设施投资规模巨大，而支撑下一代万亿乃至十万亿参数大模型，需要八万到十万卡左右的集群规模。国产算力若想参与这场顶级竞赛，就必须攻克超大规模组网的技术壁垒。

超大规模集群的技术挑战分析

规模效应下的可靠性挑战

规模从百卡放大到十万卡，单点故障率即便极低，在系统层面也会被指数级放大。确保十万张加速卡能够高度协同、稳定持续运行数小时乃至数天完成一次大模型训练，其技术复杂度呈几何级数上升。

未来万卡、十万卡集群可能是常态，每一次计算失败背后都是巨大的成本损耗。规模扩大后，故障率恢复时间都是指数级增长，因此高可靠性是比高带宽、低延迟更重要的指标。

scaleFabric的设计正是围绕此展开，其采用与InfiniBand相同的基于信用的流控机制，从理论上保证无损传输，避免因少量丢包引发的性能雪崩。同时，研发了链路故障路由快速恢复技术，将故障恢复时间降至毫秒级且与规模无关。

网络协议的技术演进

随着规模扩大，对交换机的交换带宽和存储容量提出了极高要求（如25.6T、51.2T乃至更高），这是国产化需要追赶的。更关键的挑战在于端侧（网卡）和协议层面。

传统基于IB或RoCEv2的协议面向的是"无损网络"，但当集群规模达到万卡乃至十万卡时，网络必然变为"有损网络"。这将引发一系列连锁问题：如何高效重传、处理丢包、管理大规模拥塞？

通过自研的协议栈，采用更快速的检测与重传机制，来应对这些挑战。然而，硬件和协议只是基础。生态协同的极端重要性不容忽视。到了超大规模，需要网络侧、计算侧、供电与机柜形态、上层控制系统进行整体协同。

软硬件深度协同的必要性

算力集群的高效协同，不仅取决于硬件，更取决于上层应用的算法和分布式训练策略。集群能协同高效工作，"需要跟应用的算法和流程去高度的耦合"。这意味着硬件系统设计不能背离应用需求太远。

通过利用scaleFabric支持的GPU显存直接互联技术，将通信路径从"GPU->CPU内存->网络->CPU内存->GPU"优化为"GPU显存直通网络到GPU显存"，显著降低了通信开销。在某些测试中，工程计算软件的通信时间占比从50%降至10%，在万卡规模下仍能保持较高的并行效率。

这表明，硬件能力必须通过软件栈的深度适配和优化，才能转化为实际应用性能。然而，这种深度协同需要跨领域的专家团队，既懂芯片与系统架构，又懂AI算法与分布式框架，目前国内此类复合型人才团队仍显稀缺。

系统级调优的技术门槛

工程化能力的差距

国内大模型工程化落地能力比较弱，有很强的算法能力，但到大规模系统上效率往往很低。真正让万卡以上集群性能发挥好，需要一支专业团队进行从硬件到软件的全栈调优。

从用户角度看，国产单卡性能已对标甚至超越英伟达A100，但"从单卡到八卡，在一个机器内它的性能度做得还是比较好的，但是如果把它扩散到万卡，没有多少厂商有那么高的信心"。其核心瓶颈就在于网络以及基于网络的系统性调优能力。

实现"1+1=2"的前提是网络不成为瓶颈，而国内具备强大网络能力和集群方案能力的厂商并不多。这不仅是硬件的比拼，更是系统工程能力和软件栈实力的较量。

算存传一体化设计

突破三重挑战需要从芯片、网络、存储、冷却到系统软件、应用框架的"算存传一体化"协同设计。未来高性能计算是一项系统工程，计算、存储、网络任何一环的短板都会被指数级放大。

提出的超集群和算存传耦合架构，正是试图通过系统级创新，实现"1+1+1>3"的效果。然而，这条道路漫长且需要全产业链的紧密协作。

技术路线选择与产业现实

IB与以太网的技术路线之争

在迈向超大规模的道路上，国产算力还面临着一个基础性的选择与挑战：高速互联的技术路线之争。当前主要存在InfiniBand和基于以太网的RoCE两条路径，它们背后代表着不同的技术传承、产业阵营和用户习惯。

scaleFabric选择了兼容IB生态的路线。IB是"真正的无损网络"，这一特性对RDMA性能至关重要。然而，另一部分行业专家观点则认为：当前全球大部分智算中心还是基于以太网的RoCE技术，而非IB。

IB最初主要服务于超算领域，被英伟达发扬光大后应用于智算，但由于其协议存在局限性，且互联网大厂已拥有成熟的以太网架构体系，若在智算领域单独部署IB网络，会大幅增加网络形态的复杂性。

用户习惯与迁移成本

这种分歧并非偶然，而是根植于用户背景。做超算的行业从业者，原来用的是IB体系，所以他们肯定更喜欢用IB。但是现在做智算那帮人还是以互联网企业为主。这些互联网企业，他们原来做云的时候，他们就用的是以太网，所以他们觉得以太用得更顺手。

在全新部署的国产集群上，应用可以无缝迁移。但如果用户想保留原有英伟达IB交换机，只替换国产网卡，可能会因英伟达的私有协议限制而无法通信。这体现了生态替代过程中的现实摩擦，也凸显了掌握自主核心技术的必要性。

国产解决方案的差异化优势

国产算力正走出一条更具优势、更符合未来趋势的发展路径。美国走的是"暴力堆算力"的路线，追求单卡算力和规模的快速迭代；而中国则走高效集约、自主可控、开放共享的精细化发展路线。

通过提升算力效率、降低成本，推动AI普惠，同时依托电力优势和互联技术的快速追赶，实现"以系统优势弥补单点差异"的高质量发展。在软件层面，国产厂商通过精细化优化，充分挖掘现有硬件的算力潜力。

在架构层面，DSA路线、存算一体、重构计算等新型架构的探索，也为国产算力突破海外限制提供了新路径。国产解决方案能否成功，不仅取决于单一技术路线的性能优劣，更取决于坚定并做强自主可控的技术路线，同时以开放的姿态，灵活适配双轨生态，降低不同背景用户的迁移和运维成本。

未来发展方向与建议

加强系统工程能力建设

十万卡级国产算力集群的建设需要加强系统工程能力的整体提升。这包括：建立完善的可靠性工程体系，开发智能运维管理系统，构建跨领域的专家团队，以及建立完整的测试验证体系。

推动产业生态协同

需要推动芯片厂商、系统厂商、软件开发商和最终用户之间的深度协同。建立开放的技术标准和接口规范，促进不同技术路线之间的互联互通，降低用户的迁移成本和使用门槛。

注重人才培养与积累

加强复合型人才培养，既懂硬件架构又懂软件算法的人才尤为关键。建立产学研用一体化的人才培养机制，促进技术创新与产业应用的深度融合。

通过以上措施，国产算力有望在突破IB网络垄断的基础上，进一步攻克十万卡级集群的技术难题，为全球AI基础设施发展贡献中国方案。