6万卡集群投用:中科曙光如何重塑AI4S科研范式?

0

人工智能与科学研究的深度融合正在成为推动全球科技竞争的核心变量。2026年4月14日,随着中科曙光在郑州国家超算互联网核心节点宣布6万卡AI4S计算集群正式投入使用,这一趋势迎来了具有里程碑意义的实体支撑。该系统不仅是目前国内规模最大的专用科学智能算力平台,更标志着中国在超算与智算融合的工程化能力上实现了从量变到质变的跨越。从2025年12月发布scaleX万卡超集群,到2026年2月3万卡节点上线,再到如今6万卡集群的落地,中科曙光以惊人的“曙光速度”刷新了行业纪录,为全球科研界提供了一把打开科学未知的超级钥匙。

国内最大规模6万卡AI4S计算集群投用,中科曙光实现全栈技术跨越

在传统的科研模式中,高昂的算力成本、复杂的软件环境配置以及漫长的模拟周期往往是制约基础科学突破的瓶颈。AI4S(AI for Science)的提出,旨在利用人工智能强大的模式识别和预测能力,重塑知识生产方式。然而,AI4S的落地并非易事,它需要算力、算法、数据和工程能力的深度耦合。中科曙光此次推出的6万卡集群,正是针对这一痛点打造的“全栈式”解决方案。它不仅仅是一个算力堆砌的机器,而是一个集成了自主可控核心芯片、高速互连网络、存算协同架构以及智能化运维体系的完整生态系统。

该集群最引人注目的特征在于其强大的算力底座。6万张高性能计算卡的集群部署,提供了全球顶级的超智融合算力。这不仅仅是数字的叠加,更是工程挑战的极致突破。在如此庞大的规模下,如何保证卡与卡之间的通信效率、如何避免单点故障导致的全局瘫痪,是传统超算架构难以解决的问题。中科曙光通过国内首款类InfiniBand无损高速网络scaleFabric系列产品,构建了高带宽、低时延的集群神经中枢。这种网络架构能够有效应对AI4S计算中常见的高通量数据传输需求,确保在大规模并行计算时,数据交换的延迟被压缩到微秒级别,从而让算力资源得到充分释放。

在精度处理方面,该集群展现了极高的适应性。依托自主可控的核心芯片,系统支持从8位到64位的全精度计算。这一特性对于科学计算至关重要,因为在处理高维函数和复杂的物理化学问题时,单一精度的计算往往会导致误差累积,进而影响最终的科学结论。全精度支持使得集群能够灵活应对从深度学习推理到高精度科学模拟的各种复杂场景,真正实现了通用人工智能与专用科学计算的无缝衔接。

除了算力本身,存算协同与智能调度机制的优化同样关键。在传统的计算架构中,存储I/O往往是制约性能发挥的“木桶短板”。中科曙光通过引入“超级隧道”和AI数据加速等创新设计,实现了从芯片、系统到应用的三层传输协同。这种设计有效地避免了存储瓶颈,确保计算单元能够持续获得高质量的数据输入。与此同时,智能调度机制能够根据任务的具体需求,动态匹配和调度集群的计算、存储及网络资源。其并发作业调度效率高达每秒万次,这意味着数千个科研项目可以同时在集群上高效运行,互不干扰,极大地提升了科研资源的利用率。

中科曙光高级副总裁 李斌

稳定可靠是任何大规模系统运行的基石。面对6万卡这种超大规模集群,任何微小的硬件故障都可能引发连锁反应。中科曙光通过智能化运维系统和数字孪生技术,实现了对集群运行状态的实时监控与预测性维护。结合浸没相变液冷技术的应用,系统不仅实现了高效的散热,更将整体可用性提升至99.99%。这种高可用性保障,使得长周期的科学模拟任务不再需要频繁停机维护,为科学家提供了类似“永不熄灯”的科研环境。

技术参数的突破最终需要转化为实际的应用成果。据测试数据显示,该集群在多个硬核科研领域已经展现出惊人的效率提升。在生物制药领域,3万卡规模的蛋白质折叠模拟相比传统算法加速了1000倍。这一成果意味着新药研发中的关键靶点筛选过程可以从数月缩短至数天,极大地加速了药物发现的进程。在新材料领域,4.5万卡规模实现了万亿原子液态水分子动力学模拟,不仅打破了世界模拟规模的纪录,更让效率提升了三个数量级以上。这种规模的模拟能够更精确地揭示物质微观结构的变化规律,为新材料的设计提供坚实的理论支撑。

此外,在流体力学等基础科学方向,该集群助力湍流直接模拟规模扩展至百万亿网格。湍流模拟一直是计算流体力学中的“圣杯”,因其极端的非线性特征,传统方法难以在有限算力和时间内完成高精度模拟。AI4S集群的介入,通过混合数值方法与AI代理模型的结合,使得这一难题的求解成为可能。这些成果不仅证明了技术的可行性,更验证了AI4S在解决复杂科学问题上的巨大潜力。

AI for Science 应用场景示意图

如果说算力的提升是“硬实力”的体现,那么生态构建和工具链的完善则是“软实力”的延伸。为了降低AI4S的门槛,让更多科研人员能够享受算力红利,中科曙光依托国家超算互联网平台,部署了国内首个科学大模型一站式开发平台OneScience。这一平台汇聚了海量的数据集、行业知识库、大模型以及科学与工程计算软件工具,构建起AI4S生态共建、共享的创新底座。

OneScience平台的核心价值在于“极简”与“智能”。在传统模式下,科研人员需要在复杂的计算环境中配置各种软件库、调试驱动程序,这一过程往往耗时数周甚至数月,且需要深厚的IT背景。而OneScience集成了数十个AI4S热点模型,用户只需通过自然语言提出需求,系统背后的“超级科学计算智能体”便能自动拆解任务、调用模型、调度算力,完成端到端的交付。科研任务完成时间从传统的“天级”压缩至“小时级”,这不仅是效率的提升,更是科研范式的根本性变革。它让科学家能够专注于科学问题本身,而非陷入繁琐的工程细节中。

国家超算互联网平台(scnet.cn)的构建,进一步放大了这一集群的影响力。该平台已链接超300万CPU核和超20万GPU卡,并接入了全国一体化算网调度体系。这意味着,位于偏远地区的实验室、中小企业甚至个人研究者,都可以通过网络普惠地获取到国家级的高性能算力服务。这种“算力像水电一样即取即用”的模式,将彻底打破科研资源的地理分布不均,推动中国乃至全球的科研工作向更加开放、协作的方向发展。

从行业发展的宏观视角来看,算力基础设施呈现出弱周期性、强成长性的特征。国家战略政策的引导、核心技术的迭代以及数字经济深化应用的需求,共同构成了行业长期向上的驱动力。中科曙光作为高端计算领域的头部企业,其技术积累和市场布局具有深远意义。此次6万卡AI4S集群的投用,不仅是企业商业模式的突破,更是中国科技自立自强战略的生动实践。它表明,在高端算力领域,中国已经具备了与国际顶尖水平同台竞技甚至领跑的能力。

正如中国科学院院士、河南省科学院院长徐红星所言,该集群的落地不仅是一次技术成果的展示,更是我国人工智能技术与科研创新深度融合的里程碑。它为解决卡脖子技术提供了坚实的算力底座,为生物制药、半导体设计、新能源材料等关键领域的突破提供了可能。随着AI4S技术的不断成熟和应用场景的拓展,我们有理由相信,未来将有更多的科学发现诞生于此类超算平台之上,进而推动人类知识边界的不断延伸。

在2026年的今天,当我们在谈论人工智能时,已经不再局限于大语言模型的内容生成能力,而是将其视为一种重塑科学发现方法的新范式。中科曙光的6万卡集群,正是这一范式变革的坚实载体。它以其全栈的技术能力、卓越的工程性能和开放的生态体系,正在悄然改变科研的“游戏规则”。对于中国而言,这不仅是算力规模的胜利,更是科研效率与创新的胜利。在这场没有硝烟的科技竞争中,谁掌握了AI4S的算力钥匙,谁就掌握了开启未来科学大门的密码。