
大模型领域正在经历一场深刻的变革。2026年3月29日,FutureX全球动态评测榜单的最新成绩显示,北京中关村学院信息智能团队自主研发的Milkyway智能体系统以60.9分的优异成绩位居榜首,这一分数远超马斯克旗下xAI打造的Grok-4(25.9分)。

预测能力成为AI智能新标准
马斯克曾公开强调:“预测未来的能力,是对模型智能性最好的测试。”这一观点在当今AI发展中得到了充分验证。传统的大模型评测主要依赖于静态题库,如MMLU、HumanEval等,但这些评测方式存在明显局限性——模型可能在训练过程中就已经“背诵”了答案。
FutureX评测基准的出现彻底改变了这一局面。它由字节跳动Seed团队、斯坦福大学、复旦大学和普林斯顿大学等机构联合发起,专注于考察AI模型对真实世界未来事件的预测能力。评测内容涵盖商业、气候、政治、体育等多个领域,所有题目都是尚未发生的事件,确保了评测的公正性和实用性。
FutureX评测体系的技术特点

FutureX采用独特的“折叠式”评分逻辑,将预测任务分为四个难度等级:
- Level 1:基础事件预测,权重仅占10%
- Level 2:有变量的趋势预测,权重占20%
- Level 3:多步深度推理,权重占35%
- Level 4:极高不确定性的宏观预测,权重占35%
这种评分体系确保了评测的全面性,避免了模型仅靠简单任务刷分的情况。特别是Level 3和Level 4合计占70%的权重,真正考验了模型的深度推理和不确定性处理能力。
各厂商表现分析

在本次评测中,各厂商的表现呈现出明显的技术分化:
Milkyway的突破性表现 北京中关村学院团队的Milkyway系统在四个难度级别上都表现出色,特别是在高难度的Level 3和Level 4任务中保持了稳定的预测准确率。这得益于其创新的DAG(有向无环图)推理协议和双层验证机制。
Grok-4的技术短板 Grok-4在Level 1简单任务中获得了71.43分的高分,但在Level 3深度推理任务中得分骤降至8.21分,显示出其在复杂推理能力方面的明显不足。
其他厂商的差异化优势
- 陈天桥团队的MiroFlow框架(57.5分)在Level 4高不确定性任务中表现突出
- GPT-5在政治与科技领域预测准确率分别达到72%和68%
- DeepSeek-R1在体育赛事预测中拔得头筹(64%准确率)
- Claude-3.7在多个垂直领域展现出均衡实力
预测能力的实际应用价值

FutureX评测不仅关注技术指标,更注重预测能力的实际应用价值。评测内容涵盖了多个真实世界场景:
商业预测应用 在FutureX-Retail零售预测任务中,模型需要预测特定商品的销量和供应链变化。Claude-Opus和Kimi-K2展现出强大的商业直觉,在评估不确定性概率分布任务上表现优异。
金融预测挑战 FutureX-Finance要求模型预测财报和宏观指标,误差必须控制在5%以内。GPT-5-high和Grok-4在这一领域表现突出,分别获得46.37和41.25分。
公共卫生预测 模型需要解读官方公报来预测疾病指标,GPT-5-High和Kimi-K2-thinking凭借高问题覆盖率占据领先位置。
Milkyway的技术创新
Milkyway的成功并非偶然,其核心技术突破主要体现在以下几个方面:
DAG推理协议 该系统引入了有向无环图推理协议,能够有效处理复杂的多步推理任务。与传统序列推理相比,DAG结构允许并行处理多个推理路径,显著提升了推理效率。
双层验证机制 Milkyway在模型内部建立了“风控中台”,每搜索一条信息、每推理一步都有实时审计机制进行强制纠错。这种设计确保了预测过程的可靠性和准确性。
抗干扰能力 在面对高度嘈杂的真实世界数据时,Milkyway展现出强大的信号过滤能力,能够有效识别和排除虚假信息干扰。
行业影响与发展趋势
FutureX评测结果对整个AI行业产生了深远影响:
技术路线重新定位 传统的“刷题式”训练方法已经无法满足真实世界预测需求。各厂商需要重新思考模型训练策略,更加注重推理能力和不确定性处理能力的培养。
垂直领域机会凸显 评测结果显示,没有哪个模型能够通吃所有细分领域。这为专注于特定垂直领域的创业公司提供了巨大机会,特别是在零售、金融、医疗等需要精准预测的行业。
智能体系统重要性提升 单纯的模型能力已经不够,需要结合优秀的智能体外壳(Agent Harness)和验证流程设计。未来的竞争将更多体现在系统整体设计能力上。
未来展望
随着预测能力成为AI智能的重要衡量标准,我们可以预见以下几个发展趋势:
预测精度持续提升 随着算法不断优化和训练数据质量提高,AI模型的预测精度将持续提升,在更多领域达到实用化水平。
多模态预测能力发展 未来的预测系统将不仅限于文本分析,还将整合图像、音频、视频等多模态信息,实现更全面的环境感知和预测。
实时预测成为标配 随着计算效率的提升,实时预测能力将成为AI系统的标配功能,为决策提供及时支持。
伦理与责任框架建立 预测能力的提升也带来了新的伦理挑战,需要建立相应的责任框架来确保预测结果的合理使用。
Milkyway在FutureX评测中的优异表现,不仅展示了国产AI技术的进步,更为整个行业指明了发展方向。预测能力作为AI智能的核心体现,将在未来发展中扮演越来越重要的角色。










