商汤SenseNova-MARS双版本开源:多模态AI新标杆全面超越Gemini-3-Pro

0

技术突破:多模态推理能力全球领先

商汤SenseNova-MARS在MMSearch榜单中以74.27分刷新纪录,超越GPT-5.2的66.08分。该模型针对多模态搜索与推理场景设计,其动态视觉推理能力在HR-MMSearch测试中展现绝对优势——在305张4K超高清图片的严苛测试环境下,准确率高达54.43%。该测试要求AI识别图片中占比不足5%的细节,如微缩标志、隐蔽文字等,且60%的题目需调用三种以上工具协同完成。

场景化应用:多工具协作解决复杂任务

传统AI工具调用存在模态割裂问题,而SenseNova-MARS实现了多模态工具链的自主整合。在赛车服Logo识别案例中,模型通过三级操作完成任务:首先调用图像裁剪工具聚焦微小标识,继而使用图像搜索匹配企业信息,最终结合文本搜索获取成立年份并计算时间差值。这种自主规划能力使其在产品峰会分析、赛事背景调查等场景中表现卓越,可自动提取标志、人物、参数等关键要素。

创新训练方法:从数据生成到强化学习

该模型采用双阶段训练体系:第一阶段通过多模智能体自动化数据合成引擎构建高复杂度推理链路,引入闭环自洽校验机制确保数据质量;第二阶段应用BN-GSPO强化学习算法,通过双阶段归一化机制平滑工具调用分布波动。这种训练模式使模型形成"工具使用直觉",在简单题与复杂题处理中均保持稳定性能,解决了跨模态多步推理的收敛难题。

开源生态:全栈式资源开放

商汤将SenseNova-MARS模型权重、训练代码及数据集全量开源。开发者可通过以下渠道获取:

技术架构解析

该模型创新性地融合了细粒度视觉锚点与多跳深度关联检索机制,构建出严密逻辑链条的多跳推理数据集。在工具调用层面,通过动态规划算法实现多工具组合优化,其决策树深度可达7层,支持跨模态工具链的自动编排。实验数据显示,该架构在需要5步以上推理的复杂任务中,准确率提升达23%。

性能对比分析

在InfoSeek、SimpleVQA等12项基准测试中,SenseNova-MARS平均得分69.74,全面超越Gemini-3.0-Pro(69.06)与GPT-5.2(67.64)。特别在需要多工具协同的LiveVQA测试中,其表现超出竞品15%以上。模型在4K图像处理时的内存占用降低至行业平均水平的60%,推理速度提升40%。

行业应用前景

该技术可广泛应用于智能办公、工业质检、医疗影像分析等领域。在制造业场景中,模型可通过自主推理完成产品缺陷检测:先调用图像分割工具定位异常区域,再结合知识库进行故障诊断,最终生成维修方案。测试显示,该系统使质检效率提升3倍,误检率降低至0.3%以下。