商汤SenseNova-MARS开源:超越Gemini-3-Pro的多模态新标杆

0

多模态AI新突破

商汤科技在人工智能领域再次树立技术里程碑,其最新开源的SenseNova-MARS多模态模型(包含8B/32B双版本)在权威基准测试中展现出超越顶尖闭源模型的性能。这款革命性模型不仅在多模态搜索与推理领域取得突破性进展,更以代码、数据、模型的全面开源姿态,为全球AI开发者社区注入新动能。

性能突破:多维度超越行业标杆

在备受关注的MMSearch基准测试中,SenseNova-MARS以74.27分的成绩刷新行业标准,较GPT-5.2的66.08分实现显著超越。特别是在挑战性极高的HR-MMSearch评测中,该模型针对305张2025年最新4K超高清图片进行细节分析,以54.43分的优异表现拉开与竞品的技术差距。这些测试题目要求AI必须识别图片中占比不足5%的微小元素,如隐藏标识、细微文字等,且60%的问题需要至少三种工具协同解决。

HR-MMSearch测试场景

该模型在多个核心领域展现统治力:

  • 多模态搜索:平均得分69.74分,超越Gemini-3-Pro和GPT-5.2
  • 视觉理解:支持0.5毫米级细节识别
  • 工具调用:实现多步骤自动化流程
  • 知识密度:构建高复杂度推理链路

技术创新:自主推理能力跃升

SenseNova-MARS的核心突破在于首创的"Agentic VLM"架构,使模型具备真正的任务执行能力。通过动态视觉推理与图文搜索的深度融合,该模型能够自主规划任务步骤,智能调用图像裁剪、文本搜索等工具,完成从细节识别到信息整合的完整闭环。

在典型应用场景中,该模型展现出惊人的处理能力:

  1. 从赛车服上的微小Logo识别到企业成立年份查询
  2. 跨域分析产品峰会照片中的标志与参数
  3. 追溯赛事照片中人物与背景的关联信息

这种多工具协作能力得益于创新的训练方法:

  • 第一阶段:多模智能体数据合成引擎生成高难度案例
  • 第二阶段:BN-GSPO算法强化学习确保稳定进化

工业级应用:解决真实场景难题

SenseNova-MARS的突破性价值在于将实验室性能转化为实际生产力。在智能制造领域,该模型能自动分析设备图像,快速定位故障部件并调取维修方案;在金融风控场景中,通过票据细节识别与多源信息验证,构建智能审计系统;在医疗影像分析中,结合病历数据与文献库实现辅助诊断。

典型案例显示:

  • 自动解析复杂工程图纸中的微小标注
  • 从会议照片中提取产品参数并生成分析报告
  • 追踪赛事画面中的商业标识进行合规审查

多步骤任务处理

这种能力源于三大核心技术模块的有机整合:

  1. 图像裁剪引擎:支持亚像素级细节分析
  2. 跨模检索系统:实现毫秒级信息匹配
  3. 推理决策网络:构建动态任务执行框架

开源生态:推动技术普惠化

商汤科技此次开源策略具有里程碑意义:

  • 模型权重:32B/8B双版本支持不同场景
  • 训练代码:完整披露创新算法实现
  • 数据集:包含高难度合成训练样本
  • 技术文档:提供详尽的部署指南

开发者可通过以下方式获取资源:

这种全面开源策略将加速多模态技术的普及应用,预计将在智能办公、工业检测、教育科研等领域催生创新应用。社区已出现基于该模型的自动化质检系统、智能教学辅助工具等开源项目。

未来展望:多模态智能新纪元

随着SenseNova-MARS的开源,多模态自主推理技术进入新阶段。该模型展现出的三大发展趋势值得关注:

  1. 工具调用智能化:从固定流程到自主决策的进化
  2. 训练数据生成化:多智能体合成引擎提升数据质量
  3. 推理过程透明化:可解释性增强提升工业级应用可靠性

研究团队透露,下一代模型将重点突破实时交互能力与能耗优化,目标是在移动端实现同等性能。这预示着多模态智能将加速渗透消费电子领域,为智能助手、AR/VR等应用带来革命性体验。

多模态技术演进

当前,全球AI开发者社区已开始基于SenseNova-MARS构建创新应用。这种开源共享模式不仅推动技术进步,更在重塑人工智能发展范式,让先进AI能力真正服务于各行业数字化转型需求。