商汤SenseNova-MARS开源：超越Gemini-3-Pro的多模态新标杆

多模态AI新突破

商汤科技在人工智能领域再次树立技术里程碑，其最新开源的SenseNova-MARS多模态模型（包含8B/32B双版本）在权威基准测试中展现出超越顶尖闭源模型的性能。这款革命性模型不仅在多模态搜索与推理领域取得突破性进展，更以代码、数据、模型的全面开源姿态，为全球AI开发者社区注入新动能。

性能突破：多维度超越行业标杆

在备受关注的MMSearch基准测试中，SenseNova-MARS以74.27分的成绩刷新行业标准，较GPT-5.2的66.08分实现显著超越。特别是在挑战性极高的HR-MMSearch评测中，该模型针对305张2025年最新4K超高清图片进行细节分析，以54.43分的优异表现拉开与竞品的技术差距。这些测试题目要求AI必须识别图片中占比不足5%的微小元素，如隐藏标识、细微文字等，且60%的问题需要至少三种工具协同解决。

HR-MMSearch测试场景

该模型在多个核心领域展现统治力：

多模态搜索：平均得分69.74分，超越Gemini-3-Pro和GPT-5.2
视觉理解：支持0.5毫米级细节识别
工具调用：实现多步骤自动化流程
知识密度：构建高复杂度推理链路

技术创新：自主推理能力跃升

SenseNova-MARS的核心突破在于首创的"Agentic VLM"架构，使模型具备真正的任务执行能力。通过动态视觉推理与图文搜索的深度融合，该模型能够自主规划任务步骤，智能调用图像裁剪、文本搜索等工具，完成从细节识别到信息整合的完整闭环。

在典型应用场景中，该模型展现出惊人的处理能力：

从赛车服上的微小Logo识别到企业成立年份查询
跨域分析产品峰会照片中的标志与参数
追溯赛事照片中人物与背景的关联信息

这种多工具协作能力得益于创新的训练方法：

第一阶段：多模智能体数据合成引擎生成高难度案例
第二阶段：BN-GSPO算法强化学习确保稳定进化

工业级应用：解决真实场景难题

SenseNova-MARS的突破性价值在于将实验室性能转化为实际生产力。在智能制造领域，该模型能自动分析设备图像，快速定位故障部件并调取维修方案；在金融风控场景中，通过票据细节识别与多源信息验证，构建智能审计系统；在医疗影像分析中，结合病历数据与文献库实现辅助诊断。

典型案例显示：

自动解析复杂工程图纸中的微小标注
从会议照片中提取产品参数并生成分析报告
追踪赛事画面中的商业标识进行合规审查

多步骤任务处理

这种能力源于三大核心技术模块的有机整合：

图像裁剪引擎：支持亚像素级细节分析
跨模检索系统：实现毫秒级信息匹配
推理决策网络：构建动态任务执行框架

开源生态：推动技术普惠化

商汤科技此次开源策略具有里程碑意义：

模型权重：32B/8B双版本支持不同场景
训练代码：完整披露创新算法实现
数据集：包含高难度合成训练样本
技术文档：提供详尽的部署指南

开发者可通过以下方式获取资源：

GitHub仓库：https://github.com/OpenSenseNova/SenseNova-MARS
HuggingFace模型中心：提供32B/8B下载
技术报告：https://arxiv.org/abs/2512.24330

这种全面开源策略将加速多模态技术的普及应用，预计将在智能办公、工业检测、教育科研等领域催生创新应用。社区已出现基于该模型的自动化质检系统、智能教学辅助工具等开源项目。

未来展望：多模态智能新纪元

随着SenseNova-MARS的开源，多模态自主推理技术进入新阶段。该模型展现出的三大发展趋势值得关注：

工具调用智能化：从固定流程到自主决策的进化
训练数据生成化：多智能体合成引擎提升数据质量
推理过程透明化：可解释性增强提升工业级应用可靠性

研究团队透露，下一代模型将重点突破实时交互能力与能耗优化，目标是在移动端实现同等性能。这预示着多模态智能将加速渗透消费电子领域，为智能助手、AR/VR等应用带来革命性体验。

多模态技术演进

当前，全球AI开发者社区已开始基于SenseNova-MARS构建创新应用。这种开源共享模式不仅推动技术进步，更在重塑人工智能发展范式，让先进AI能力真正服务于各行业数字化转型需求。