
技术突破重塑AI能力边界
商汤科技最新开源的SenseNova-MARS模型,标志着视觉语言模型进入自主决策新阶段。该模型通过创新架构设计,成功解决了传统AI在复杂任务中"看得见但想不通"的困境。测试数据显示,其在MMSearch评测中以74.27分超越GPT-5.2的66.08分,这一提升不仅体现在数值差距,更在于实现了从被动理解到主动执行的技术跃迁。
动态推理机制的技术革新
该模型的核心突破在于三层动态推理机制:首先是亚毫米级细节捕捉能力,可精准识别图像中占比不足5%的关键元素,如赛车服上的微型LOGO;其次是智能检索联动系统,在识别特定对象的同时自动触发全球数据网络检索;最终通过多跳推理引擎完成"放大-识别-溯源"的复杂决策链。这种模拟人类侦探破案的推理模式,使AI首次具备工具使用的直觉判断。
训练范式的范式转换
商汤研究团队采用双阶段训练框架:
- 基础能力建设阶段:通过自动化数据合成引擎生成百万级高难度案例,强制模型在初始阶段就面对真实世界复杂场景
- 实战能力提升阶段:引入BN-GSPO强化学习算法,通过动态奖励机制优化决策路径,确保模型在各类任务中保持稳定输出
这种训练方法显著提升了模型的泛化能力,在HR-MMSearch评测中取得54.43分的行业领先成绩,较传统训练方法提升17.8%。
开源生态的战略价值
商汤此次全量开源包含三个关键要素:
- 模型权重(8B/32B双版本)
- 训练代码库
- 高难度测试数据集
通过Hugging Face平台开放,开发者可直接获取完整技术栈。这种开放策略将加速具身智能领域创新,预计将在智能机器人、自动驾驶、医疗影像分析等场景催生突破性应用。技术社区已开始基于该模型开发自主决策系统,其自主规划能力为复杂工业检测、安全监控等领域提供了全新解决方案。
行业影响与未来展望
SenseNova-MARS的技术突破引发业界广泛关注,其自主决策架构为AI发展指明新方向。IDC预测,搭载此类自主推理模型的智能设备市场规模将在2027年突破千亿美元。值得关注的是,该模型的开源策略将促进技术普惠,预计未来两年内将有超过500家初创企业基于此框架开发行业解决方案。
在技术演进层面,商汤团队透露下一代模型将融合实时环境感知与预测性推理能力,使AI决策系统具备前瞻视角。这种从"事后分析"到"事前预判"的转变,或将重新定义人机协作模式,在智能制造、智慧城市等领域创造全新价值空间。











