具身智能的六场关键对决:形态、数据与场景的未来博弈

0

智能汽车作为机器人的第一个大终端,正经历一场从「车」到「人」的智能化跃迁。在大模型技术快速发展的当下,源自智能汽车的算法、算力技术正在被加速复用,催生出从单一任务到通用智能、从交通工具到机器人的宏大图景。然而,具身智能的发展还面临多重现实挑战,从数据采集到模型训练,从硬件本体到场景落地,产业链各环节都存在大量技术和工程问题。仅仅依靠单一机构难以全链条突破,必需要构建多方共建的产业协作生态。

地平线作为机器人时代的智能计算平台,既是这场进化的见证者,更是深度参与者与赋能者。当前,地平线已成为中国最大的消费类机器人计算平台,旗下地瓜机器人上市产品超过100款,连接着超100家上下游合作伙伴与10万余名开发者。

在12月9日举行的2025地平线技术生态大会上,行业专家们进行了一场「名」人不说暗话的硬核圆桌,全景呈现了从芯片、算法、开发平台到机器人本体的全产业链创新,深度探讨具身智能的技术发展、商业落地,聚焦技术跨域赋能的生态潜力。以下是对这场深度对话的全面解析。

形态之争:类人形态VS功能形态

具身智能的产品形态选择,是行业面临的首要争议。本末科技创始人兼CEO张笛认为,机器人这个品类有非常多的选择余地,仿生、拟人都只是可选择的方向之一。他强调,本末科技倾向于在双足和轮足上朝着非拟人、非仿生方向探索,因为"英雄老路未必是最优解"。

"机器人是新物种,可以完全设计一个新的产品,这个对整个行业来讲是最健康,最有诱惑力,对我们年轻的人来讲也是最有挑战的方向。"张笛表示。

机器人形态对比

而优必选研究院A1大模型与交互部负责人石海林则坚定支持人形机器人方向。他解释道:"从大自然还有生物进化千百年来看,人之所以成为人形,我们的四肢,我们的手有五个手指头,我们的五官在头上,我们大部分人的眼睛的距离平均在6厘米,为什么大家都是这样的,其实背后是因为适应了自然环境和我们人类社会环境的结果。"

石海林认为,人形机器人在工业、商业和家用场景中都有不可替代的价值。特别是在工业场景中,面对大量非结构化任务,人形机器人的泛化能力更强,能够胜任物流转运、搬运、分拣、上下料、精密装配等在狭窄通道和灵活操作环境中的任务。

在数据迁移效率方面,石海林指出:"人形数据相对其他形态的数据更容易采集获取、标注清洗。以遥操作采集为例,如果设备与人形,比如手部、双臂,是同样的甚至同构的,那么操作员操作起来会更高效便捷,同时培训一个数量的操作员也更简单容易。"

关于技术路径选择,张笛将行业分为"学院派"和"产业派":"学院派是自上而下,以通用为大旗,去把所有的相关的技术去做推广和积累,但产业派就是循序渐进去做通用,本质上就是一个基座上面叠加模组。"他观察到,从商业化和产业化的速度来看,产业派推动得更快一些。

石海林完全认同这一观点,并指出技术迭代正在加速:"如果我们以ALOHA为代表,他打通了Neural Network在具身智能这一块的技术方案。所以我们可以把2023年作为起始点的话,假设我们也是以最保守5年来估计,从23年到28年,今天来算的话可能就三年,或者18个月,就已经进入到成熟期,这个周期是大大加快。"

技术路线之争:「先验模型」VS「数据规模」

极佳视界创始人兼CEO黄冠从世界模型的角度切入具身智能的技术路线。他认为:"世界模型是物理AGI最后的瓶颈,并且它不是要5年、10年被攻克掉,实际上我们已经看到了它被解决的曙光,得益于整个生成式AI的发展。"

世界模型架构

黄冠详细阐述了世界模型对具身智能的三方面价值:首先,世界模型提供了一种高效生成世界的方式,为具身智能提供无限所需数据;其次,它为强化学习提供了可扩展的闭环环境;第三,世界行动模型可以替代VLA,真正实现智能。

关于世界模型所需数据的问题,黄冠解释道:"语言模型跟世界模型其实可能相比行动模型会好解决呢?就是因为数据多,大家都知道,语言模型有互联网上的海量文字数据作为支撑。而世界模型所依赖的数据中,互联网的视频数据是最重要和基础的部分,这些视频数据看似没有直接呈现三维(3D)和physics,但实际上3D和physics都隐含在视频的隐空间里了。"

香港大学数据科学研究院助理教授李弘扬则从Scaling Law的角度分析:"具身智能领域一定会有Scaling Law,到目前为止真正能算得上,做过Scaling Law实验的,这个世界上只有一家公司,就是Generalist AI,前一阵的Gen-0。其余包括Physical intelligence(Pi),都没有很大规模的用Scaling Law的实验,都还谈不上Scaling Law。"

李弘扬指出,具身领域的数据采集面临巨大挑战:"如果我们两班倒的话,采集这个不同的manipulation task,一班8个小时,16个小时,其实有效的转化率是4、5个小时,因为还要涉及到数据质检、熟悉的过程等。这样的话需要Aloha或者说主从臂这样的一套设备需要500套,很显然它不可能部署500套,所以肯定要走UMI等等这种低成本的路线。"

数据策略之争:仿真/合成数据VS真机数据

具身智能领域的数据采集策略是行业另一大争议焦点。黄冠大胆预测:"我觉得很可能不会有ImageNet时刻,因为图像分类任务很标准化,给一张图片给了一个标签就行;但是具身机器人,所有的传感器、执行器、环境、物体都不一样,本体也不一样,具身不是打造一个数据集的问题。"

他进一步表示:"所以我认为具身领域可能不会存在ImageNet的时刻,而是会直接到chatgpt时刻。并且我们其实觉得没那么遥远,最近硅谷密集的出来一波公司,已经积累了10万小时以上的真机数据。所以可能明年很关键,明年全球可能会有5-10家公司,会把数据的量至少做到百万小时的级别(当然这里面大家数据来源的分布可能会不一样),可能会有公司接近GPT-3时刻。"

数据采集场景

李弘扬则相对保守:"我还是遵循这个数据金字塔或者说pyramid的这种形式。互联网数据,即ego-centric data,加上simulation,加上遥操等等这些,互为补充吧。"

关于真机数据采集的效率问题,李弘扬指出:"在具身领域大家都在谈论数据金字塔、真机数据等概念,我觉得从算法、数据、硬件以及法律这几个维度来看,如何构建一套高效的数据采集系统,在具身智能领域是非常关键,然后我们再来说Scaling Law这个事。"

场景之争:工业场景VS家庭场景

具身智能的应用场景选择同样引发激烈讨论。张笛分享了本末科技的观察:"现在走进千家万户的具身机器人已经非常多了,甚至是在几百万到上千万以上这个数量级。"

他描述了一个循序渐进的通用化路径:"当某一天我们在家里面看到自己的扫地机器人除了扫地以外,突然之间有了安防巡检功能的时候,它就向通用迈出一步。当它有了安防巡检之后,又有一定的家居物品要维护的时候,它又向前走了一小步,但有一天总会有一个时刻,大家会忽然惊讶地发现,原来我家里的小机器人能干的事情竟然越来越多,竟然变成这个样子,竟然解决的问题已经不再是我当时一开始觉得它的这个样子了。"

地瓜机器人CEO王丛则从商业价值角度分析C端场景:"如果我们现在说具身能做很多东西的肯定是在家庭用户场景,但问题是都做不出来。C端跑出来的东西绝对不是一个价格偏高,PMF(市场匹配度)没有的东西,所以C端消费电子产品的功能一定是一点点积累的。"

家庭机器人应用

王丛以iPhone为例说明功能积累的重要性:"iPhone如果大家看乔布斯的发布会,其实就是通讯、MP3加上一个电话,三个已有功能整合到了一个产品上,然后慢慢构建起一个生态系统,从而有了所谓的智能手机。但是其实在iPhone之前的诺基亚也有不同的软件,也叫智能机,其实我觉得消费电子一定还是回归到最本身的产品需求,一点点叠功能发展出来。"

关于情绪价值在家庭场景的应用,王丛认为:"情绪机器人这个事情我是很看好,但是它并不是严格意义上的价值,因为每个人,男人、女人、小孩、老人,每个人定义陪伴、定义情绪的概念太非标了,所以你很难定义出来一个所谓的陪伴机器人。陪伴什么?我觉得这不是一个以场景定义产品的思路。"

生态模式之争:生态开放VS全栈自研

在产业生态构建方面,地瓜机器人选择了生态开放路线。王丛解释了这一选择的感性原因:"任何一家公司做事情,创始人、CEO都会有对未来的画面感——地瓜机器人的画面感是什么?或者说,什么事能让我们这帮人发自内心地开心?不是我们自己做出一个多智能、多厉害的机器人,而是看到各行各业的消费电子、智能硬件,都能通过我们的技术赋能实现智能化,这才是我幻想中的画面。"

从理性角度,王丛分析道:"我觉得机器人行业就算发展十年,也依然会是非标市场——各行各业的机器人本体形态,大概率都会不一样。哪怕几年以后人形机器人变得非常泛化、智能,我也无法理解「用几十万的人形机器人来扫地」这件事——大家看的科幻电影里,未来是各种各样的机器人各司其职,我觉得现实的未来也会是这样。"

机器人生态协作

李弘扬则分享了开源数据集的价值:"这个百万真机数据集,至少现在回过头来看,可以用于预训练、世界模型的训练,能给那些没有海量数据的高校实验室提供一个很好的平台。但其实我们最近也在复盘,这样的模式能不能复制?毕竟像agibot world这样的数据集,买过来成本也不低,还需要一套完整的生态,上到云服务的支撑等等,都得配套。"

李弘扬强调:"所以在这之后,开源开放的数据集其实挑战还是蛮多的,可能最后还是需要一个行业和众力共建的平台来牵引,搭建一个统一的真机测试场,而不是单纯靠一家的数据集独大,这样的生态会更合适一些。"

人际关系之争:亲密共生VS警惕控制

随着机器人越来越像人,人机关系也成为重要议题。张笛认为情绪价值的实现需要精准定位:"纯粹的情绪需求把它翻译成商业需求的语言,肯定是能够去做的。不管你是孤独也好,甚至孤独也可以分成若干种,解决不同的孤独,可能会有不同的产品形式可以去做,这个时候你发现情绪需求并不依赖于一个全能的机器人,只要针对那样专门的情绪需求定向去设计产品,这是我觉得最合理,也是最容易去取得一些市场进展的方式和方法。"

他观察到两个已经出现的MVP方向:"如果我们把具身智能列一个九宫格,横轴看是否与物理世界产生接触,纵轴是它到底要不要使用非常非常fancy的机器人算法,那这类对话终端其实就属于「不接触物理世界、仅依赖NLP算法」的类别,它确实也已经在具身这个赛道下面,扎扎实实定义出了一个minimal availbable product。另外,在能运动的机器人品类里面,我们也发现现在非常多小型的桌搭产品,开始逐渐叠加越来越多的新功能和新范式,而且这些桌搭产品里,情绪价值往往高过实用功能。"

人机交互场景

石海林则从技术发展角度分析了人机亲密关系的必然性:"从技术发展的速度来看,面向情感价值、情感陪护这个方向的机器人也好,具身智能产品也好,技术迭代真的非常快。从硬件上来说,不管是续航能力、结构复杂度,还是散热效果、运行噪音,甚至是外观设计,这些其实都还有很大的进步空间,但整体的发展速度非常快。"

他进一步指出:"相对硬件来说,软件这两年其实是走在前面的,甚至如果我们今天把「情感陪伴」收窄到仅仅是「交互对话」这个范围的话,它其实已经是一个成熟的技术了。所以这个东西怎么说呢,软件相对来说是一个更成熟的板块,当然我们今天说的交互,可能不仅仅是语言上的交互——它给人提供情绪价值,可能是因为颜值足够讨喜;比如我今天回家很累了,我的机器人帮我打扫完房间、收拾好碗筷,这个过程本身也能给我提供情绪价值;再比如它能跟我顺畅互动、回应我的需求,同样能提供情绪价值。"

石海林预测:"我们回头看,面向情感陪伴的具身智能技术发展这么快,它势必会推动产品和功能的成熟化,也会推动整个市场化的成熟,这个趋势其实不太以人的意志为转移,它是一个技术驱动的必然结果。"

结语:具身智能的未来之路

具身智能正站在技术突破与商业落地的十字路口。从形态选择到技术路线,从数据策略到场景应用,从生态构建到人机关系,每一个争议背后都折射出行业对未来的探索与思考。

正如专家们所共识的,具身智能的发展不会是一条直线,而是一个多维度的演进过程。在这个过程中,开放协作的产业生态将比单一的全栈自研更具生命力;循序渐进的功能叠加可能比一步到位的通用化更符合市场规律;而人机关系的演变也将随着技术的成熟而自然发生。

未来三到五年,我们将见证具身智能从实验室走向更广泛的应用场景,从工业场景的专业化应用到家庭场景的普及化应用。这一过程不仅将重塑人机交互的形态,更将深刻影响我们的生活方式和社会结构。具身智能的真正价值,不在于它多么像人,而在于它如何更好地服务于人,成为人类能力的延伸与补充。