具身智能的六场关键对决：形态、数据与场景的未来博弈

智能汽车作为机器人的第一个大终端，正经历一场从「车」到「人」的智能化跃迁。在大模型技术快速发展的当下，源自智能汽车的算法、算力技术正在被加速复用，催生出从单一任务到通用智能、从交通工具到机器人的宏大图景。然而，具身智能的发展还面临多重现实挑战，从数据采集到模型训练，从硬件本体到场景落地，产业链各环节都存在大量技术和工程问题。仅仅依靠单一机构难以全链条突破，必需要构建多方共建的产业协作生态。

地平线作为机器人时代的智能计算平台，既是这场进化的见证者，更是深度参与者与赋能者。当前，地平线已成为中国最大的消费类机器人计算平台，旗下地瓜机器人上市产品超过100款，连接着超100家上下游合作伙伴与10万余名开发者。

在12月9日举行的2025地平线技术生态大会上，行业专家们进行了一场「名」人不说暗话的硬核圆桌，全景呈现了从芯片、算法、开发平台到机器人本体的全产业链创新，深度探讨具身智能的技术发展、商业落地，聚焦技术跨域赋能的生态潜力。以下是对这场深度对话的全面解析。

形态之争：类人形态VS功能形态

具身智能的产品形态选择，是行业面临的首要争议。本末科技创始人兼CEO张笛认为，机器人这个品类有非常多的选择余地，仿生、拟人都只是可选择的方向之一。他强调，本末科技倾向于在双足和轮足上朝着非拟人、非仿生方向探索，因为"英雄老路未必是最优解"。

"机器人是新物种，可以完全设计一个新的产品，这个对整个行业来讲是最健康，最有诱惑力，对我们年轻的人来讲也是最有挑战的方向。"张笛表示。

机器人形态对比

而优必选研究院A1大模型与交互部负责人石海林则坚定支持人形机器人方向。他解释道："从大自然还有生物进化千百年来看，人之所以成为人形，我们的四肢，我们的手有五个手指头，我们的五官在头上，我们大部分人的眼睛的距离平均在6厘米，为什么大家都是这样的，其实背后是因为适应了自然环境和我们人类社会环境的结果。"

石海林认为，人形机器人在工业、商业和家用场景中都有不可替代的价值。特别是在工业场景中，面对大量非结构化任务，人形机器人的泛化能力更强，能够胜任物流转运、搬运、分拣、上下料、精密装配等在狭窄通道和灵活操作环境中的任务。

在数据迁移效率方面，石海林指出："人形数据相对其他形态的数据更容易采集获取、标注清洗。以遥操作采集为例，如果设备与人形，比如手部、双臂，是同样的甚至同构的，那么操作员操作起来会更高效便捷，同时培训一个数量的操作员也更简单容易。"

关于技术路径选择，张笛将行业分为"学院派"和"产业派"："学院派是自上而下，以通用为大旗，去把所有的相关的技术去做推广和积累，但产业派就是循序渐进去做通用，本质上就是一个基座上面叠加模组。"他观察到，从商业化和产业化的速度来看，产业派推动得更快一些。

石海林完全认同这一观点，并指出技术迭代正在加速："如果我们以ALOHA为代表，他打通了Neural Network在具身智能这一块的技术方案。所以我们可以把2023年作为起始点的话，假设我们也是以最保守5年来估计，从23年到28年，今天来算的话可能就三年，或者18个月，就已经进入到成熟期，这个周期是大大加快。"

技术路线之争：「先验模型」VS「数据规模」

极佳视界创始人兼CEO黄冠从世界模型的角度切入具身智能的技术路线。他认为："世界模型是物理AGI最后的瓶颈，并且它不是要5年、10年被攻克掉，实际上我们已经看到了它被解决的曙光，得益于整个生成式AI的发展。"

世界模型架构

黄冠详细阐述了世界模型对具身智能的三方面价值：首先，世界模型提供了一种高效生成世界的方式，为具身智能提供无限所需数据；其次，它为强化学习提供了可扩展的闭环环境；第三，世界行动模型可以替代VLA，真正实现智能。

关于世界模型所需数据的问题，黄冠解释道："语言模型跟世界模型其实可能相比行动模型会好解决呢？就是因为数据多，大家都知道，语言模型有互联网上的海量文字数据作为支撑。而世界模型所依赖的数据中，互联网的视频数据是最重要和基础的部分，这些视频数据看似没有直接呈现三维（3D）和physics，但实际上3D和physics都隐含在视频的隐空间里了。"

香港大学数据科学研究院助理教授李弘扬则从Scaling Law的角度分析："具身智能领域一定会有Scaling Law，到目前为止真正能算得上，做过Scaling Law实验的，这个世界上只有一家公司，就是Generalist AI，前一阵的Gen-0。其余包括Physical intelligence（Pi），都没有很大规模的用Scaling Law的实验，都还谈不上Scaling Law。"

李弘扬指出，具身领域的数据采集面临巨大挑战："如果我们两班倒的话，采集这个不同的manipulation task，一班8个小时，16个小时，其实有效的转化率是4、5个小时，因为还要涉及到数据质检、熟悉的过程等。这样的话需要Aloha或者说主从臂这样的一套设备需要500套，很显然它不可能部署500套，所以肯定要走UMI等等这种低成本的路线。"

数据策略之争：仿真/合成数据VS真机数据

具身智能领域的数据采集策略是行业另一大争议焦点。黄冠大胆预测："我觉得很可能不会有ImageNet时刻，因为图像分类任务很标准化，给一张图片给了一个标签就行；但是具身机器人，所有的传感器、执行器、环境、物体都不一样，本体也不一样，具身不是打造一个数据集的问题。"

他进一步表示："所以我认为具身领域可能不会存在ImageNet的时刻，而是会直接到chatgpt时刻。并且我们其实觉得没那么遥远，最近硅谷密集的出来一波公司，已经积累了10万小时以上的真机数据。所以可能明年很关键，明年全球可能会有5-10家公司，会把数据的量至少做到百万小时的级别（当然这里面大家数据来源的分布可能会不一样），可能会有公司接近GPT-3时刻。"

数据采集场景

李弘扬则相对保守："我还是遵循这个数据金字塔或者说pyramid的这种形式。互联网数据，即ego-centric data，加上simulation，加上遥操等等这些，互为补充吧。"

关于真机数据采集的效率问题，李弘扬指出："在具身领域大家都在谈论数据金字塔、真机数据等概念，我觉得从算法、数据、硬件以及法律这几个维度来看，如何构建一套高效的数据采集系统，在具身智能领域是非常关键，然后我们再来说Scaling Law这个事。"

场景之争：工业场景VS家庭场景

具身智能的应用场景选择同样引发激烈讨论。张笛分享了本末科技的观察："现在走进千家万户的具身机器人已经非常多了，甚至是在几百万到上千万以上这个数量级。"

他描述了一个循序渐进的通用化路径："当某一天我们在家里面看到自己的扫地机器人除了扫地以外，突然之间有了安防巡检功能的时候，它就向通用迈出一步。当它有了安防巡检之后，又有一定的家居物品要维护的时候，它又向前走了一小步，但有一天总会有一个时刻，大家会忽然惊讶地发现，原来我家里的小机器人能干的事情竟然越来越多，竟然变成这个样子，竟然解决的问题已经不再是我当时一开始觉得它的这个样子了。"

地瓜机器人CEO王丛则从商业价值角度分析C端场景："如果我们现在说具身能做很多东西的肯定是在家庭用户场景，但问题是都做不出来。C端跑出来的东西绝对不是一个价格偏高，PMF（市场匹配度）没有的东西，所以C端消费电子产品的功能一定是一点点积累的。"

家庭机器人应用

王丛以iPhone为例说明功能积累的重要性："iPhone如果大家看乔布斯的发布会，其实就是通讯、MP3加上一个电话，三个已有功能整合到了一个产品上，然后慢慢构建起一个生态系统，从而有了所谓的智能手机。但是其实在iPhone之前的诺基亚也有不同的软件，也叫智能机，其实我觉得消费电子一定还是回归到最本身的产品需求，一点点叠功能发展出来。"

关于情绪价值在家庭场景的应用，王丛认为："情绪机器人这个事情我是很看好，但是它并不是严格意义上的价值，因为每个人，男人、女人、小孩、老人，每个人定义陪伴、定义情绪的概念太非标了，所以你很难定义出来一个所谓的陪伴机器人。陪伴什么？我觉得这不是一个以场景定义产品的思路。"

生态模式之争：生态开放VS全栈自研

在产业生态构建方面，地瓜机器人选择了生态开放路线。王丛解释了这一选择的感性原因："任何一家公司做事情，创始人、CEO都会有对未来的画面感——地瓜机器人的画面感是什么？或者说，什么事能让我们这帮人发自内心地开心？不是我们自己做出一个多智能、多厉害的机器人，而是看到各行各业的消费电子、智能硬件，都能通过我们的技术赋能实现智能化，这才是我幻想中的画面。"

从理性角度，王丛分析道："我觉得机器人行业就算发展十年，也依然会是非标市场——各行各业的机器人本体形态，大概率都会不一样。哪怕几年以后人形机器人变得非常泛化、智能，我也无法理解「用几十万的人形机器人来扫地」这件事——大家看的科幻电影里，未来是各种各样的机器人各司其职，我觉得现实的未来也会是这样。"

机器人生态协作

李弘扬则分享了开源数据集的价值："这个百万真机数据集，至少现在回过头来看，可以用于预训练、世界模型的训练，能给那些没有海量数据的高校实验室提供一个很好的平台。但其实我们最近也在复盘，这样的模式能不能复制？毕竟像agibot world这样的数据集，买过来成本也不低，还需要一套完整的生态，上到云服务的支撑等等，都得配套。"

李弘扬强调："所以在这之后，开源开放的数据集其实挑战还是蛮多的，可能最后还是需要一个行业和众力共建的平台来牵引，搭建一个统一的真机测试场，而不是单纯靠一家的数据集独大，这样的生态会更合适一些。"

人际关系之争：亲密共生VS警惕控制

随着机器人越来越像人，人机关系也成为重要议题。张笛认为情绪价值的实现需要精准定位："纯粹的情绪需求把它翻译成商业需求的语言，肯定是能够去做的。不管你是孤独也好，甚至孤独也可以分成若干种，解决不同的孤独，可能会有不同的产品形式可以去做，这个时候你发现情绪需求并不依赖于一个全能的机器人，只要针对那样专门的情绪需求定向去设计产品，这是我觉得最合理，也是最容易去取得一些市场进展的方式和方法。"

他观察到两个已经出现的MVP方向："如果我们把具身智能列一个九宫格，横轴看是否与物理世界产生接触，纵轴是它到底要不要使用非常非常fancy的机器人算法，那这类对话终端其实就属于「不接触物理世界、仅依赖NLP算法」的类别，它确实也已经在具身这个赛道下面，扎扎实实定义出了一个minimal availbable product。另外，在能运动的机器人品类里面，我们也发现现在非常多小型的桌搭产品，开始逐渐叠加越来越多的新功能和新范式，而且这些桌搭产品里，情绪价值往往高过实用功能。"

人机交互场景

石海林则从技术发展角度分析了人机亲密关系的必然性："从技术发展的速度来看，面向情感价值、情感陪护这个方向的机器人也好，具身智能产品也好，技术迭代真的非常快。从硬件上来说，不管是续航能力、结构复杂度，还是散热效果、运行噪音，甚至是外观设计，这些其实都还有很大的进步空间，但整体的发展速度非常快。"

他进一步指出："相对硬件来说，软件这两年其实是走在前面的，甚至如果我们今天把「情感陪伴」收窄到仅仅是「交互对话」这个范围的话，它其实已经是一个成熟的技术了。所以这个东西怎么说呢，软件相对来说是一个更成熟的板块，当然我们今天说的交互，可能不仅仅是语言上的交互——它给人提供情绪价值，可能是因为颜值足够讨喜；比如我今天回家很累了，我的机器人帮我打扫完房间、收拾好碗筷，这个过程本身也能给我提供情绪价值；再比如它能跟我顺畅互动、回应我的需求，同样能提供情绪价值。"

石海林预测："我们回头看，面向情感陪伴的具身智能技术发展这么快，它势必会推动产品和功能的成熟化，也会推动整个市场化的成熟，这个趋势其实不太以人的意志为转移，它是一个技术驱动的必然结果。"

结语：具身智能的未来之路

具身智能正站在技术突破与商业落地的十字路口。从形态选择到技术路线，从数据策略到场景应用，从生态构建到人机关系，每一个争议背后都折射出行业对未来的探索与思考。

正如专家们所共识的，具身智能的发展不会是一条直线，而是一个多维度的演进过程。在这个过程中，开放协作的产业生态将比单一的全栈自研更具生命力；循序渐进的功能叠加可能比一步到位的通用化更符合市场规律；而人机关系的演变也将随着技术的成熟而自然发生。

未来三到五年，我们将见证具身智能从实验室走向更广泛的应用场景，从工业场景的专业化应用到家庭场景的普及化应用。这一过程不仅将重塑人机交互的形态，更将深刻影响我们的生活方式和社会结构。具身智能的真正价值，不在于它多么像人，而在于它如何更好地服务于人，成为人类能力的延伸与补充。