模型竞争格局:从同质化到差异化演进
AI技术发展的核心驱动力始终是模型能力的提升。随着各大科技公司在大模型领域的持续投入,竞争格局正在发生深刻变化。两年前ChatGPT横空出世时,OpenAI凭借先发优势占据了行业制高点,而如今Google推出的Gemini 3已经展现出同等甚至更强的技术实力。这种竞争态势并非偶然,而是技术发展规律的必然结果。
从技术路径来看,目前主流大模型仍然基于Transformer架构,这意味着各家公司之间的技术差距并非不可逾越。未来的竞争格局将是"你六个月超越我,我再六个月超越你"的持续迭代过程,而不是某一家公司突然遥遥领先、无人可及的局面。这种动态竞争将推动整个行业快速向前发展。

大模型发展初期,人们普遍认为它最终会沦为"大宗商品"。原因在于各家使用的都是Transformer架构、参数规模相近、训练数据也主要来自公开互联网,因此模型性能趋于同质化。然而,随着强化学习(Reinforcement Learning)的引入,这一判断已经不再准确。
强化学习的作用类似于AlphaGo Zero在围棋中的自我对弈机制。不同公司通过强化学习所构建的"思维链"路径各不相同。知识本质上是在看似不相关的知识点之间建立联系。人类的知识是多维的且近乎无限的空间,其复杂度远超围棋可能的走法数量。如果预训练阶段趋同,未来模型的差异化将主要取决于各家公司如何利用强化学习在各自关注的知识子空间中进行定向探索。
例如,一家专注于科研或制药的公司,会引导模型在蛋白质结构、小分子构型等特定领域深入挖掘,而对历史、人文等内容则不予关注。反之,若一家机构聚焦于历史研究,其模型就会集中学习历史文献,完全忽略分子结构等科学数据。这种定向演进将导致未来的模型呈现高度差异化特征,各家公司将在各自专注的领域构建起独特的护城河。
硬件生态博弈:英伟达的机遇与挑战
AI基础设施领域的竞争同样激烈。英伟达作为当前AI芯片领域的绝对领导者,其市场地位正面临来自多个方向的挑战。各大科技公司纷纷开始自研AI芯片,如果未来每家公司都能开发出成本更低、效率更高、易用性更好的芯片,英伟达将面临被替代的风险。

未来云服务市场的格局将直接影响英伟达的战略地位。市场越集中,对英伟达越不利;市场越分散,其地位越稳固。因此,英伟达积极扶持Oracle、Nebius、CoreWeave等新兴云厂商,以维持生态多样性,这是非常明智的战略选择。
Google在AI芯片领域采取了不同的路径。其自主研发的TPU(Tensor Processing Unit)已经发展了12年时间,具备深厚的技术积累。TPU的一大优势是垂直整合能力,在设计芯片和算力中心时,Google已经对目标应用场景有清晰认知,这种应用导向直接影响网络架构设计,整个算力基础设施可针对自身应用进行高度优化,从而实现最低的单位成本。
然而,TPU在通用市场推广中存在明显障碍。TPU采用固定规模的block设计,一个block包含9,064个TPU,难以支持小规模或灵活配置。相比之下,GPU具备极强的部署灵活性,用户可按需从单卡扩展至万卡规模,动态适配算力需求。此外,CUDA生态的成熟也为GPU提供了显著优势。
应用落地的三大关键条件
AI应用的发展并非齐头并进,而是呈现明显的差异性。判断哪些应用能够快速落地,需要建立科学的评估框架。根据硅谷资深投资人王维嘉的经验,任何AI应用如果能同时满足三个条件,就更有可能快速取得突破。
第一个条件是纯数字化。凡是涉及物理空间交互的应用,其发展就会受到显著制约。比如机器人的灵巧手,仅实现高度灵活的操作就可能耗费五年以上时间。而金融领域的AI应用完全符合纯数字化要求,这是其能够快速发展的基础。
第二个条件是拥有充足的训练数据。有些领域虽然是数字化的,但如果缺乏高质量、可获取的数据,同样难以支撑有效训练。金融交易领域存在大量历史数据,如股票价格、交易记录等,这为AI模型提供了丰富的学习素材。
第三个也是最关键的条件是必须有明确的奖励函数。强化学习的核心在于持续探索并获得反馈,系统需要清楚地知道某次决策是对还是错,从而调整后续行为。金融领域的奖励函数非常清晰,可以通过回测验证策略是否盈利,即"赚钱为正反馈,亏损为负反馈"。
基于这三个条件分析,工业机器人前景可观。工业环境对手部灵巧度的要求取决于具体任务,比如物流系统中的分拣、装箱等操作并不需要高度灵活的手,这类任务已经可以通过现有技术解决。同时,工业场景通常具备大量可采集的操作数据,便于训练和优化。
相反,家政类人形机器人面临巨大挑战。在家做饭、炒菜、照顾老人、更换尿布等场景对手的柔软性、灵敏度和环境适应能力要求极高。给婴儿换尿布需要多么精细、轻柔且可靠的操控,目前的技术远未达到这一水平。这三个条件均不满足,因此家政机器人几乎不具备可行性。
AI泡沫论的本质:节奏问题
近期市场对"AI泡沫"的担忧日益升温,尤其是对以英伟达为代表的芯片企业提出质疑。这种担忧在一定程度上反映了市场对AI投资回报率的关注,但从根本上说,AI泡沫论的本质是节奏问题,而非技术本身的局限性。
我们需要关注的核心问题是:大模型未来还能做些什么?此前一段时间,业界普遍担忧预训练是否已经接近极限。各方看法不一,例如Ilya Sutskever认为预训练已基本到顶,而包括Google在内的许多公司则认为远未达到上限。但无论预训练是否见顶,强化学习的探索才刚刚开始,这意味着至少在强化学习方向上,还有大量空间可以挖掘。
只要模型能力继续增强,其经济价值就会随之提高,因为"智力"本身在进步。即使采取最保守的假设,即模型能力从此刻起不再进步,仅凭当前的能力,AI已经能够完成大量任务。例如"帮我买个东西"这样的功能,以现有模型能力完全可以实现。目前存在的操作系统整合、不同App之间的打通、数据互通以及隐私保护等问题,本质上是工程和制度层面的障碍,是可以被解决的。
即使模型能力就此停滞,其潜在经济价值也远未被充分释放。几乎所有从事大模型研发的公司都认为模型能力还远未到顶,至今没有听到任何一家主流大模型公司宣称"模型已经做到极致"。只要这一前提成立,AI的整体经济价值就依然可观。
当然,这并不排除局部或个别层面存在泡沫的可能性。AI应用的发展并非线性推进,它可能需要两三年的积累才能迎来突破。如果基础设施提前建成,而应用尚未成熟,就会导致算力闲置、资源浪费,进而造成亏损。整个AI生态系统的演进是高度不均衡的,这种参差不齐的发展节奏很可能在特定时间点或特定领域催生局部泡沫。
人性本质与技术边界
人工智能的发展引发了对人类本质的深刻思考。有一种观点认为,AI时代将带来abundance(富足),未来人人收入都很高,社会问题也将迎刃而解。但这种观点完全误解了人性。以中国为例,与50年前相比,今天的生活水平可能提升了上百倍,但人们真的比50年前幸福了100倍吗?显然没有。
人们总是会拿自己和更高标准比较,永远不满足。人是有"原罪"的,人生来就是自私、贪婪,这是刻在基因里的,无法被技术消除。AI无法解决这一根本问题,所谓abundance的说法只是一种技术浪漫主义。

关于AI是否具备意识或情感的问题,目前还存在很大争议。首先,AI是否有意识是一个非常复杂且难以界定的问题。至今为止,人类对于自身意识的本质都尚未有明确的定义,人类意识的起源仍是未解之谜。既然我们无法明确意识的内涵,讨论机器是否拥有意识就缺乏基础。
更值得关注的是情感问题。机器没有内分泌系统,而人类的喜怒哀乐等情感与激素分泌密切相关,例如多巴胺会让人产生愉悦感,肾上腺素会让人激动。人类的内分泌系统极为复杂,激素的细微变化就能影响人的情绪。机器由于缺乏这一系统,目前没有任何感情表现。
目前的神经网络,包括拥有万亿参数的Transformer,都只是确定性的机器系统,有输入就有对应的输出,不存在任何随机性、主观意志,更没有感情。把AI称为硅基生命本身就是一种错误的假设,目前的硅基系统只是机器,并非生命。
机器不仅没有情感,甚至连欲望都没有。这就是为什么在强化学习中,必须为机器设计奖励函数。因为机器自身没有内在的奖惩机制,而人类的行为大多是由内在的奖惩机制驱动的。如果机器有内在的奖惩机制,就无需人为地为其设计外在的奖励函数了。
世界模型的双重结构
当前大语言模型与世界模型之争成为AI领域的热点话题。首先需要明确"世界模型"的定义。如果世界模型仅仅是一个3D空间模型,那么它与情感等因素无关。目前,像李飞飞团队所研究的可能主要是基于3D空间的模型。
文字符号中确实包含三维空间的信息。例如,从"我这个杯子碰地下打碎了"这样的句子中,可以推断出杯子掉在地上会破碎,这本身就是三维空间的信息。然而,从文字符号中学习三维空间信息是间接且低效的。就像读一本描写贵族家庭的小说,虽然书中对房屋等细节有详细描述,但读者很难在脑海中完整构建出整个场景,因为文字是抽象的,会简化很多细节。
相比之下,如果直接观察一幅图像,人们可以迅速理解场景,因为图像提供了更丰富的细节。因此,让机器人直接通过触摸等方式感知环境,来学习三维空间信息是合理的,这种方式比从语言模型中学习更直接、更高效。
但真正的世界模型范围更加广泛。人性、基本常识、经济运行方式、金钱是什么,这些都属于世界模型的一部分。还包括情感、欲望、宗教等,这些都是世界模型的组成部分。从这个角度来说,世界模型的范围非常广泛,远超单纯的3D空间模型。
语言是人类与所有动物最大的区别,没有任何动物拥有语言,只有人类有,这才是人类的本质。除了语言,数学也是人类的发明,这些都是符号的应用、发明和定义,是人类的本质特征。正是因为人类拥有这种抽象能力,才能迅速跃居食物链顶端。
仅依靠三维空间模型来完成所有任务是不可能的,必须同时具备语言模型和空间模型。如果不需要与物理空间打交道,大语言模型就足够了,可以结合多模态能力,包括视频、图像、声音等。但如果要与物理空间打交道,就需要结合大语言模型和空间模型,因为仅仅知道物体在哪里是不够的,还需要知道该做什么。
人才争夺与创业模式变革
扎克伯格开出天价年薪挖人的现象引发广泛关注。讨论的焦点可能是两亿美金还是十亿美金挖一个人,但背后反映的是一个更深刻的问题——AI时代人才分布的深刻变革。
将人才分布看作高斯曲线,未来均值附近的人才会被AI替代,因为均值附近的数据训练最多。而高斯分布两端的人,低端的不需要替代,高端的最难替代。未来最有用的人才是那些差异化最大的人。扎克伯格支付高薪的,正是那些在高斯分布五个标准差、十个标准差之外的极少数人,这些人做出的贡献是机器无法替代的。
扎克伯格肯定算过账,知道付两亿美金招一个人,将来会赚回更多的钱。他作为一个商人,才会这样做。这预示着未来人才分布的趋势,调参数、打榜这类事情,完全可以用机器替代。将来,工程性的工作,如调整模型以提高效率等,会越来越多地被机器替代。
另一个值得关注的趋势是AI能力的提升正在颠覆VC模式。有一家叫Surge的公司,用数据训练大模型。其创始人是一位华裔年轻人,毕业于MIT,曾在Meta和谷歌工作。他创业四年,从零做到十亿美金收入,一分钱融资都不需要。他说:"I hate VC game",他不喜欢那种融资游戏,只喜欢搞算法,不想去忽悠钱,也不做市场推广,只想把产品做好。
这是一个非常强烈的信号,可能会颠覆整个VC行业。因为现在AI能力非常强,如果一个人在大厂工作过五到十年,有一定积蓄,他不需要很多钱就可以创业。未来VC追着人投钱,但对方可能不要。这种模式可能会被彻底颠覆。
未来一到三年的关键变化
在应用层面,未来一到两年内可能会出现一些原生应用。到目前为止,我们看到的原生应用还比较少。什么是原生应用,目前并不清楚。就像移动互联网刚出现时,有人认为它无非是在手机上多了一个搜索条,可以在手机上浏览网站。但实际上,移动互联网真正的原生应用是像滴滴打车、抖音视频这样的产品。
目前AI原生应用尚未出现,但这正是最大的创业机会。如果去做AI赋能,是在旧模式基础上修修补补,肯定竞争不过大公司。创业必须做原生应用,不能做AI赋能。比如一家公司的目标是废掉数据库,数据库本质上是因为计算机太笨,才需要告诉它数据结构是怎样的,如何存储和提取数据。如果AI足够聪明,就不需要数据库了。这些原生应用才是真正的机会。
第二点,Agent(智能代理)应该会开始逐渐成熟。目前,Agent的能力在各方面都已具备,但很多环节还无法打通。就像早期的智能手机,各方面都受到限制。未来,谁能最先将这些环节打通,实现一个完整的Agent,哪怕是很简单的功能,比如点外卖或在网上购物,这将具有巨大的经济价值和市场颠覆力,甚至可能改变很多现有的商业模式和就业结构。
在技术层面,芯片的处理速度在未来可能不会再像过去那样快速提升。过去两年,芯片速度可能提升了100倍甚至1000倍,但未来这种增长速度可能会放缓。至于算法上是否会有创新,目前还很难说,完全无法确定。这需要整个行业持续投入和探索。











