强化学习如何让大模型真正学会技能组合?清华团队给出新答案

0

研究背景与问题提出

随着大语言模型规模和预训练强度的不断提升,强化学习在后训练阶段的角色正在发生微妙变化。一方面,它仍然是当前提升模型推理能力和多步决策表现的关键技术手段;另一方面,越来越多的经验性结果表明,在许多任务上,强化学习带来的性能提升往往难以与“新能力的形成”直接划等号。

在pass@k等评测指标下,强化学习模型与基础模型之间的差距常常随着采样数的增加而迅速缩小,这使得一种观点逐渐占据上风:强化学习可能更多是在对模型内部已有解法进行筛选和重排,而非真正拓展模型的能力边界。

自然语言任务中,技能边界高度交织,模型在预训练阶段所接触的数据分布几乎无法完全排除,使得性能变化很难被明确归因于能力结构的改变。在这样的环境下,关于强化学习是否“教会模型新能力”的讨论,往往停留在指标层面的解释差异,而缺乏一个能够清晰刻画技能、控制任务难度并排除干扰因素的实验基础。

实验设计示意图

实验设计与方法创新

研究团队选择退回到一个更可控的实验环境,聚焦一个更基础也更根本的问题:强化学习究竟能否教会模型此前并不具备的新能力?如果可以,这些新能力具体是什么,在什么条件下才能被学习到,又是否具有跨任务的泛化性。

研究人员设计了20余个“非常规”字符串操作函数,将「函数结果预测」作为任务。为彻底排除预训练语料污染及模型语义联想的影响,所有函数均采用随机命名的无意义字符串。研究核心在于对比以下两种能力:原子能力指模型在不依赖Prompt中函数定义的前提下,准确预测单一函数f(x)输出的能力;组合能力指模型预测多层复合函数(如f(g(x)))执行结果的能力。

训练流程与能力构建

由于函数随机命名,没有模型具备该任务的原子能力。因此为了单独训练模型在该任务上的原子能力,在数据收集阶段,研究者首先在Prompt中提供明确的函数定义以及单函数的输出预测题目,获取模型生成的思维链与预测结果,且仅保留正确样本。

在SFT阶段,研究者移除了Prompt中的函数定义,让模型学习原本的思维链与预测结果。通过这种训练方式,模型被强制将函数逻辑内化至参数空间,从而在不查阅定义的情况下掌握“原子能力”,为后续评估复杂的“组合能力”奠定基础。

能力对比分析

强化学习的真实效果

研究人员在对拥有了原子能力的SFT模型进行强化学习训练,通过改变强化学习阶段提供的题目难度(仅单函数、仅二层嵌套函数、单函数与二层嵌套函数混合),观察模型在三层、四层乃至更深层次的组合问题上的测试性能。

研究发现,仅在单函数上进行强化学习的模型,在三层及以上组合任务上的准确率几乎为零,而一旦训练数据中包含最基础的二层嵌套函数,模型在三层组合上的准确率可提升至约30%,在四层组合上仍保持约15%,并在更高层级上持续显著优于随机水平。这表明模型并非依赖偶然猜测或记忆模板,而是学会了一种可递归使用的组合策略。

训练效果对比

对照实验的启示

进一步的对照实验显示,仅提供组合训练数据并不足以产生这种能力。研究团队在完全相同的二层组合数据上,用监督学习替代强化学习进行训练,发现这个模型在三层组合任务上的准确率始终处于极低水平,甚至在同一难度但函数不同的二层组合测试中也表现不稳定。

相比之下,强化学习模型不仅能够稳定解决二层组合问题,还能系统性地外推到更深层的组合任务,说明真正起关键作用的是强化学习所引入的结果驱动、探索机制与策略更新过程,它们共同促使模型形成新的推理结构。

跨任务泛化能力验证

研究还通过跨任务实验验证了这种组合能力的通用性:如果模型在A、B任务上学习了原子能力,仅在A任务上进行合适的组合能力强化学习,模型就能将该能力泛化至B任务上。在SFT阶段,除了先前提及的函数输出预测任务,研究人员混入了另一个任务,Countdown任务的SFT数据,以使得模型同样具备Countdown任务的原子能力。

跨任务迁移结果

测试结果显示,尽管未在Countdown任务上进行强化学习,仅在复合函数输出预测上进行强化学习后的模型在多步Countdown任务上的表现也取得了明显提升。这表明强化学习获得的并非特定于字符串任务的技巧,而是一种能够组织和调度已有原子技能的通用能力,即一种元技能。

对评测假象的澄清

针对“强化学习只是将pass@k压缩为pass@1”的观点,研究人员进一步分析了不同难度任务下的表现差异,发现这个现象主要出现在简单问题中。在低难度任务上,基础模型本就能够通过多次采样得到正确答案,强化学习的作用确实主要体现为重排。

而在高难度组合任务中,基础模型即使在极大采样预算下仍表现不佳,强化学习模型的优势却随着采样数增加而不断扩大。研究团队据此指出,这种“强化学习只是重排”的结论在一定程度上是一种评测假象。

不同难度下的表现差异

错误类型分析的深层意义

错误类型分析表明,强化学习带来的变化并不仅体现在准确率上,而是体现在模型行为结构的根本转变上。基础模型、监督学习模型以及仅进行原子强化学习训练的模型,其主要错误来源于忽略组合结构或误解嵌套关系。

而经过组合任务强化学习训练的模型,其错误更多来自原子步骤的执行失误,而非对整体组合结构的误解。这说明强化学习首先教会模型正确理解和执行组合结构,即使失败,也失败在更低层级,从而体现出一种认知层面的变化。

错误类型分布

实验设计的严谨性

为了保证研究结论具有高度可信性,研究团队在实验设计上进行了近乎教科书级的严格控制。研究人员没有直接采用自然语言任务,而是选择了字符串变换函数作为研究载体,主要原因在于自然语言任务中技能边界往往模糊不清,模型表现容易受到预训练语料的潜在污染。

相比之下,字符串变换函数具有行为完全确定、复杂度可以被严格控制以及能够人为构造模型在预训练阶段几乎不可能接触过的任务等优势,从而为分析强化学习是否产生新能力提供了一个干净且可控的实验环境。

在这一框架下,研究人员对“技能”给出了清晰而可操作的定义。原子技能被定义为在给定输入的情况下,模型能够正确预测单个函数作用后的输出,而组合技能则指模型在面对嵌套函数时,能够正确推断多个函数顺序作用后的最终结果。技能难度由函数嵌套的深度直接刻画,这使得“新技能”不再是抽象或主观的概念,而成为可以被精确检验和逐层分析的研究对象。

实验框架设计

研究意义与未来展望

这项研究的意义远不止于在字符串任务上取得了具体实验结果,更在于其对当前大语言模型强化学习研究中的核心争论给出了实质性回应。围绕“强化学习是否能够教会大语言模型新的能力”这一问题,研究团队并未给出简单的肯定或否定答案,而是提出了一个条件化结论,即强化学习确实能够促使模型获得新的能力,但前提在于模型已经具备完成任务所需的原子技能,同时训练任务的设计能够真实地激励模型去使用并发展这种新能力。

在此基础上,研究还为大语言模型的训练流程提供了一种具有启发性的技能分工范式。研究人员隐含提出,预训练或监督微调阶段的核心作用在于帮助模型掌握基本操作和原子能力,而强化学习更适合用于学习如何组织和调度这些已有能力,从而形成更高层次的推理和决策结构。这一训练思路与人类技能学习理论高度一致,也为当前围绕强化学习价值的分歧提供了一个清晰的实践方向。

此外,这项研究首次使跨任务泛化这一长期存在但缺乏解释的问题变得更加可理解。研究结果表明,模型在不同任务之间表现提升的根本原因并非知识层面的直接迁移,而是技能结构层面的迁移,即模型学会了一种更通用的能力组织方式,从而能够在新的任务中更有效地利用已有的原子技能。

技术实现的创新点

这项研究在技术实现上有几个重要的创新点。首先,通过随机命名的函数设计,有效排除了预训练数据对实验结果的影响,确保了研究结论的可靠性。其次,采用两阶段训练流程,将原子技能学习和组合技能学习明确分离,使得能够精确分析强化学习在能力形成过程中的具体作用。

在评测方法上,研究团队没有依赖单一的整体指标,而是从多个维度对模型能力进行分析。他们通过测试新函数的组合能力排除了简单记忆的可能,通过更深层次的函数嵌套考察模型是否形成了可泛化的组合策略,并通过跨任务迁移实验检验模型是否仅对特定任务产生适应。

结合不同难度下的准确率、不同采样预算下的pass@k表现以及错误类型的细致分析,研究人员构建了一条完整而自洽的证据链,从多个角度支撑了其关于强化学习技能获取机制的结论。

对产业实践的启示

这项研究成果对人工智能产业的实践应用具有重要启示意义。首先,它为大规模语言模型的训练流程优化提供了理论依据,建议在模型开发过程中明确区分基础能力建设和高级能力培养两个阶段。其次,研究结果支持了强化学习在复杂推理任务中的独特价值,为相关应用场景的技术选型提供了参考。

更重要的是,这项研究揭示了大语言模型能力形成的机制,有助于产业界更准确地评估模型的实际能力水平,避免过度依赖表面指标而忽视模型真正的推理能力。这对于需要高度可靠性的应用场景,如医疗诊断、金融分析等领域具有特别重要的意义。