电话:
关闭
您当前的位置:首页 > 职场资讯 > 焦点访谈

上海交通大学万梓煜等团队在大模型推理测试时间扩展有新探索

来源:网络整理 时间:2025-07-08 作者:佚名 浏览量:

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_

本文的首位作者是来自上海交通大学计算机科学专业四年级的博士生万梓煜,他的主要研究领域包括强化学习和基础模型的复杂推理。此外,论文的通讯作者有两位,分别是上海交通大学人工智能学院的温颖副教授以及上海人工智能实验室的胡舒悦老师。团队成员还包括英属哥伦比亚大学的李云想和李云想共同担任第一作者,以及Mark Schmidt教授;伦敦大学学院的宋研、杨林易和汪军教授;上海交通大学的温潇雨;以及王翰竟教授和张伟楠教授。

引言

近期,针对大模型推理测试时间扩展(即Test time scaling law)的研究领域正不断涌现出多样化的新方法,这些方法涵盖了诸如结构化搜索结(例如MCTS)、过程奖励模型(Process Reward Model)与PPO的结合,以及可验证奖励(Verifiable Reward)与GRPO(DeepSeek R1)的融合等。然而,关于大模型何时能够达到“顿悟”状态的机制尚不明确。近期的研究纷纷指出,推理模式在提升推理能力方面扮演着关键角色。与此相似,本研究亦认为,……

大模型复杂推理的能力强弱本质在于元思维能力的强弱。

所谓“元思维”,指的是对自身推理过程进行监控、评估与调控,旨在达成更适应性和高效的问题解决,这对于智能体完成长期且复杂的任务至关重要。尽管大语言模型(LLM)已展现出卓越的推理能力,然而,如何实现与人类相似、层次更深、逻辑更严密的“元思维”依旧是一个核心难题。

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化__Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

上图中,两台机器人共同演示了如何求解三角形高线截距的过程,这一示例生动地呈现了元思维与推理在任务中的角色划分:负责计算的推理机器人执行具体计算任务,而元思维机器人则在这些任务的关键环节介入,负责规划、分解任务或进行错误纠正。鉴于这一目的,本研究从多智能体视角构建模型以解决该问题,并引入了强化元思维智能体(ReMA)这一框架。该框架通过多智能体之间的互动,对大模型推理过程中的元思维与推理步骤进行模拟。同时,借助强化学习技术,激励系统整体协同思考思考方式,旨在平衡探索效率与泛化能力。

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_

当前,提升大模型推理能力的研究主要分为两种思路:

首先,采用构造式方法,即对结构化的元思维模板进行采样和搜索,以构建数据并实施监督微调。然而,此类方法通常仅使模型学会了特定的回答模式,并未充分发挥其内在的推理能力,去灵活探索并找到最适宜的元思维模式。因此,这种方法在处理分布外的问题集时,泛化能力较弱。

二是采用Deepseek R1型单智能体强化学习方法,该方法首先通过引入高质量的退火数据,构建出一个具备一定混合思维能力的初始模型;随后,直接运用规则奖励函数对模型进行强化学习微调,使其能够掌握混合元思维以及详细的推理步骤。然而,此类方法往往需要依托于强大的基础模型,而对于那些能力不足的基础模型而言,在广阔的动作空间中难以实现有效的探索,更不用说还可能引发可读性不佳等诸多问题。

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化__Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

图一:ReMA框架与现有大模型复杂推理训练框架对比

面对这些挑战,ReMA 框架引入了一种全新的应对策略,将原本繁杂的推理步骤分解为两个层次分明的智能体:

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_

这两个智能体通过共同目标的迭代强化学习途径展开探索与协作学习。这种多智能体系统(MAS)的构建,将单一智能体强化学习的探索范围分散至多个智能体,从而让每个智能体在训练过程中能够更加有序、更加高效地进行探索。ReMA正是通过这种方法,实现了泛化能力与探索效率之间的平衡。

方法

ReMA 的生成建模

本项研究首先对单轮多智能体元思维推理过程进行了明确的界定,称之为Multi-Agent Meta-thinking reasoning process,即MAMRP。

在单一回合的交流环节中,一旦接收到一个任务问题,元思维智能体将对该问题进行全面的审视和必要的分解,进而制定出解决方案。与此同时,推理智能体则会遵循元思维智能体的指导,逐步执行任务内容。具体操作流程是:首先,元思维智能体提供元思维分析,随后,推理智能体负责进行问题的求解,整个过程可概括如下:,,,。

在多轮对话的情境里,元思维智能体所输出的元思维能够以更为均衡的方式融入整个思考流程中,该智能体能够明确地对求解步骤进行规划、分解、审视、回顾以及调整,其交互记录将持续累积直到对话结束。与此相仿,本研究对多轮MAMRP进行了定义,具体过程如下所示:

整个系统的求解过程可以用以下有向图来直观理解:

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化__Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

图二:不同算法框架的训练方式对比

单轮 ReMA 的训练

在单轮场景中,针对两个智能体,团队采用反复迭代的方法,力求提升它们各自的奖励值,进而对它们各自的权重进行更新。

每个智能体的奖励函数均兼顾了整体回答的准确性以及各自格式的规范性;在策略梯度更新算法方面,本研究采纳了当前广泛应用的GRPO与REINFORCE++方法,旨在减少显存占用并提升训练效率。

多轮 ReMA 的训练

在多轮对话场景的拓展过程中,为了增强计算效能与系统的扩展能力,该团队实施了以下几项调整:

首先,通过共享参数的方式,我们能够有效降低维护两份模型参数所需的部署成本;同时,这种方法还能简化调度过程中两份模型参数之间的依赖关系,从而提升整体效率。具体而言,本研究采用了不同角色的系统提示词来表征不同智能体的策略。

在优化过程中,我们同时采用两个智能体的采样数据来训练,进而对参数进行更新。

在多轮交互场景中,我们采用了强化学习方法,这与本研究中把每一轮的完整输出视为一个动作的做法不同。我们引入了轮次级比率(turn-level ratio)这一概念,用以实现损失归一化和剪切操作。具体的优化目标如下所示:,,,。

其中:

以这种方式进行多轮训练,我们能够逐步消除token级别的损失对长度的偏好,同时,通过综合考虑单轮中所有token的整体裁剪,也有助于在一定程度上使训练过程更加稳定。

实验结果

单轮 ReMA 的实验

团队首先对单轮设定进行了比较,分别考察了传统CoT的Vanila Reasoning Process(VRP)和经过强化学习训练后的VRP_RL以及MRP_RL的成效。该团队对ReMA在众多数学推理测试平台(诸如MATH、GSM8K、AIME24、AMC23等)以及LLM-as-a-Judge基准(包括RewardBench、JudgeBench)进行了跨领域泛化能力的全面检验。在解决数学难题时,该团队采用了 MATH 训练集(规模为 7.5k)进行算法训练。针对 LLM-as-a-Judge 任务,他们进一步将 RewardBench 数据集按照子类比例进行了划分,分别提取了 5k 个样本用于训练,以及 970 个样本用于领域内的测试。

_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

表一:单轮ReMA的实验对比

研究结果表明,在诸如Llama-3-8B-Instruct、Llama-3.1-8B-Instruct以及Qwen2.5-7B-Instruct等多种骨干预训练模型中,ReMA的平均表现始终超越了所有基准方法。在分布范围之外的数据集中,ReMA 在多数基准测试中均展现出卓越的表现,这一成就有力地彰显了其元学习机制所赋予的强大泛化能力。以 Llama3-8B-Instruct 模型为例,ReMA 在 AMC23 数据集上的性能较之前提升了20%。

消融实验

为了验证在ReMA模型中引入多智能体系统对推理能力培养的积极作用,研究团队在单一回合的条件下,分别对这两个系统的强化学习策略进行了消融测试。

问题一:元思维是否可以帮助推理智能体进行强化学习训练?

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_

团队对三种不同的强化学习训练方法进行了比较,其中一种方法名为RL from base,它直接利用基础模型进行强化学习训练;另一种方法RL from SFT,在强化学习训练前,首先使用GPT-4o的专家数据进行SFT初始化;而RL under Meta-thinking则是在强化学习训练过程中,借助GPT-4o生成的经过SFT处理的元思维数据,由元思维智能体提供高级别的指导。

图三呈现了在训练阶段,针对三种不同难度级别的测试集,模型准确率的变化轨迹。这些实验数据明确显示,元思维在提升推理模型的强化学习能力方面起到了积极作用,特别是在面对更具挑战性的任务时,其泛化能力更为显著。

问题二:LLM 是否能够通过强化学习演化出多样的元思维?

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_

图四:不同规模的元思维智能体的强化学习训练演化过程

团队在深入研究不同规模元思维智能体的强化学习训练演化路径后,精心设计了一套具有可解释性的动作库。该动作库通过模型输出 JSON 格式的指令,首先明确动作类别(如分解、重写、清空等),随后输出具体内容,从而实现对模型动作类型的有效监控。图四揭示了训练过程中,三种动作类型所对应的问题难度发生了变化。研究发现,当在较小规模模型(Llama3.2-1B-Instruct)上训练时,元思维策略迅速趋向于产生简单的输出策略,具体表现为“不做任何事”;然而,对于规模稍大的模型(例如Llama3.1-8B-Instruct),它们能够根据问题的难度灵活调整,选择合适的元思维动作。这一发现表明,当前备受瞩目的自主调节思考速度与节奏的选择问题,在某种程度上能够通过ReMA得到有效解决。

多轮 ReMA 的实验

_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化_Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

图五:多轮ReMA的实验结果

最终,研究团队在多轮对话的设定中展开了实验。起初,考虑到多数语言模型本身无法有效将问题分解为多轮对话来处理,团队首先从LIMO数据集中挑选了800条多轮MAMRP样本,用作启动时的冷数据。随后,他们运用了经过SFT(结构化细粒度训练)调整后的权重,对模型进行了强化学习训练。图五左侧呈现了MATH level 3-5(8.5k)数据集的训练轨迹,以及七个测试集的平均准确度。经过分析,研究团队得出以下观点:

图五右侧呈现了之前提出的两项优化措施(即共享参数的更新机制与轮次级比率调整)在多轮训练中的具体效果,研究团队选取了一个涵盖各类问题的小型数据集来检验算法在该集上的收敛速度与样本利用效率。实验结果显示,在多种采样配置下,该优化方案均显著提高了样本的利用效率。

总结

总体而言,该团队探索了一种创新的推理模式,即通过两个层级化的智能体来明确划分推理过程中的元认知部分,并借助强化学习技术推动它们共同执行复杂的推理任务。在单轮和多轮实验中,团队已取得一定成果,然而在多轮训练过程中,仍需克服训练过程中出现的崩溃问题。这暗示了,当前基于确定性马尔可夫决策过程(Deterministic MDP)的训练方法可能并不适合随机/非平稳马尔可夫决策过程(Stochastic/Non-stationary MDP),针对此类问题,在数据收集和模型构建方面,我们尚需进行更深入的探讨。

分享到:
客服服务热线
7x24小时服务
关于我们
产品与服务
收费与推广
网站特色
咨询反馈
微信公众号
手机浏览

Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6

地址:丽水市经济开发区生态产园集聚区 EMAIL:

Powered by PHPYun.

用微信扫一扫