大模型 Agent 与强化学习 (RL) 深度学术解读报告

Tree Search for LLM Agent Reinforcement Learning

大模型智能体强化学习的树搜索方法

作者:Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu

机构:厦门大学,阿里高德地图(AMAP, Alibaba Group),南方科技大学

链接:📄 查看 ArXiv 原文

开源代码:GitHub 仓库

🔍 研究背景与痛点 (Background & Challenges)

强化学习(RL)正在成为大语言模型(LLMs)后训练(Post-training)的核心范式。以 DeepSeek-R1、OpenAI o1 为代表的模型证明了通过纯结果奖励(Outcome Rewards)的 RL 可以激发模型极强的复杂推理能力。然而,当将这种 RL 范式扩展到包含动态环境和多轮交互的复杂智能体(Agent)任务时,现有方法遭遇了严重的瓶颈:

为了解决过程监督的问题,以往的做法往往是引入过程奖励模型(PRMs),但这需要极高的人工标注成本且难以泛化。因此,本文提出了一个核心反思:能否在有限的 Rollout 预算下,仅依赖最终的 Outcome Reward,就能为 Agent RL 构建出细粒度的过程监督信号?

💡 核心贡献 (Core Contributions)

本文提出了一种全新的基于树搜索的组相对策略优化方法——Tree-GRPO (Tree-based Group Relative Policy Optimization),其核心贡献总结如下:

  1. 引入 Agent Step 级别的树搜索 Rollout 策略: 摒弃了低效的独立链式(Chain-based)生成,也拒绝了语义不明确的 Token/Sentence 级别树搜索。Tree-GRPO 将完整的 (思考 Thought - 动作 Action - 观察 Observation) 作为树节点进行展开。这种共享前缀的搜索策略在固定的 Token/API 预算下显著增加了有效探索轨迹的数量。
  2. 树结构内在的组相对优势估计 (Group-Relative Advantage): 创新性地在树内(Intra-tree)和树间(Inter-tree)两个层级进行优势估计。通过回溯同一分支节点下不同子树的最终 Reward 差异,自然地将轨迹级的 Outcome Reward 转化为了细粒度的过程监督信号(Process Supervision)。
  3. 理论与实证的双重验证: 数学上证明了 Intra-tree GRPO 的优化目标等价于 Step-level DPO(直接偏好优化)。实验表明,在多轮交互任务中,Tree-GRPO 以极低的采样预算(甚至只需 baseline 1/4 的 rollout)即可取得远超现有 Chain-based RL 架构的性能。

🔍 具体案例剖析 (Case Study)

为了直观展示 Tree-GRPO 训练出的 LLM Agent 的能力,我们选取了原论文附录中的复杂 Multi-hop QA 任务:

问题 (Question): Who is the owner of the record label of the performer of Groovy Little Summer Song?

正确答案 (Ground Truth): Warner Music Group, Warner Music

[Tree-GRPO (14B) 输出轨迹追踪]

<think>

要回答这个问题,我需要先确定 "Groovy Little Summer Song" 的表演者,然后再找出这位表演者所在的唱片公司,最后找出这家唱片公司的所有者。

</think>

<search> Performer of the song "Groovy Little Summer Song" </search>

<information> [检索内容]... "Groovy Little Summer Song" 是一首由美国乡村音乐艺术家 James Otto 录制的歌曲... </information>

<think>

从搜索结果来看,表演者是 James Otto。现在我要找出他关联的唱片公司属于谁。

</think>

<search> Record label of the performer James Otto </search>

<information> [检索内容]... Otto 的职业生涯始于 2002 年在 Mercury Nashville Records ... 此外在 2015 年他与 Blaster Records 签约... </information>

<think>

看起来 James Otto 与 Mercury Nashville Records 和 Warner Bros. Records 等厂牌有关。我现在需要找出是谁拥有这些唱片公司。

</think>

<search> Who owns Mercury Nashville Records and Warner Bros. Records </search>

<information> [检索内容]... Warner Bros. Records 是一家美国主流唱片公司,由 Warner Music Group (华纳音乐集团) 拥有... </information>

<think>

基于搜索结果,这些唱片公司归 Warner Music Group 所有。得出最终答案。

</think>

<answer> Warner Music Group </answer>

深度点评: 这个案例生动体现了 Tree-GRPO 赋予模型的动态分解规划与多步探索能力。面对未知的“Owner -> Record Label -> Performer”关系链,Agent 没有选择盲目瞎猜或一次性输入冗长 Query,而是稳扎稳打执行了严格的 Thought-Action-Observation 闭环,这正是由于 Tree-GRPO 在训练阶段将每一轮 Agent Step 均作为决策树节点,并在树分支的成败中提供了清晰的过程监督偏好信号。

4. 方法论与技术实现

RLTR (Reinforcement Learning with Tool-use Rewards) 框架分为三个清晰的工程阶段:

阶段一:Cold Start (冷启动 SFT)

使用强大的 Teacher LLM(如 Qwen3-32B)通过知识蒸馏(Knowledge Distillation)生成轨迹。随后使用拒绝采样(Rejection Sampling)保留Best-of-N的数据,仅对 Planner 的动作轨迹进行 SFT。

阶段二:Tool-Use Completeness Calculation (工具完整性奖励计算)

论文定义了一个完整性检查函数 $\gamma : \mathcal{S} \to \{0, 1\}$,利用验证模型(Comp. Checker,配合特定Prompt)来判断当前状态 $s$ 下的动作序列是否完整(1为完整,0为不完整)。
最终的过程奖励通过多次采样求平均得到:
$$R_{comp} = \frac{1}{N} \sum_{i=1}^{N} \gamma_i(\tau)$$ 核心逻辑:判断“一件事是否可以被完成”远比“判断答案是否100%正确”要容易且可靠,极大提升了Reward模型的一致性。

阶段三:Multi-Turn RL (多轮强化学习)

为了保证训练稳定性并引导Agent聚焦动作,框架设计了复合Reward并对梯度进行了特殊处理:

5. 实验设置与结论分析

实验设置:基于在工业界收集的中文Agent数据集(涵盖搜索和代码工具,测试集区分 Normal 和 Hard)以及开源中文问答数据集(ChineseSimpleQA 过滤后的高难子集)。使用 Qwen3-1.7B 和 8B 为基座模型,对比了 DIRECT (Zero-shot)、E2E SFT 和 E2E RL。

核心结论:

  1. 规划能力与最终回答双升: 在 Qwen3-8B 上,RLTR 的工具完整性指标达到了 82.7% (优于 E2E RL 的 69.6%),同时在端到端答案相关性上也由 76.7% 升至 80.9%。在硬骨头样本(Hard子集)上提升尤为明显。
  2. 对 RL 算法的通用兼容性: 作者将底层强化学习算法分别换成 PPO, GRPO 和 REINFORCE++ 进行测试,发现采用 RLTR 框架后各项指标均表现出一致的提升。有趣的是,由于GRPO特有的Group Normalization机制,它在训练中并没有像PPO那样通过增加调用次数和响应长度来提升完整性,而是倾向于直接生成更精准的单次/少次调用。
  3. Reward 质量对比: 经人工标注核对,基于“完整性”的奖励计算的准确率(74.59%)和 F1 Score(84.64%)全面超越了传统的基于“最终答案”的奖励(Acc: 65.30%, F1: 76.17%),证明了其作为监督信号的优越性。

6. 关键技术亮点分析

微信 AI 团队这篇论文非常具有浓厚的“工业界落地解决实际问题”的风格。其最大的亮点在于“思路转换”:与其在海量业务数据中痛苦地寻找Ground Truth来做结果校验(这在开放域检索和推理中几乎是不可能的),不如退而求其次,用 LLM 去校验执行步骤(Process)是否闭环

此外,通过在训练流程中将 Planner 从 Summarizer 中彻底剥离并采用 Loss Masking 技术,极大地缓解了以往强化学习训练 Agent 时环境长上下文导致的梯度弥散和收敛缓慢问题。这种“重过程、轻结果”的单目标对齐思想,对当前大量纠结于如何构建复杂高保真Reward Model的Agent研发团队来说,提供了一条极具性价比的突围路径。