Tree Search for LLM Agent Reinforcement Learning

大模型智能体强化学习的树搜索方法

作者：Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu

机构：厦门大学，阿里高德地图（AMAP, Alibaba Group），南方科技大学

🔍 研究背景与痛点 (Background & Challenges)

强化学习（RL）正在成为大语言模型（LLMs）后训练（Post-training）的核心范式。以 DeepSeek-R1、OpenAI o1 为代表的模型证明了通过纯结果奖励（Outcome Rewards）的 RL 可以激发模型极强的复杂推理能力。然而，当将这种 RL 范式扩展到包含动态环境和多轮交互的复杂智能体（Agent）任务时，现有方法遭遇了严重的瓶颈：

极高的 Rollout 预算开销 (Heavy Budget)： Agent 需要在多轮交互中完成任务，这导致一条完整的轨迹（Trajectory）通常包含数千个 Tokens 甚至大量的外部工具调用（如高昂的搜索 API 费用）。现有的主流方法（如传统 GRPO）多采用独立链式采样（Chain-based Rollout），存在大量的冗余前缀生成，导致在实际场景中采样成本居高不下，成为训练吞吐的严重瓶颈。
长轨迹下的稀疏监督信号 (Sparse Supervision)： 在多轮长轨迹交互中，往往只有最终步骤能得到一个单一的 Outcome Reward。这引发了极度困难的信用分配问题（Credit Assignment）：模型难以判断长依赖的决策链中究竟是哪一步导致了最终的成功或失败。轨迹级的稀疏信号使得 RL 极其低效，甚至容易陷入训练坍塌（Training Collapse）。

为了解决过程监督的问题，以往的做法往往是引入过程奖励模型（PRMs），但这需要极高的人工标注成本且难以泛化。因此，本文提出了一个核心反思：能否在有限的 Rollout 预算下，仅依赖最终的 Outcome Reward，就能为 Agent RL 构建出细粒度的过程监督信号？

💡 核心贡献 (Core Contributions)

本文提出了一种全新的基于树搜索的组相对策略优化方法——Tree-GRPO (Tree-based Group Relative Policy Optimization)，其核心贡献总结如下：

引入 Agent Step 级别的树搜索 Rollout 策略： 摒弃了低效的独立链式（Chain-based）生成，也拒绝了语义不明确的 Token/Sentence 级别树搜索。Tree-GRPO 将完整的 (思考 Thought - 动作 Action - 观察 Observation) 作为树节点进行展开。这种共享前缀的搜索策略在固定的 Token/API 预算下显著增加了有效探索轨迹的数量。
树结构内在的组相对优势估计 (Group-Relative Advantage)： 创新性地在树内（Intra-tree）和树间（Inter-tree）两个层级进行优势估计。通过回溯同一分支节点下不同子树的最终 Reward 差异，自然地将轨迹级的 Outcome Reward 转化为了细粒度的过程监督信号（Process Supervision）。
理论与实证的双重验证： 数学上证明了 Intra-tree GRPO 的优化目标等价于 Step-level DPO（直接偏好优化）。实验表明，在多轮交互任务中，Tree-GRPO 以极低的采样预算（甚至只需 baseline 1/4 的 rollout）即可取得远超现有 Chain-based RL 架构的性能。

🔍 具体案例剖析 (Case Study)

为了直观展示 Tree-GRPO 训练出的 LLM Agent 的能力，我们选取了原论文附录中的复杂 Multi-hop QA 任务：

问题 (Question)： Who is the owner of the record label of the performer of Groovy Little Summer Song?
正确答案 (Ground Truth)： Warner Music Group, Warner Music
[Tree-GRPO (14B) 输出轨迹追踪]
<think>
要回答这个问题，我需要先确定 "Groovy Little Summer Song" 的表演者，然后再找出这位表演者所在的唱片公司，最后找出这家唱片公司的所有者。
</think>
<search> Performer of the song "Groovy Little Summer Song" </search>
<information> [检索内容]... "Groovy Little Summer Song" 是一首由美国乡村音乐艺术家 James Otto 录制的歌曲... </information>
<think>
从搜索结果来看，表演者是 James Otto。现在我要找出他关联的唱片公司属于谁。
</think>
<search> Record label of the performer James Otto </search>
<information> [检索内容]... Otto 的职业生涯始于 2002 年在 Mercury Nashville Records ... 此外在 2015 年他与 Blaster Records 签约... </information>
<think>
看起来 James Otto 与 Mercury Nashville Records 和 Warner Bros. Records 等厂牌有关。我现在需要找出是谁拥有这些唱片公司。
</think>
<search> Who owns Mercury Nashville Records and Warner Bros. Records </search>
<information> [检索内容]... Warner Bros. Records 是一家美国主流唱片公司，由 Warner Music Group (华纳音乐集团) 拥有... </information>
<think>
基于搜索结果，这些唱片公司归 Warner Music Group 所有。得出最终答案。
</think>
<answer> Warner Music Group </answer>

深度点评： 这个案例生动体现了 Tree-GRPO 赋予模型的动态分解规划与多步探索能力。面对未知的“Owner -> Record Label -> Performer”关系链，Agent 没有选择盲目瞎猜或一次性输入冗长 Query，而是稳扎稳打执行了严格的 Thought-Action-Observation 闭环，这正是由于 Tree-GRPO 在训练阶段将每一轮 Agent Step 均作为决策树节点，并在树分支的成败中提供了清晰的过程监督偏好信号。

4. 方法论与技术实现

RLTR (Reinforcement Learning with Tool-use Rewards) 框架分为三个清晰的工程阶段：

阶段一：Cold Start (冷启动 SFT)

使用强大的 Teacher LLM（如 Qwen3-32B）通过知识蒸馏（Knowledge Distillation）生成轨迹。随后使用拒绝采样（Rejection Sampling）保留Best-of-N的数据，仅对 Planner 的动作轨迹进行 SFT。

阶段二：Tool-Use Completeness Calculation (工具完整性奖励计算)

论文定义了一个完整性检查函数 $\gamma : \mathcal{S} \to \{0, 1\}$，利用验证模型（Comp. Checker，配合特定Prompt）来判断当前状态 $s$ 下的动作序列是否完整（1为完整，0为不完整）。
最终的过程奖励通过多次采样求平均得到：
$$R_{comp} = \frac{1}{N} \sum_{i=1}^{N} \gamma_i(\tau)$$ 核心逻辑：判断“一件事是否可以被完成”远比“判断答案是否100%正确”要容易且可靠，极大提升了Reward模型的一致性。

阶段三：Multi-Turn RL (多轮强化学习)

为了保证训练稳定性并引导Agent聚焦动作，框架设计了复合Reward并对梯度进行了特殊处理：

Reward 结构设计：计算总奖励 $R_{total}$。如果生成的轨迹格式非法，直接惩罚 $-1$；否则总奖励等于完整性奖励加上规则惩罚项：$R_{total} = R_{comp} + R_{rule}$（其中 $R_{rule}$ 包含了对重复调用API和非法参数的负向惩罚）。
Loss Masking 机制（关键细节）：在构建多轮交互的训练模板时，将工具调用的返回内容（Observation）的Loss进行Masking掉（不参与梯度计算），这有效防止了超长的环境反馈文本稀释策略更新的梯度信号，迫使Planner把所有注意力集中在优化 `` 的决策上。

5. 实验设置与结论分析

实验设置：基于在工业界收集的中文Agent数据集（涵盖搜索和代码工具，测试集区分 Normal 和 Hard）以及开源中文问答数据集（ChineseSimpleQA 过滤后的高难子集）。使用 Qwen3-1.7B 和 8B 为基座模型，对比了 DIRECT (Zero-shot)、E2E SFT 和 E2E RL。

核心结论：

规划能力与最终回答双升： 在 Qwen3-8B 上，RLTR 的工具完整性指标达到了 82.7% (优于 E2E RL 的 69.6%)，同时在端到端答案相关性上也由 76.7% 升至 80.9%。在硬骨头样本（Hard子集）上提升尤为明显。
对 RL 算法的通用兼容性： 作者将底层强化学习算法分别换成 PPO, GRPO 和 REINFORCE++ 进行测试，发现采用 RLTR 框架后各项指标均表现出一致的提升。有趣的是，由于GRPO特有的Group Normalization机制，它在训练中并没有像PPO那样通过增加调用次数和响应长度来提升完整性，而是倾向于直接生成更精准的单次/少次调用。
Reward 质量对比： 经人工标注核对，基于“完整性”的奖励计算的准确率（74.59%）和 F1 Score（84.64%）全面超越了传统的基于“最终答案”的奖励（Acc: 65.30%, F1: 76.17%），证明了其作为监督信号的优越性。

6. 关键技术亮点分析

微信 AI 团队这篇论文非常具有浓厚的“工业界落地解决实际问题”的风格。其最大的亮点在于“思路转换”：与其在海量业务数据中痛苦地寻找Ground Truth来做结果校验（这在开放域检索和推理中几乎是不可能的），不如退而求其次，用 LLM 去校验执行步骤（Process）是否闭环。

此外，通过在训练流程中将 Planner 从 Summarizer 中彻底剥离并采用 Loss Masking 技术，极大地缓解了以往强化学习训练 Agent 时环境长上下文导致的梯度弥散和收敛缓慢问题。这种“重过程、轻结果”的单目标对齐思想，对当前大量纠结于如何构建复杂高保真Reward Model的Agent研发团队来说，提供了一条极具性价比的突围路径。

大模型 Agent 与强化学习 (RL) 深度学术解读报告