大模型 Agent 与强化学习 (RL) 深度学术解读报告

一文读懂:用一行代码提升搜索智能体 (SAPO)

Improving Search Agent with One Line of Code

作者:Jian Li, Dongsheng Chen, Xiaotong Yuan 等

机构:南京大学 (Nanjing University),腾讯优图实验室 (Tencent YoutuLab)

📄 查看 ArXiv 原文

🔥 研究背景与痛点

随着DeepSeek-R1的爆发,基于工具的智能强化学习(Tool-based Agentic RL, TARL)成为了训练Search Agent的核心范式。其中,GRPO (Group Relative Policy Optimization) 凭借其摒弃Value Model的轻量化特性,被广泛应用于多轮信息检索场景的Post-training。

然而,作者在实践中发现了一个致命的训练不稳定性问题,导致模型常常陷入灾难性崩溃(Catastrophic model collapse)。他们将其命名为:重要性采样分布漂移 (Importance Sampling Distribution Drift, ISDD)

🌟 核心贡献

为了打破 ISDD 的死亡螺旋,作者提出了一种极其轻量且优雅的解法:SAPO (Search Agent Policy Optimization)

🔍 具体案例剖析 (Case Study)

为了直观感受 SAPO 训练出的 Agentic RAG 能力,我们来看一个摘自 2WikiMultihopQA 数据集的真实推理轨迹:

Question: Which film has the director who died earlier, Deuces Wild or Cavalcade Of The West?

<think> 为了确定哪部电影的导演死得更早,我需要收集这两部电影的导演信息以及他们的死亡日期。我先从搜索开始... </think>

<search> Director of Deuces Wild </search>

<documents> ...Deuces Wild is a 2002 American crime drama film directed by Scott Kalvert... </documents>

<search> Director of Cavalcade Of The West </search>

<documents> ...Cavalcade of the West is a 1936 American Western film directed by Harry L. Fraser... </documents>

<search> Harry L. Fraser </search>

<documents> ...Fraser was born on June 7, 1884 and died on May 13, 1950. </documents>

<search> Scott Kalvert </search>

<documents> ...Scott Kalvert died on March 5, 2014... </documents>

<think> 根据上述信息,Scott Kalvert 死于 2014,Harry L. Fraser 死于 1950。因此死得更早的导演是 Harry L. Fraser,他执导了 "Cavalcade Of The West"。</think>

<answer> Cavalcade Of The West </answer>

点评:传统 RAG 只能一次性检索,遇到这种需要“实体桥接”的多跳问题直接抓瞎。SAPO Agent 展现了极强的自主决策能力,交替执行内部思维 (Think) 和外部工具调用 (Search),四次精准查库,成功锁定答案。这种长链路交互对 Policy 的稳定性要求极高,这正是 SAPO 解决的核心痛点。

⚙️ 方法论与技术实现

作者在分析 ISDD 时给出了一条漂亮的数学推导:在一条轨迹中,重要性权重的期望可拆解为“推理漂移 (Reasoning Drift)”和“交互漂移 (Interaction Drift)”:

$$ \mathbb{E} \left[ \prod_{t=1}^L r_t \right] = \underbrace{\exp(L_z \lambda_z)}_{\text{Reasoning Drift}} \cdot \underbrace{\exp(L_a \lambda_a)}_{\text{Interaction Drift}} $$

由于工具选择的低熵和瓶颈特性,Action tokens 对策略漂移极其敏感($\lambda_a \ll \lambda_z < 0$)。为了抑制这种暴跌,SAPO 在 GRPO 原本的目标函数上增加了一个 Token 维度的惩罚项:

SAPO 目标函数:

$$ \mathcal{J}_{SAPO}(\theta) = \mathbb{E} \left[ \dots \min (r_{i,t}\hat{A}_{i,t}, \text{clip}(r_{i,t}) \hat{A}_{i,t}) \mathbf{+ \gamma \text{KL}_{cond}[\pi_\theta || \pi_{old}]} \right] $$

其中的条件KL散度定义为:

$$ \text{KL}_{cond} = \mathbb{I}(r_{i,t}(\theta) < \tau, \hat{A}_{i,t} > 0) \log r_{i,t}(\theta) $$

这一设计的精妙之处在于它包含了三个前置门控:

  1. 条件触发 (Conditional):$\hat{A}_{i,t} > 0$。只有正样本才会被保护。
  2. 阈值门控 (Threshold-gated):$r_{i,t}(\theta) < \tau$。未发生严重散度偏移时不干预。
  3. 对数衰减 (Logarithmic):$\log r_{i,t}$ 的导数更平滑,支持渐进式拉回。

在工程实现上(基于 VeRL),这仅仅是将 PPO/GRPO Loss 的 negative_approx_kl 用 mask 过滤一下再加回 Total Loss 里,极为优雅。

📊 实验设置与结论分析

💡 资深视角的关键亮点总结

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

KnowRL:通过最小充足知识引导与强化学习提升大模型推理能力

作者:Linhao Yu, Tianmeng Yang, Siyu Ding, Renren Jin, 等

机构:天津大学,百度,中国科学院信息工程研究所

📄 查看 ArXiv 原文

🔍 研究背景与痛点

KnowRL 聚焦 RLVR 中最棘手的 Reward Sparsity:面对难题时,rollout 常常全错,GRPO 无法形成有效 advantage,训练样本白白浪费。

已有 hint-based RL 方案习惯于“给更多提示”,但作者指出这会导致关键片段效应、跨提示不一致性,以及指导冗余与吞吐下降。

💡 核心贡献

  1. 提出 KnowRL,将 Hint 拆解为原子化 Knowledge Points (KPs),转向“最小充足”指导。
  2. 发现修剪交互悖论,并提出 CSS(Constrained Subset Search)做约束子集搜索。
  3. 在 1.5B 规模模型上实现强势 SOTA,证明小模型也能通过高质量 RL 支架获得复杂推理能力。

🔬 具体案例剖析

在“刷漆面积换算”问题上,KnowRL 不直接给出解法,而只注入最少必要知识:单位换算规则、面积计算前必须统一量纲、条带可视作长方形。

这类提示不会替模型完成推导,却会强迫 Policy 自行补全逻辑链,形成可迁移的内化能力。

⚙️ 方法论与技术实现

方法的核心是从候选 KPs 中筛选真正的 minimal-sufficient 子集。作者先做原子知识点抽取与 leakage verification,再用 CSS 解决 Leave-One-Out 易受交互依赖影响的问题。

CSS 通过预剪枝把原本接近 $O(2^n)$ 的组合爆炸压缩到可穷举的小集合中,最终找到最优 KP 子集。

📊 实验设置与结论分析

🌟 关键技术亮点分析

Offline Reinforcement Learning for LLM Multi-Step Reasoning
大型语言模型多步推理的离线强化学习 (OREO算法)

作者:Huaijie Wang, Shibo Hao, Hanze Dong, Shenao Zhang, 等

机构:UC San Diego, Tsinghua University, Salesforce Research, Northwestern University

📄 查看 ArXiv 原文

📍 研究背景与痛点

OREO 针对 DPO 在多步推理里的结构性短板:pairwise 数据难构造、缺少 step-level credit assignment,导致真正关键的推理 token 得不到应有的学习信号。

💡 核心贡献

🔍 具体案例剖析

论文通过复数幂求值案例比较了 DPO 的隐式 advantage 与 OREO 的显式 value advantage。结果显示,DPO 会把正确中间步骤误判成负收益,而 OREO 的显式价值网络能给出更符合过程推进性的正向判断。

⚙️ 方法论与技术实现

OREO 将软 Bellman 一致性引入离线 LLM 对齐: $$V^*(s_t) - V^*(s_{t+1}) = r(s_t, a_t) - \beta \log \frac{\pi^*(a_t|s_t)}{\pi_{ref}(a_t|s_t)}$$ 进而在稀疏奖励下做 telescoping,把尾部回报与 KL 正则统一进一个 actor-critic 式训练框架里。

📊 实验设置与结论分析

🚀 核心洞察与启发

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

作者:Zhoujun Cheng, Shibo Hao, Tianyang Liu, et al.

机构:UC San Diego, MBZUAI, Carnegie Mellon University, Purdue University

论文链接:📄 查看 ArXiv 原文

🎯 研究背景与痛点

这篇论文的核心问题很直接:开源 RL reasoning 研究几乎只在 Math / Code 两个领域兜圈子,导致我们对 RL 是“激发已有能力”还是“学到新技能”的认识严重失真。

🚀 核心贡献

🔍 具体案例剖析

在 simulation 域的 RSA 逆向案例里,模型基于输出状态反推原始输入参数,体现出跨数学、程序执行与状态推断的复合推理能力。

🛠️ 方法论与技术实现

方法重点不在新 RL loss,而在高质量跨域数据工程:按领域定制 verifier,利用强弱模型差异做 difficulty filtering,优先保留 $P_{strong}-P_{weak}$ 高的样本。

📊 实验设置与结论分析

🌟 关键技术亮点分析

HER: 面向LLM角色扮演的类人推理与强化学习

HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

作者 / 机构:Chengyu Du, Xintao Wang, Yanghua Xiao 等 / 复旦大学, MiniMax

📄 查看 ArXiv 原文

🔍 研究背景与痛点

HER 关注 role-playing 中最难的那一层:不是模仿台词,而是模拟角色行为背后的 inner reasoning。现有方法要么没有深层推理数据,要么奖励模型极易被 reward hacking。

💡 核心贡献

🎭 具体案例剖析

在 Elizabeth Bennet 的案例里,模型先以第三人称系统视角分析上下文、情绪与行动计划,再输出角色可见的内心活动、动作与台词。这种拆分能明显降低 OOC(出戏)问题。

⚙️ 方法论与技术实现

HER 的关键不是单纯多一层 CoT,而是把“上帝视角规划”与“角色沉浸视角输出”分开,并通过 diversity reformatting 避免 RL 后输出结构模式坍塌。

📊 实验设置与结论分析

🌟 关键技术亮点分析

  1. Dual-layer Thinking 对所有需要“后台规划 + 前台沉浸表达”的 Agent 任务都有启发。
  2. 多样化结构模板是防止长程 RL 模式坍塌的实用招数。
  3. 动态原则驱动的 RM 比静态单分数打分更抗 reward hacking。