大模型 Agent 与强化学习 (RL) 深度学术解读报告

Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization

通过基于贡献加权的群组相对策略优化增强基于LLM的搜索智能体

Authors: Junzhe Wang, Zhiheng Xi, Yajie Yang, Hao Luo, Shihan Dou, Tao Gui, Qi Zhang

Institutions: Fudan University, Shanghai Artificial Intelligence Laboratory

📄 查看 ArXiv 原文

研究背景与痛点

近年来,Search Agents(搜索智能体)被广泛用于解决大模型(LLMs)参数化知识更新滞后和长尾知识缺失的问题。在训练此类 Agent 时,强化学习(RL)是目前的范式标配。然而,主流的强化学习算法在复杂的、多轮交互的 Search 任务上均面临显著的瓶颈:

核心贡献

复旦大学 NLP 实验室和上海人工智能实验室的研究团队提出了一种优雅的妥协与升级方案——Contribution-Weighted GRPO (CW-GRPO)。该研究的核心贡献可以概括为以下三点:

具体案例剖析 (Case Study)

论文中给出了 Qwen3-8B 模型在经过 CW-GRPO 训练前后的显著行为差异,尤其体现在对抗干扰信息和多角度检索能力上。

方法论与技术实现

CW-GRPO 算法并未魔改底层优化目标,而是巧妙地在 Advantage 计算环节做文章。具体包含以下三个核心模块:

1. Outcome-Level Advantage 的计算

延续标准 GRPO,无需训练 Value Model。对于一个问题 $q$,采样一组轨迹 $\{ \tau_i \}_{i=1}^G$,基于最终结果的 Exact Match (EM) 给出标量奖励 $R_i$。随后通过组内比较(归一化)计算出粗粒度的轨迹级优势:

$$ A_i^O = \frac{R_i - \text{mean}\{R_i\}_{i=1}^G}{\text{std}\{R_i\}_{i=1}^G} $$

2. Round-Level 贡献度估计与合取门控(Conjunctive Gating)

使用独立的 LLM Judge 对每轮搜索 $t$ 提取两个二元正交信号:

核心设计在于合取逻辑(Logical Product):$p_i^t = u_i^t \cdot v_i^t$。一轮搜索只有同时满足“搜到好东西”和“想得明白”,才算作有实际贡献,起到极端的保守过滤作用。

3. 自适应 Advantage 重新分配机制

这是整篇论文的画龙点睛之笔。作者对成功轨迹和失败轨迹进行了不对称处理,以保证优化的鲁棒性:

最终,将缩放后的 Contribution 乘回到 Advantage 上(并乘以总轮数保持整体学习信号幅值恒定),代入标准 GRPO 的 Clipped Surrogate Objective 中完成参数更新:

$$ A_i^t = A_i^O \cdot c_i^t \cdot (T_i - 1) $$

实验设置与结论分析

关键技术亮点分析 (资深从业者视角)

读完此文,CW-GRPO 的几个设计哲学极具工业落地借鉴意义:

重新思考大型语言模型中的Agentic强化学习
Rethinking Agentic Reinforcement Learning In Large Language Models

作者:Fangming Cui, Ruixiao Zhu, Cheng Fang, Sunan Li, Jiahong Li
机构:Beijing, China; Shanghai, China
📄 查看 ArXiv 原文

💡 研究背景与痛点

强化学习(RL)传统上主要侧重于在狭窄定义的环境中训练专用Agent,以优化预先定义的静态奖励函数。然而,随着强大的大语言模型(LLMs)的出现,我们需要处理日益复杂的开放式任务,这促使RL发生范式转变,走向 Agentic RL。传统的做法存在以下痛点:

🚀 核心贡献

本文对基于LLM的Agentic RL的底层概念、方法学创新与系统设计进行了全面的梳理与重新思考,其核心贡献包括:

🔍 具体案例剖析 (Application Scenarios)

Agentic RL 使得LLM从“被动的文本生成器”蜕变为“具备Meta-reasoning(元推理)能力的自主改进系统”,其释放的潜力深刻改变了多个垂直领域的交互范式:

⚙️ 方法论与技术实现

在Agent的控制论循环中,作者深入解析了四项核心组件的理论基础,并浓墨重彩地梳理了 Reinforcement Learning范式 的技术演化:

1. 基于LLM的Agent四大组件机制:

2. 前沿强化学习范式的演进与公式化拆解(The RL Paradigm):

LLM推理能力的爆发式增长,本质上是由于RL算法摆脱了SFT的局限。本文总结了以下里程碑级别的RL算法:

📊 挑战与未来方向分析

在梳理当前方法的基础上,作者从环境、可信度、能力边界和系统架构四个维度定义了Agentic RL的深水区挑战:

✨ 关键技术亮点分析

本文最为出彩的点在于清晰地绘制了强化学习在LLM中的技术演进树(如演进图所示:PPO -> DPO/KTO -> GRPO -> GSPO/DAPO/SAPO)。
对于资深从业者,必须敏锐捕捉到以下信号:在复杂逻辑(如数学/代码)场景下,传统的 RLHF (基于偏好标注和 Reward Model) 正在退潮,基于结果验证(Verifiable Reward,即 Rule-based Reward)配合无 Critic 架构的组内相对优势算法(如 GRPO 及其变体) 已经成为训练强大推理模型(Reasoning Models)的绝对主流。这正是解锁类似 DeepSeek-R1 "Aha Moment"(顿悟时刻)的底层密码。通过多轨迹采样取代显式价值网络,不仅极大解放了算力与显存瓶颈,还将优化目标从“迎合人类偏好”引向了“寻找真理法则的最高效路径”。

CLAWTRACE: 具备成本意识的 LLM Agent 技能蒸馏与追踪

作者:Boqin Yuan, Renchu Song, Yue Su, Sen Yang, Jing Qin

机构:UC San Diego, Epsilla, Carnegie Mellon University

📄 查看 ArXiv 原文

🎯 研究背景与痛点

赋予大型语言模型(LLM)“技能(Skills)”是一种无需更新模型权重即可提升 Agent 表现的有效方法(即技能蒸馏,Skill Distillation)。目前的自动化技能蒸馏 Pipeline(如 Trace2Skill)主要通过切分“成功”和“失败”的 Agent 执行轨迹(Trajectories)来分别提取规则。

然而,这种“二元对立”的方法忽略了一个至关重要的信号:每一步的具体执行成本(Per-step Cost)。如果不掌握每一步的成本,Pipeline 就无法区分“为了修复 Bug 而添加缺失步骤”“移除对结果无影响的高昂冗余步骤”。传统的 Observability(可观测性)工具(如 LangSmith、Langfuse)虽然遵循 OpenTelemetry 规范追踪了 Token 和成本,但它们将这些信息展示为供人类操作员查看的 Dashboard 分析,而不是一种可以直接输入给 LLM 进行下游分析的紧凑型中间表示(Intermediate Representation, IR)。为了解决这个问题,研究者迫切需要一种专为模型消费设计的、带有冗余标记和失败节点的轻量化成本追踪格式。

💡 核心贡献

本文从系统架构和蒸馏方法论两个维度做出了核心贡献:

🔍 具体案例剖析 (Case Study)

论文在附录中详细展示了 CostCraft 如何在 SpreadsheetBench 环境中发挥作用的实例:

⚙️ 方法论与技术实现

1. ClawTrace 与 TraceCard 编译

不同于简单的扁平日志,ClawTrace 重构了 Multi-agent 系统的完整调用图(Call Graph),通过持久化的 childSessionKey -> parentSpanId 映射将子 Agent 绑定到父调用链。尤为关键的是,它精确还原了Cache-aware(缓存感知)的成本模型

$cost = r_{in} \cdot t_{in} + r_{out} \cdot t_{out} + r_{cacheRead} \cdot t_{cacheRead} + r_{cacheWrite} \cdot t_{cacheWrite}$

由于 API 服务商(如 OpenAI)对缓存 Token(cacheRead)的收费仅为新鲜输入(fresh input)的一小部分,如果按原始输入长度计费,高估真实成本可能达到 1.6~2.0 倍,这会严重干扰后续蒸馏步骤中基于成本的 Span 排序。

TraceCard 的编译包含启发式特征提取:例如利用编辑距离(Levenshtein distance $\ge 0.8$)检测 redundant_tool_calls,利用 Jaccard 相似度评估子 Agent 输出在最终回复中的采用率。

2. CostCraft 三向蒸馏管道

📊 实验设置与结论分析

实验在一个确定的评测集 SpreadsheetBench 以及另一个跨域任务评测集 SkillsBench 上展开,采用 openai-codex/gpt-5.4 (注:这是论文使用的基线代号) 作为基础模型:

✨ 关键技术亮点分析

本文突破了长期以来将 LLM Agent Log 仅作为运维人员 Dashboard 分析数据的桎梏,首次将其沉淀为专为 LLM 消费优化的高密度文本协议(TraceCard)。其最重要的学术洞察在于解构了“改善任务的两种截然不同的方式”:填补缺失步骤(修复)与削减无用操作(剪枝)。

针对 Agent 蒸馏时常常碰到的灾难性遗忘与行为退化现象,CostCraft 揭示了通过 Prune 结合 Counterfactual(反事实论证)提取出的负向约束(Cost Control),往往具备比正向增强规则更普适的泛化性能。该开源框架为未来基于强化学习、多智能体协作进化的 Cost-aware 强化学习铺平了道路。

LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent

中文标题:LiteResearcher:面向深度研究智能体的可扩展Agentic RL训练框架

作者机构:Wanli Li, Bince Qu, 等 / 浙江大学,Simplex AI,香港理工大学

论文原文:📄 查看 ArXiv 原文

🔍 研究背景与痛点

随着DeepSeek-R1等模型的成功,基于强化学习(RL)内部化推理能力(RLVR)已成为大模型后训练的标准范式。然而,当RL范式向智能体深度研究(Agentic Deep Research)迁移时,遇到了严重的扩展性瓶颈。深度研究需要模型与外部工具(如搜索引擎、浏览器)进行长程、多轮的交互,现有方法面临两大核心痛点:

本质上,Agentic RL极度渴望一个“隔离的沙盒环境”,既能完全屏蔽现实基础设施的噪声,又能真实映射互联网的分布与动态。

💡 核心贡献

本文提出了 LiteResearcher,一个旨在释放 Agentic RL 扩展潜力的零成本、全本地训练框架。通过构建一个镜像真实世界搜索架构的“轻量级虚拟世界”,该框架成功赋能仅 4B 级别 的端侧模型超越了庞大的闭源和开源模型。

🎯 具体案例剖析 (Case Study)

为了让模型掌握真实互联网的复杂检索,LiteResearcher在数据合成阶段定义了5种核心“原子搜索能力”,并精心设计了合成路径。以下是两个典型任务的构造案例:

💡 亮点机制:信息源掩码 (Information Source Masking)
如果在初始语料生成QA对后,模型能直接搜到原文,这就退化成了简单的RAG。LiteResearcher的做法是:在本地语料库中刻意删除生成该QA对的原始网页。这就倒逼智能体必须通过间接途径、多跳检索,甚至重新聚合其它网页的碎片信息来求解,完美模拟了“深度研究”的本质动作。

⚙️ 方法论与技术实现

LiteResearcher的生态系统建立在三个核心支柱之上:

1. 本地基建:千万级轻量虚拟世界

彻底抛弃调用在线API(如Serper/Jina)。系统爬取了~32M高质量真实网页(学术、百科、新闻等),构建完全本地的后端:

2. RL优化算法:严格的On-Policy GRPO

由于引入了环境反馈机制,长程搜索任务面临严重的策略漂移。作者发现标准的 Off-policy(即对同一个 Rollout Batch 划分多个 Mini-batch 多次更新)会导致模型迅速崩溃。因此,算法严格采用单次更新的 On-Policy GRPO。同时摒弃了 KL 散度惩罚和熵正则化项,目标函数简化为仅包含优势裁剪的代理损失:

$$\mathcal{J}_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^K \sim \pi_{\theta_{old}}} \left[ \frac{1}{K} \sum_{i=1}^K \min \left( r_i(\theta) A_i, \text{clip} \left( r_i(\theta), 1-\epsilon_{low}, 1+\epsilon_{high} \right) A_i \right) \right]$$

其中,优势 $A_i$ 是通过在一组样本 $\{o_1, ..., o_K\}$ 的奖励分布中进行标准化计算得到的,奖励依据最终回答与 LLM Judge 给出的语义正确性为准。

3. 难度感知课程学习 (Difficulty-Aware Curriculum Learning)

为了防止模型陷入“简单任务全对,复杂任务全错”的梯度枯竭(训练饱和),系统引入了多阶段渐进难度学习机制。在送入 RL 引擎前,系统用当前模型评估所有候选 QA 对(pass@8),仅保留正确次数 $c$ 满足 $1 \le c \le 7$ 的任务。阶段 1 使用基础数据,阶段 2 引入多跳子图推理和特定领域(如科学)的困难数据,不断突破模型的性能天花板。

📊 实验设置与结论分析

模型初始化自 Qwen3-4B-Thinking-2507,首先用 6.8万 条开源/合成轨迹进行 SFT 热身,随后进入本地大批量 RL 阶段(Global Batch 128,K=8)。

🌟 关键技术亮点分析

  1. 虚拟环境闭环才是 Agentic RL 的最优解:过去业界要么在真实互联网上忍受昂贵且带噪的 RL,要么在维基百科里训练玩具模型。LiteResearcher 证明了只要构建的本地语料库足够反映真实的分布特征,“零噪声本地孪生世界 + 大规模合成验证数据”可以实现长周期的单调奖励增长,这为未来的 Agentic 扩展定律 (Scaling Law) 指明了极其务实的基础设施方向。
  2. 基于奖励自动涌现的“行为纠正”:在 SFT 阶段后,模型通常会带有严重的“无意义循环调用”(例如疯狂重复查询同一个关键词或者访问同一个无法解析的URL)。有趣的是,作者没有在 loss 中加入任何显式的长度惩罚或循环惩罚,仅仅依靠最终正确与否的稀疏奖励(Outcome-based reward)和 GRPO 机制,模型在 RL 过程中自发学会了停止无效循环。论文观测到,随着训练推进,平均 Response Length 从 18K 降至 12K Token,交互轮次从 30 降至 24 轮,展现了极强的策略收敛性。
  3. 严格 On-Policy 对于长视距任务的必要性:传统大模型 RL(如 PPO/GRPO 在数学推理中的应用)常常采用 Batch 拆分重用来提高数据效率。但本文针对数十个执行步长的 Agent 任务进行 Ablation 实验证明,重用 Rollout 数据引起的“策略滞后 (Policy Lag)”在长轨迹上会产生指数级的误差累积,导致模型后期奖励崩盘。严格保持一次 Rollout 对应一次梯度更新,是长程规划任务稳定的生命线。

LangMARL: Natural Language Multi-Agent Reinforcement Learning

LangMARL:基于自然语言的多智能体强化学习框架

👥 作者:Huaiyuan Yao, Longchao Da, Xiaoou Liu, Charles Fleming, Tianlong Chen, Hua Wei

🏫 机构:Arizona State University (ASU), Cisco Research, UNC Chapel Hill

🔗 链接:📄 查看 ArXiv 原文

🔥 研究背景与痛点 (Background & Pain Points)

大语言模型 (LLM) 在推动多智能体系统 (Multi-Agent Systems, MAS) 发展方面展现了巨大潜力。然而,当这些系统被部署在动态环境中时,往往难以自主演化和优化其协作策略。当前的 LLM 多智能体架构面临以下致命痛点:

💡 核心贡献 (Core Contributions)

作者指出,多智能体强化学习 (MARL) 领域早已系统性地研究过“信用分配”问题,但这一思想在 LLM Agent 系统中仍未得到充分应用。为此,本文提出了 LangMARL,一个将经典 MARL 范式(特别是 CTDE:中心化训练,去中心化执行)完全映射到“自然语言空间”的通用框架。

🔍 具体案例剖析 (Case Study: Overcooked-AI)

为了更直观地理解全局反思与 LangMARL 个体信用分配的差异,本文展示了《胡闹厨房 (Overcooked-AI)》环境中的一个典型协作失败场景(参考原论文 Fig 1 & Fig 12):

🎮 场景:Green 玩家与 Blue 玩家需要合作完成洋葱汤的烹饪与上菜。当前状态下,锅里缺一个洋葱。
❌ 实际行为:Green 玩家没有去拿洋葱,而是跑去拿盘子,导致 Blue 玩家只能在柜台前干等,最终订单失败,客户投诉。

🔴 传统全局反思 (Global Evaluation, 如 Reflexion):
系统只知道“订单失败”,导致 Green 错误反思:“哪里出错了?是我提供的盘子不够吗?”;而表现正常的 Blue 错误反思:“我是不是不该等,应该去做点别的?” (发生了 Credit Drift)。

🟢 LangMARL 的处理流程:
1. 信用分配 (Credit for Green):中心化 Critic 分析轨迹后指出:"Player Green 提供了必要的盘子,但是物品放置效率低下,未能及时响应 Player Blue 的直接需求(洋葱),导致了本可避免的延误。"
2. 生成语言梯度 (Language Gradient):"强化 Green 的后勤支持角色,要求其优先满足主厨紧迫的食材需求。"
3. 策略更新 (Optimized Policy):Green 的 Prompt 被自动更新为:"优先理解 Player Blue 当前的烹饪需求并调整资源布局,最小化等待时间..."。Blue 的策略则保持不变,巩固其正确行为。

⚙️ 方法论与技术实现 (Methodology)

LangMARL 在自然语言空间中严格复现了带中心化 Critic 的 Actor-Critic (CTDE) 强化学习范式,不再更新神经网络权重,而是更新 Prompt 字符串。包含以下四个核心模块:

1. 语言策略执行器 (Language Policy Actor)

每个 Agent $i$ 维护一个由自然语言参数化的策略 $\pi_i^{\text{text}}$(即 System Prompt 和 Few-shot examples)。在时刻 $t$,Agent 基于当前的文本状态观察 $s_t^{\text{text}}$,通过查询 LLM 采样动作 $a_i^t$:

$a_i^t = \text{LLM}_{\text{actor}}\left(\pi_i^{\text{text}}, s_t^{\text{text}}\right)$

执行时是完全去中心化的,Agent 看不到全局信息。

2. 中心化语言评论家 (Centralized Language Critic)

这是解决信用分配的核心。不同于输出一个标量价值(Scalar Value),语言 Critic 接收完整的全局片段轨迹 $\tau = (s_0, a_0, s_1, a_1, \dots, s_T)$,并进行因果归因(Causal Attribution),输出一段针对 Agent $i$ 的自然语言信用评价 $C_i^{\text{text}}(\tau)$:

$C_i^{\text{text}}(\tau) = \text{LLM}_{\text{critic}}(\tau, i)$

3. 语言策略梯度估计器 (Language Policy Gradient Estimator)

为了模拟传统 RL 中的 $\nabla_\theta \log \pi_\theta(a|s) \cdot G(\tau)$,LangMARL 引入了一个策略梯度 LLM。它结合当前策略 $\pi_i^{\text{text}}$ 和 Critic 提供的信用信号,生成文本格式的“修改指令”(即方向性梯度 $\Delta \pi_i^{\text{text}}$):

$\Delta \pi_i^{\text{text}}(\tau_k) = \text{LLM}_{\text{grad}}\left(\pi_i^{\text{text}}, C_i^{\text{text}}(\tau_k)\right)$

4. 语言策略优化器 (Language Policy Optimizer)

类似于 Batch Policy Optimization,框架首先使用 $\text{LLM}_{\text{agg}}$ 聚合多个轨迹 $K$ 上的语言梯度(消除噪声和冲突),然后使用 $\text{LLM}_{\text{opt}}$ 应用这些更新,生成迭代后的新策略:

$\pi_i^{\text{text}} \leftarrow \text{LLM}_{\text{opt}}\left(\pi_i^{\text{text}}, \text{LLM}_{\text{agg}}\left(\{\Delta \pi_i^{\text{text}}(\tau_k)\}_{k=1}^K\right)\right)$

📊 实验设置与结论分析 (Experiments & Results)

作者在两大类环境中进行了评估:多智能体策略游戏 (Overcooked-AI, Pistonball) 和 开放式协作语言任务 (HumanEval 编程, HotPotQA 推理, MATH 数学)。对比了静态 Prompting (CoT, Agents) 以及最新的单/多智能体自进化基线 (AutoPE, DSPy, Reflexion, TextGrad, Symbolic)。

🌟 关键技术亮点分析 (Key Highlights)