Authors: Junzhe Wang, Zhiheng Xi, Yajie Yang, Hao Luo, Shihan Dou, Tao Gui, Qi Zhang
Institutions: Fudan University, Shanghai Artificial Intelligence Laboratory
📄 查看 ArXiv 原文近年来,Search Agents(搜索智能体)被广泛用于解决大模型(LLMs)参数化知识更新滞后和长尾知识缺失的问题。在训练此类 Agent 时,强化学习(RL)是目前的范式标配。然而,主流的强化学习算法在复杂的、多轮交互的 Search 任务上均面临显著的瓶颈:
复旦大学 NLP 实验室和上海人工智能实验室的研究团队提出了一种优雅的妥协与升级方案——Contribution-Weighted GRPO (CW-GRPO)。该研究的核心贡献可以概括为以下三点:
论文中给出了 Qwen3-8B 模型在经过 CW-GRPO 训练前后的显著行为差异,尤其体现在对抗干扰信息和多角度检索能力上。
Who was the president of Notre Dame in 2012?,检索到的文档片段提到“John I. Jenkins 在 2004 年被选为侯任校长(president-elect),并在 2015 年连任”。此时模型陷入了推理谬误,在 <think> 中错误推断由于 2004 年当选,因此任期开始于 2004 年。最终输出了错误答案。这暴露了模型对无关但表面相关的实体/时间的抗干扰能力差。
Who was the president of Notre Dame in 2012? 和 Notre Dame university president 2012 name。这种广泛的检索召回了明确提到“Fr. John I. Jenkins... whose term started in 2005.”的文档。在下一轮推理中,模型明确引用了这一关键事实,并正确输出了最终答案“2005”。
CW-GRPO 算法并未魔改底层优化目标,而是巧妙地在 Advantage 计算环节做文章。具体包含以下三个核心模块:
延续标准 GRPO,无需训练 Value Model。对于一个问题 $q$,采样一组轨迹 $\{ \tau_i \}_{i=1}^G$,基于最终结果的 Exact Match (EM) 给出标量奖励 $R_i$。随后通过组内比较(归一化)计算出粗粒度的轨迹级优势:
$$ A_i^O = \frac{R_i - \text{mean}\{R_i\}_{i=1}^G}{\text{std}\{R_i\}_{i=1}^G} $$
使用独立的 LLM Judge 对每轮搜索 $t$ 提取两个二元正交信号:
核心设计在于合取逻辑(Logical Product):$p_i^t = u_i^t \cdot v_i^t$。一轮搜索只有同时满足“搜到好东西”和“想得明白”,才算作有实际贡献,起到极端的保守过滤作用。
这是整篇论文的画龙点睛之笔。作者对成功轨迹和失败轨迹进行了不对称处理,以保证优化的鲁棒性:
最终,将缩放后的 Contribution 乘回到 Advantage 上(并乘以总轮数保持整体学习信号幅值恒定),代入标准 GRPO 的 Clipped Surrogate Objective 中完成参数更新:
$$ A_i^t = A_i^O \cdot c_i^t \cdot (T_i - 1) $$
读完此文,CW-GRPO 的几个设计哲学极具工业落地借鉴意义:
作者:Fangming Cui, Ruixiao Zhu, Cheng Fang, Sunan Li, Jiahong Li
机构:Beijing, China; Shanghai, China
📄 查看 ArXiv 原文
强化学习(RL)传统上主要侧重于在狭窄定义的环境中训练专用Agent,以优化预先定义的静态奖励函数。然而,随着强大的大语言模型(LLMs)的出现,我们需要处理日益复杂的开放式任务,这促使RL发生范式转变,走向 Agentic RL。传统的做法存在以下痛点:
本文对基于LLM的Agentic RL的底层概念、方法学创新与系统设计进行了全面的梳理与重新思考,其核心贡献包括:
Agentic RL 使得LLM从“被动的文本生成器”蜕变为“具备Meta-reasoning(元推理)能力的自主改进系统”,其释放的潜力深刻改变了多个垂直领域的交互范式:
在Agent的控制论循环中,作者深入解析了四项核心组件的理论基础,并浓墨重彩地梳理了 Reinforcement Learning范式 的技术演化:
LLM推理能力的爆发式增长,本质上是由于RL算法摆脱了SFT的局限。本文总结了以下里程碑级别的RL算法:
在梳理当前方法的基础上,作者从环境、可信度、能力边界和系统架构四个维度定义了Agentic RL的深水区挑战:
本文最为出彩的点在于清晰地绘制了强化学习在LLM中的技术演进树(如演进图所示:PPO -> DPO/KTO -> GRPO -> GSPO/DAPO/SAPO)。
对于资深从业者,必须敏锐捕捉到以下信号:在复杂逻辑(如数学/代码)场景下,传统的 RLHF (基于偏好标注和 Reward Model) 正在退潮,基于结果验证(Verifiable Reward,即 Rule-based Reward)配合无 Critic 架构的组内相对优势算法(如 GRPO 及其变体) 已经成为训练强大推理模型(Reasoning Models)的绝对主流。这正是解锁类似 DeepSeek-R1 "Aha Moment"(顿悟时刻)的底层密码。通过多轨迹采样取代显式价值网络,不仅极大解放了算力与显存瓶颈,还将优化目标从“迎合人类偏好”引向了“寻找真理法则的最高效路径”。
作者:Boqin Yuan, Renchu Song, Yue Su, Sen Yang, Jing Qin
机构:UC San Diego, Epsilla, Carnegie Mellon University
赋予大型语言模型(LLM)“技能(Skills)”是一种无需更新模型权重即可提升 Agent 表现的有效方法(即技能蒸馏,Skill Distillation)。目前的自动化技能蒸馏 Pipeline(如 Trace2Skill)主要通过切分“成功”和“失败”的 Agent 执行轨迹(Trajectories)来分别提取规则。
然而,这种“二元对立”的方法忽略了一个至关重要的信号:每一步的具体执行成本(Per-step Cost)。如果不掌握每一步的成本,Pipeline 就无法区分“为了修复 Bug 而添加缺失步骤”与“移除对结果无影响的高昂冗余步骤”。传统的 Observability(可观测性)工具(如 LangSmith、Langfuse)虽然遵循 OpenTelemetry 规范追踪了 Token 和成本,但它们将这些信息展示为供人类操作员查看的 Dashboard 分析,而不是一种可以直接输入给 LLM 进行下游分析的紧凑型中间表示(Intermediate Representation, IR)。为了解决这个问题,研究者迫切需要一种专为模型消费设计的、带有冗余标记和失败节点的轻量化成本追踪格式。
本文从系统架构和蒸馏方法论两个维度做出了核心贡献:
Preserve:保留导致成功的优质行为。Prune:基于反事实(Counterfactual)推导,移除高成本且无关紧要的冗余步骤。Repair:基于 Oracle 证据修复导致失败的错误行为。论文在附录中详细展示了 CostCraft 如何在 SpreadsheetBench 环境中发挥作用的实例:
Repair 补丁:“当单元格标记为 pending 时,必须在结束会话前完成计算。”
redundant_tool_calls,Agent 连续两次调用 read_file('input.xlsx'),参数相似度高达 94%。
Prune 补丁,明确指出 Target Span 并给出反事实论证:“读取的内容是字节一致的,跳过第二次读取不会改变结果。”由此生成技能:“只读取一次文件并缓存”。
不同于简单的扁平日志,ClawTrace 重构了 Multi-agent 系统的完整调用图(Call Graph),通过持久化的 childSessionKey -> parentSpanId 映射将子 Agent 绑定到父调用链。尤为关键的是,它精确还原了Cache-aware(缓存感知)的成本模型:
$cost = r_{in} \cdot t_{in} + r_{out} \cdot t_{out} + r_{cacheRead} \cdot t_{cacheRead} + r_{cacheWrite} \cdot t_{cacheWrite}$
由于 API 服务商(如 OpenAI)对缓存 Token(cacheRead)的收费仅为新鲜输入(fresh input)的一小部分,如果按原始输入长度计费,高估真实成本可能达到 1.6~2.0 倍,这会严重干扰后续蒸馏步骤中基于成本的 Span 排序。
TraceCard 的编译包含启发式特征提取:例如利用编辑距离(Levenshtein distance $\ge 0.8$)检测 redundant_tool_calls,利用 Jaccard 相似度评估子 Agent 输出在最终回复中的采用率。
Preserve,记录促成成功的行为;另一个是 Prune(可选),针对 TraceCard 中的高成本冗余节点(top_cost_spans)。Prune 补丁必须严格附带自然语言的“反事实推论(Counterfactual)”,证明移除该步骤不会改变输出。inspect_mismatches、read_gold_snippet 和 final_patch 等工具的 Multi-turn ReAct 循环进行 Oracle 辅助诊断,生成 Repair 补丁。Repair > 具有成本目标的 Prune > 至少出现两次的 Preserve。最终输出的 SKILL.md 包含触发器、工作流、停止规则、伪影清单和成本控制(Cost Control)五大段落。实验在一个确定的评测集 SpreadsheetBench 以及另一个跨域任务评测集 SkillsBench 上展开,采用 openai-codex/gpt-5.4 (注:这是论文使用的基线代号) 作为基础模型:
Prune 相关规则(No-prune),回归(Regression,即引入的新错误)数量将增加两倍(4 个增加到 13 个)。此时总体成本依然持平,说明 Prune 生成的“成本控制”规则在本质上是充当了系统护栏,防止 Agent 在其他 Preserve/Repair 规则的诱导下执行无限循环或无意义操作。Prune 规则(如“避免重复读文件并缓存”)表现出极强的跨领域泛化性(使中位数成本下降 32%)。而 Preserve 规则反而因为过度拟合了原训练集的格式约定,在跨域测试中导致了任务回归。这强有力地支持了在蒸馏阶段将这两者分离管理的必要性。本文突破了长期以来将 LLM Agent Log 仅作为运维人员 Dashboard 分析数据的桎梏,首次将其沉淀为专为 LLM 消费优化的高密度文本协议(TraceCard)。其最重要的学术洞察在于解构了“改善任务的两种截然不同的方式”:填补缺失步骤(修复)与削减无用操作(剪枝)。
针对 Agent 蒸馏时常常碰到的灾难性遗忘与行为退化现象,CostCraft 揭示了通过 Prune 结合 Counterfactual(反事实论证)提取出的负向约束(Cost Control),往往具备比正向增强规则更普适的泛化性能。该开源框架为未来基于强化学习、多智能体协作进化的 Cost-aware 强化学习铺平了道路。
中文标题:LiteResearcher:面向深度研究智能体的可扩展Agentic RL训练框架
作者机构:Wanli Li, Bince Qu, 等 / 浙江大学,Simplex AI,香港理工大学
论文原文:📄 查看 ArXiv 原文
随着DeepSeek-R1等模型的成功,基于强化学习(RL)内部化推理能力(RLVR)已成为大模型后训练的标准范式。然而,当RL范式向智能体深度研究(Agentic Deep Research)迁移时,遇到了严重的扩展性瓶颈。深度研究需要模型与外部工具(如搜索引擎、浏览器)进行长程、多轮的交互,现有方法面临两大核心痛点:
本质上,Agentic RL极度渴望一个“隔离的沙盒环境”,既能完全屏蔽现实基础设施的噪声,又能真实映射互联网的分布与动态。
本文提出了 LiteResearcher,一个旨在释放 Agentic RL 扩展潜力的零成本、全本地训练框架。通过构建一个镜像真实世界搜索架构的“轻量级虚拟世界”,该框架成功赋能仅 4B 级别 的端侧模型超越了庞大的闭源和开源模型。
为了让模型掌握真实互联网的复杂检索,LiteResearcher在数据合成阶段定义了5种核心“原子搜索能力”,并精心设计了合成路径。以下是两个典型任务的构造案例:
💡 亮点机制:信息源掩码 (Information Source Masking)
如果在初始语料生成QA对后,模型能直接搜到原文,这就退化成了简单的RAG。LiteResearcher的做法是:在本地语料库中刻意删除生成该QA对的原始网页。这就倒逼智能体必须通过间接途径、多跳检索,甚至重新聚合其它网页的碎片信息来求解,完美模拟了“深度研究”的本质动作。
LiteResearcher的生态系统建立在三个核心支柱之上:
彻底抛弃调用在线API(如Serper/Jina)。系统爬取了~32M高质量真实网页(学术、百科、新闻等),构建完全本地的后端:
BGE-M3 进行稠密与稀疏混合检索,Milvus结合DiskANN (mmap) 实现页面级(Page-level,而非 Chunk-level)索引。并发性能强悍,查询延迟仅 ~0.15s(比在线API快10倍)。PostgreSQL 数据库中,读取延迟仅 ~0.17s(比在线工具快46倍)。由于引入了环境反馈机制,长程搜索任务面临严重的策略漂移。作者发现标准的 Off-policy(即对同一个 Rollout Batch 划分多个 Mini-batch 多次更新)会导致模型迅速崩溃。因此,算法严格采用单次更新的 On-Policy GRPO。同时摒弃了 KL 散度惩罚和熵正则化项,目标函数简化为仅包含优势裁剪的代理损失:
$$\mathcal{J}_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^K \sim \pi_{\theta_{old}}} \left[ \frac{1}{K} \sum_{i=1}^K \min \left( r_i(\theta) A_i, \text{clip} \left( r_i(\theta), 1-\epsilon_{low}, 1+\epsilon_{high} \right) A_i \right) \right]$$
其中,优势 $A_i$ 是通过在一组样本 $\{o_1, ..., o_K\}$ 的奖励分布中进行标准化计算得到的,奖励依据最终回答与 LLM Judge 给出的语义正确性为准。
为了防止模型陷入“简单任务全对,复杂任务全错”的梯度枯竭(训练饱和),系统引入了多阶段渐进难度学习机制。在送入 RL 引擎前,系统用当前模型评估所有候选 QA 对(pass@8),仅保留正确次数 $c$ 满足 $1 \le c \le 7$ 的任务。阶段 1 使用基础数据,阶段 2 引入多跳子图推理和特定领域(如科学)的困难数据,不断突破模型的性能天花板。
模型初始化自 Qwen3-4B-Thinking-2507,首先用 6.8万 条开源/合成轨迹进行 SFT 热身,随后进入本地大批量 RL 阶段(Global Batch 128,K=8)。
👥 作者:Huaiyuan Yao, Longchao Da, Xiaoou Liu, Charles Fleming, Tianlong Chen, Hua Wei
🏫 机构:Arizona State University (ASU), Cisco Research, UNC Chapel Hill
🔗 链接:📄 查看 ArXiv 原文
大语言模型 (LLM) 在推动多智能体系统 (Multi-Agent Systems, MAS) 发展方面展现了巨大潜力。然而,当这些系统被部署在动态环境中时,往往难以自主演化和优化其协作策略。当前的 LLM 多智能体架构面临以下致命痛点:
作者指出,多智能体强化学习 (MARL) 领域早已系统性地研究过“信用分配”问题,但这一思想在 LLM Agent 系统中仍未得到充分应用。为此,本文提出了 LangMARL,一个将经典 MARL 范式(特别是 CTDE:中心化训练,去中心化执行)完全映射到“自然语言空间”的通用框架。
LLMActor, LLMCritic, LanguagePolicyOptimizer 等核心组件,使得多 LLM 优化如同标准深度 RL pipeline 一样直观。为了更直观地理解全局反思与 LangMARL 个体信用分配的差异,本文展示了《胡闹厨房 (Overcooked-AI)》环境中的一个典型协作失败场景(参考原论文 Fig 1 & Fig 12):
🎮 场景:Green 玩家与 Blue 玩家需要合作完成洋葱汤的烹饪与上菜。当前状态下,锅里缺一个洋葱。
❌ 实际行为:Green 玩家没有去拿洋葱,而是跑去拿盘子,导致 Blue 玩家只能在柜台前干等,最终订单失败,客户投诉。
🔴 传统全局反思 (Global Evaluation, 如 Reflexion):
系统只知道“订单失败”,导致 Green 错误反思:“哪里出错了?是我提供的盘子不够吗?”;而表现正常的 Blue 错误反思:“我是不是不该等,应该去做点别的?” (发生了 Credit Drift)。
🟢 LangMARL 的处理流程:
1. 信用分配 (Credit for Green):中心化 Critic 分析轨迹后指出:"Player Green 提供了必要的盘子,但是物品放置效率低下,未能及时响应 Player Blue 的直接需求(洋葱),导致了本可避免的延误。"
2. 生成语言梯度 (Language Gradient):"强化 Green 的后勤支持角色,要求其优先满足主厨紧迫的食材需求。"
3. 策略更新 (Optimized Policy):Green 的 Prompt 被自动更新为:"优先理解 Player Blue 当前的烹饪需求并调整资源布局,最小化等待时间..."。Blue 的策略则保持不变,巩固其正确行为。
LangMARL 在自然语言空间中严格复现了带中心化 Critic 的 Actor-Critic (CTDE) 强化学习范式,不再更新神经网络权重,而是更新 Prompt 字符串。包含以下四个核心模块:
每个 Agent $i$ 维护一个由自然语言参数化的策略 $\pi_i^{\text{text}}$(即 System Prompt 和 Few-shot examples)。在时刻 $t$,Agent 基于当前的文本状态观察 $s_t^{\text{text}}$,通过查询 LLM 采样动作 $a_i^t$:
$a_i^t = \text{LLM}_{\text{actor}}\left(\pi_i^{\text{text}}, s_t^{\text{text}}\right)$
执行时是完全去中心化的,Agent 看不到全局信息。
这是解决信用分配的核心。不同于输出一个标量价值(Scalar Value),语言 Critic 接收完整的全局片段轨迹 $\tau = (s_0, a_0, s_1, a_1, \dots, s_T)$,并进行因果归因(Causal Attribution),输出一段针对 Agent $i$ 的自然语言信用评价 $C_i^{\text{text}}(\tau)$:
$C_i^{\text{text}}(\tau) = \text{LLM}_{\text{critic}}(\tau, i)$
为了模拟传统 RL 中的 $\nabla_\theta \log \pi_\theta(a|s) \cdot G(\tau)$,LangMARL 引入了一个策略梯度 LLM。它结合当前策略 $\pi_i^{\text{text}}$ 和 Critic 提供的信用信号,生成文本格式的“修改指令”(即方向性梯度 $\Delta \pi_i^{\text{text}}$):
$\Delta \pi_i^{\text{text}}(\tau_k) = \text{LLM}_{\text{grad}}\left(\pi_i^{\text{text}}, C_i^{\text{text}}(\tau_k)\right)$
类似于 Batch Policy Optimization,框架首先使用 $\text{LLM}_{\text{agg}}$ 聚合多个轨迹 $K$ 上的语言梯度(消除噪声和冲突),然后使用 $\text{LLM}_{\text{opt}}$ 应用这些更新,生成迭代后的新策略:
$\pi_i^{\text{text}} \leftarrow \text{LLM}_{\text{opt}}\left(\pi_i^{\text{text}}, \text{LLM}_{\text{agg}}\left(\{\Delta \pi_i^{\text{text}}(\tau_k)\}_{k=1}^K\right)\right)$
作者在两大类环境中进行了评估:多智能体策略游戏 (Overcooked-AI, Pistonball) 和 开放式协作语言任务 (HumanEval 编程, HotPotQA 推理, MATH 数学)。对比了静态 Prompting (CoT, Agents) 以及最新的单/多智能体自进化基线 (AutoPE, DSPy, Reflexion, TextGrad, Symbolic)。