大模型 Agent 与强化学习 (RL) 深度学术解读报告

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

中文标题:证据链化:通过引用感知Rubric奖励实现深度搜索Agent的鲁棒强化学习

作者:Jiajie Zhang, Xin Lv, Ling Feng, Lei Hou, Juanzi Li

机构:清华大学, 智谱 AI (Zhipu AI)

📄 查看 ArXiv 原文

📍 研究背景与痛点 (Background & Pain Points)

近年来,基于大语言模型 (LLM) 的深度搜索智能体 (Deep Search Agents) 凭借其调用外部浏览器工具解决复杂、知识密集型问题的能力备受关注(如 OpenAI 的 Deep Research)。为了提升模型在广阔且嘈杂的网络环境中的长程信息检索能力,主流方法通常使用合成的多跳 QA 数据集,通过强化学习 (RL) 对模型进行后训练对齐。

核心痛点:现有的强化学习方法(如标准 GRPO)在训练深度搜索 Agent 时,绝大多数依赖于二元结果奖励 (Binary Outcome Rewards)——即只检查 Agent 输出的最终答案是否与 Ground Truth 匹配。这种稀疏的奖励信号存在致命缺陷:

🚀 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study)

论文中对比了标准 GRPO 和作者提出的 C-GRPO 在解决同一个复杂多跳查询(来自 DeepDive 数据集)时的轨迹差异:

复杂多跳查询片段:“寻找一个实体,它在 1970 年代初接管了一条特定风景道路的监督权。这条道路曾是一条主要东西向大动脉(可通过某历史人物命名的林荫道上的客运站到达...)的风景路段...” (注:题目包含极多限制条件,如“神之客栈”同名医疗机构、被焚毁的旧都城等)。

❌ 标准 GRPO 策略 (Shortcut Solution):

Thinking (第21轮): "我找到了关于风景公路的参考...现在需要找转移给 'St. Lawrence Parks Commission' 的引用... 至于问题开头提到的 '经过大火的石头建筑都城',可能是渥太华?或者是圣保罗?... 不管了,我们能提供道路转移的引用就够了... 直接输出答案。"

最终回答:直接输出了正确答案 St. Lawrence Parks Commission,但解释部分完全忽略了题目早期的诸多约束,未经验证直接蒙混过关。在纯结果奖励下,该轨迹获得了满分奖励。

✅ C-GRPO 策略 (Fully Solved via Chaining Evidence):

Thinking (直至第41轮): "现在我们有了所有步骤。实体是大学医院金斯顿基金会... 支持的医院叫 'House of God' (Hotel-Dieu)... 金斯顿被称为 '石灰岩之城',1840年经历过大火... 金斯顿公交路线通往皇家军事学院... 约翰·康特大道上的汽车站... 连接401高速... 千岛公园路转移给了 St. Lawrence Parks Commission。现在需要生成带有所有声明引用的最终回复..."

最终回答:详细列出了 7 条逻辑严密的证据链,每一步都带有内联引用 (inline citations),所有隐藏实体被完美挖掘,最终推导出 St. Lawrence Parks Commission。这才是符合 Deep Search 期望的鲁棒推理过程。

🛠️ 方法论与技术实现 (Methodology)

该框架分为两大核心部分:奖励机制 (CaRR) 与优化算法 (C-GRPO)。

1. 引用感知 Rubric 奖励 (CaRR)

CaRR 利用合成数据的内在组成结构,通过三个自动化步骤计算细粒度奖励:

最终的 Rubric 奖励定义为连通 rubric 所占的比例:$$R^H_r = \frac{|\mathcal{R}_q^{\text{connect}}|}{|\mathcal{R}_q|}$$

2. 引用感知组相对策略优化 (C-GRPO)

单纯奖励过程可能会让模型“为了凑步骤而偏离寻找正确答案的初衷”。因此,C-GRPO 的核心创新在于:仅对“最终答案正确 (Outcome = 1)”的轨迹施加 Rubric 奖励。

设一条轨迹的 Outcome 奖励为 $R^{\mathcal{H}_i}_o \in \{0, 1\}$,归一化后的 Rubric 奖励为 $\hat{R}^{\mathcal{H}_i}_r$,则混合奖励定义为:

$$R_i = (1 - \alpha) \cdot R^{\mathcal{H}_i}_o + \alpha \cdot R^{\mathcal{H}_i}_o \cdot \hat{R}^{\mathcal{H}_i}_r$$

随后利用 GRPO 标准的 Token 级别 Loss 目标函数 $\mathcal{J}(\theta)$ 进行优化。$\alpha$ 用于平衡结果与过程的权重(实验中设定为 0.3)。

📊 实验设置与结论分析 (Experiments & Analysis)

实验设置:基于 Qwen3-4B-Thinking 和 Qwen3-30B-A3B-Thinking 初始化;训练数据采用 DeepDive(合成的多跳深搜数据集);使用 DeepSeek-v3.2 作为 Judge LLM;评测基准包括 BrowseComp, xbench-DS, GAIA 等长程搜索榜单。

关键结论:

💡 关键技术亮点分析 (Key Highlights)

  1. 巧妙解决 PRM 的高昂成本:传统的过程奖励模型 (PRM) 需要海量人工标注。本文通过利用合成数据的图结构反向生成约束 (Rubrics),再利用 LLM-as-a-judge 自动判定,极低成本地实现了过程监督 (Process Supervision)。
  2. 图结构对抗 Reward Hacking:Step 3 的证据连通性检查(二分图 BFS 算法)非常精妙。Agent 如果只是通过 Search 随机召回了一些符合单个 Rubric 事实的网页,但这些事实与最终答案实体没有逻辑关联链(图不连通),则无法得分。这从算法机制上杜绝了对 Rubric 分数的恶意攻击。
  3. $\alpha \cdot R_o \cdot R_r$ 乘法门控机制:C-GRPO 并没有简单相加两类奖励,而是将 Outcome 奖励 $R_o$ 作为乘数。这意味着如果最后答案错了,前面过程不管多漂亮,额外奖励也是 0。这确保了强化学习优化方向牢牢锚定在“解决问题”的最终目标上,而不会让模型沉溺于“收集证据”的无休止循环。

INSIGHT-O3: 赋予多模态基础模型泛化视觉搜索能力

INSIGHT-O3: EMPOWERING MULTIMODAL FOUNDATION MODELS WITH GENERALIZED VISUAL SEARCH

作者:Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, et al.

机构:香港科技大学 (HKUST), 华为 (Huawei)

📄 查看 ArXiv 原文

1. 研究背景与痛点 (Background & Pain Points)

近年来,让 AI Agent 具备“用图像思考”(Think with images)的能力成为了多模态领域的核心命题。这种能力不仅依赖于基础的视觉感知,更需要深度的逻辑推理。然而,在当前的开源多模态大模型研究中,存在几个显著痛点:开源模型在复杂视觉推理上的短板、评测基准缺乏多跳推理考量,以及端到端单体模型同时承担“高分辨率感知搜索”和“复杂逻辑推理”带来的优化困难。

2. 核心贡献 (Core Contributions)

3. 具体案例剖析 (Case Study)

论文给出了地图导航推理案例:在超高分辨率地图上,vReasoner 先拆解任务,再多轮调用 vSearcher 去找餐厅图例、定位餐厅编号、提取游乐设施位置和身高限制表,最终综合所有证据得出答案。这个过程体现了“泛化搜索 -> 裁剪放大 -> 证据聚合 -> 逻辑推理”的完整链条。

4. 方法论与技术实现 (Methodology)

作者基于 Qwen2.5-VL-7B-Instruct 对 vSearcher 做混合强化学习训练(Hybrid RL)。训练分为两部分:环外 RL 通过 IoU 直接监督区域定位;环内 RL 让真实的 vReasoner 在线生成查询,用“这个裁剪是否真的帮助解决任务”作为奖励。

作者采用 GRPO(Group Relative Policy Optimization)做策略优化,并对多轮 Agent 环境做了适配,如全局优势估计。其目标函数为:

$$ J(\theta) = \frac{1}{M} \sum_{i=1}^{M} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \left\{ \min \left[ \gamma_t(\theta) \hat{A}_t, \text{clip}(\gamma_t(\theta), 1-\epsilon, 1+\epsilon ) \hat{A}_t \right] - \beta \mathbb{D}_{\text{KL}}[\pi_\theta \| \pi_{\text{ref}}] \right\} $$

5. 实验设置与结论分析 (Experiments & Results)

6. 关键技术亮点分析

Towards Agentic Self-Learning LLMs in Search Environment
走向搜索环境下的智能体自学习大语言模型

作者:Wangtao Sun, Xiang Cheng, Jialin Fan, Xing Yu, Yao Xu, Shizhu He, Jun Zhao, Kang Liu

机构:中国科学院自动化研究所 (CASIA)、中国科学院大学、小红书、美团、上海人工智能实验室、清华大学

📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

随着 OpenAI o1 和 DeepSeek-R1 的发布,基于强化学习和可验证奖励(RLVR, RL with Verifiable Rewards)范式的自我进化(Self-Evolution)和自我推理模型成为当前大模型演进的核心路径。然而,将 RLVR 从单纯的数学/代码场景扩展到开放域智能体(Open-domain Agents,如搜索问答、工具调用)时,面临着严峻的挑战:

💡 核心贡献 (Core Contributions)

本文深入探索了在开放域搜索环境中,如何让 LLM Agent 摆脱人工数据集和预定义规则奖励的束缚,实现真正可扩展的自学习。核心贡献如下:

🛠️ 具体案例剖析 (Case Study)

ASL 框架中,Prompt Generator (PG) 能够根据当前模型的水平,自主调用搜索工具生成更具挑战性的多跳逻辑任务,而非静态的题库抽取。以下是论文附录中摘录的 PG 在多轮迭代后自主生成复杂任务的实例:

[Agentic Task Generation by Prompt Generator]

1. 内部思考 & 规划 (<think>):
"为了生成一个更难的问题,我首先需要检索关于 'baharat' 和 'Tavuk göğsü' 食谱的信息来理解上下文。然后我将通过识别相关的配料或概念来增加一个推理跳跃(Reasoning Hop)。"

2. 工具调用 (<tool_call>):
{"name": "retrieve", "arguments": {"query": "baharat Tavuk göğsü"}}

3. 工具返回 (<tool_response>):
返回了关于土耳其鸡胸肉布丁(Tavuk göğsü)的维基百科内容,提到传统配方中经常混合牛奶、糖、肉桂等。

4. 评估检索结果并生成新任务 (<think> & <question>):
"从检索信息可知,baharat(一种中东香料混合物)通常包含肉桂、丁香和黑胡椒等。因为肉桂是 Tavuk göğsü 的常见成分,一个更难的问题可以是:询问一种在 baharat 中存在但通常存在于传统 Tavuk göğsü 中的香料。"

Generated Question: "What is a common ingredient in baharat that is not typically found in traditional Tavuk göğsü?"
Generated Answer: "mace"

解读:这个例子展示了PG并非简单替换实体,而是深度利用了工具环境(搜索引擎)作为外部知识支撑,动态构建了需要多跳推理的复杂 QA 样本,为后续 Policy Model 的强化学习提供了极高质量的“难例”。

⚙️ 方法论与技术实现 (Methodology)

ASL 是一个严格的三阶段循环优化范式(PG $\rightarrow$ GRM $\rightarrow$ PM),每个阶段更新一个角色,冻结另外两个角色作为环境上下文:

Phase 1: Prompt Generator (PG) Training

基于前一轮迭代的元提示(Meta Prompt),PG 生成包含题目与候选答案的样本对 $(x_n, a_n)$。为了判断题目质量和难度,ASL 使用当前的 Policy Model 对题目 $x$ 执行 $M$ 次 rollouts 尝试解答,得到响应集合 $\{y_m\}_{m=1}^M$。接着,冻结的 GRM 对这些响应进行打分 $s_m \in \{0,1\}$。

奖励机制核心:信息熵驱动。PG 获得的强化学习 Reward $r_{PG}$ 是求解得分分布的熵:
$$ r_{PG} = \text{Entropy}(s_1, s_2, \dots, s_m) $$
Insight: 更高的熵意味着策略模型在此问题上的表现存在高度不确定性(即不会太简单导致全对,也不会太难导致全错),这精准地捕捉到了模型当前能力边缘(Boundary)的挑战性任务。

Phase 2: Generative Reward Model (GRM) Training

为了防止 GRM 在面对越来越难的生成问题时失去评估准度,此阶段更新 GRM。针对 $(x, y)$ 组合,GRM 生成 $N$ 次评估得分 $\{\hat{s}_n\}_{n=1}^N$。通过将 $\hat{s}$ 与基于严谨判则的参考分数 $s$ 对比,得出二分类的正确性指示信号作为 $r_{GRM}$ 更新 GRM。通过 RLVR 对齐,GRM 的评判变得更加稳健和 faithful。

Phase 3: Policy Model (PM) Training

Policy Model 利用 PG 生成的新任务进行自我演化。对每个题目 $x$,PM 进行 $N$ 次采样输出 $\{y_n\}_{n=1}^N$,由 GRM 打分得出 $\{s_n\}_{n=1}^N$:

📊 实验设置与结论分析 (Experiments & Results)

实验设置:基座模型采用 Qwen-2.5-7B-Instruct,基于 VeRL 框架构建 RL 管道。评测集覆盖单跳/通用问答(NQ, TriviaQA, PopQA)与复杂多跳推理问答(HotpotQA, 2WikiMultiHopQA 等)。对比基线为 Search-R1(端到端真实数据RL)、Absolute Zero(提问者-求解者自对弈)和 R-Zero(挑战者-求解者框架)。

核心结论:

  1. 持久的自我进化能力,超越 Baseline:像 Search-R1 虽然在初期得分最高(依托真实数据),但很快泛化性变差并出现掉点;Absolute Zero 等自对弈模型在前两轮表现优异,但第三轮即触顶并陷入停滞。而 ASL 展现了稳健的 iteration-over-iteration(多轮迭代)增长能力,并在零真实数据(Zero-labeled-data)条件下最终反超 Search-R1。
  2. 三角色的完美协同(Co-evolution Dynamics):作者单独拆解了各角色:PG 生成的问题被固定模型测试时的准确率越来越低(证明出题越来越刁钻);GRM在对抗数据集上的判准率稳定上升(验证越来越锐利);而 PM 自身的解题准确率也在稳步提升。三者形成了“更难的问题 $\rightarrow$ 更严的判卷 $\rightarrow$ 更强的解答”的良性飞轮。

🌟 关键技术亮点与深度分析 (Technical Highlights)

超越正确性:在检索增强生成中奖励忠实推理

Beyond Correctness: Rewarding Faithful Reasoning in Retrieval-Augmented Generation

👤 作者:Zhichao Xu, Zongyu Wu, Yun Zhou, Aosong Feng, Sangmin Woo 等

🏛️ 机构:AWS AI Fundamental Research, 宾夕法尼亚州立大学 (Penn State University), 耶鲁大学 (Yale University)

📄 查看 ArXiv 原文

💡 研究背景与痛点

随着 DeepSeek-R1 等模型在数学和代码领域的成功,基于强化学习(RL)的智能体搜索(Agentic Search / RL-based RAG)成为了当前LLM发展的热门方向。近期的前沿工作(如 Search-R1, ReSearch)开始通过RL训练大模型,使其学会自主调用搜索引擎、推理并整合信息。

核心痛点:目前的RL训练主要采用结果导向的奖励(Outcome-based Reward / RLVR),即只看最终答案(Final Answer)的准确率(Exact Match)。这种“唯结果论”导致了一个严重问题——思维链的不忠实(Chain-of-Thought Unfaithfulness)。模型虽然猜对了答案,但其中间推理过程可能是瞎编的、脱离检索依据的,甚至出现“为了拼凑正确答案而生搬硬套”的现象。对于企业级RAG应用而言,这种不可靠的中间过程是致命的,因为用户无法信任其提供的推理轨迹(Traceability)。

🚀 核心贡献

🔍 具体案例剖析 (Case Study)

论文中深入剖析了完全依赖 Outcome-based Reward 训练出的模型(如 Search-R1-7B-Base-PPO)在实际运行中产生的典型 Bad Case 轨迹:

<information>
[Retriever返回了一段关于第一届诺贝尔物理学奖得主威廉·伦琴的详细背景资料...]
</information>

<think>
I need to find out the name of the first person who got the Nobel Prize in Physics.
</think>

<search> first person Nobel Prize Physics </search>

[...循环达到最大搜索次数限制...]

<think>I need to find out who got the first Nobel Prize in Physics.</think>
<answer>Wilhelm Röntgen</answer>

诊断分析:

⚙️ 方法论与技术实现

模型基于 Qwen2.5-VL-7B-Instruct,实施了经典的后训练两阶段配方(Post-training Recipe)。

阶段一:SFT(监督微调冷启动)

这个阶段教会模型输出结构化的 Tag(如 <reason>, <text_search>, <img_search>)。训练时冻结了 Vision Encoder 和 Projector,仅在 LLM 基座上使用 LoRA 微调。采用标准的因果语言模型损失函数:

$$ \mathcal{L}_{\text{SFT}} = - \sum_{t=1}^{T} \log \pi_\theta(y_t^* \mid x, I, y_{

关键 Trick:训练中包含了 Web 返回的 <information> 内容,但在计算 Loss 时,将这些外部检索内容 mask 掉,不计算梯度。这样强制模型将拟合精力全部集中在“推理逻辑”和“工具格式”的生成上。

阶段二:在线强化学习 (Online RL via GRPO)

由于 SFT 模型往往会有“搜索过度”的问题,引入 GRPO (Group-Relative Policy Optimization) 算法。优化目标包含结果的绝对正确性 $s \in \{0,1\}$ 和输出格式合法性 $s_{\text{fmt}}$。总奖励为:

$$ R_{\text{total}} = (1 - \lambda_{\text{fmt}}) s + \lambda_{\text{fmt}} s_{\text{fmt}} $$

策略更新公式如下:

$$ \mathcal{L}_{\text{GRPO}} = \mathbb{E}_{i,t} [ \min ( \rho_t^{(i)} A^{(i)}, \text{clip}(\rho_t^{(i)}, 1-\epsilon, 1+\epsilon) A^{(i)} ) ] - \beta \text{KL}(\pi_\theta \parallel \pi_{\text{ref}}) $$

📊 实验设置与结论分析 (Experiments & Results)

研究在 InfoSeek, Enc-VQA, SimpleVQA, DynVQA 等 6 个主流开放域多模态基准上对模型进行了严格评测。

🌟 资深从业者视角:关键技术亮点分析