AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning
中文标题:AdaSearch:通过强化学习在大型语言模型中平衡参数化知识与外部搜索
作者:Tzu-Han Lin, Wei-Lin Chen, Chen-An Li, Hung-yi Lee, Yun-Nung Chen, Yu Meng
机构:国立台湾大学 (National Taiwan University), 弗吉尼亚大学 (University of Virginia)
📄 查看 ArXiv 原文
🔍 研究背景与痛点 (Background & Challenges)
随着大型语言模型 (LLMs) 在各类复杂任务中的广泛应用,利用强化学习 (RL) 将搜索引擎作为工具集成到 LLM 中(即 Search Agents)已成为解决模型幻觉、获取最新或长尾知识的核心范式。然而,当前的 Search Agents 面临一个关键的“自适应性困境”:
- 过度依赖搜索 (Overreliance on Search): 如 Search-R1 等方法倾向于对所有 query 调用搜索工具(Tool Overuse),这不仅增加了不必要的 API 成本和延迟,还可能引入恶意或噪声文本。
- 复杂的奖励工程陷阱 (Reward Engineering Pitfalls): 现有方法(如 IKEA, OTC)试图通过在 RL 奖励函数中惩罚搜索调用次数(Search-call counts)来抑制过度搜索。然而,这种 Reward Shaping 极度依赖手工调参(Trial-and-error),且容易导致信用分配模糊 (Ambiguous Credit Assignment)——Agent 可能会通过生成更强的单次 Query 来减少调用,或者在确实需要外部知识时为了规避惩罚而拒绝搜索(导致幻觉)。
- 决策过程的黑盒化 (Lack of Interpretability): 此前的方法中,“是否需要搜索”的决策是隐式的,缺乏显式的推理链路。在金融、医疗等高风险场景中,系统缺乏可解释性会严重削弱用户的信任。
💡 核心贡献 (Core Contributions)
为了打破“参数化知识”与“外部搜索”之间的平衡难题,本文提出了 AdaSearch——一个极简且高效的两阶段、基于结果驱动 (Outcome-driven) 的 RL 框架。其核心思想是将“解决问题”和“决定是否搜索”这两个能力的优化进行解耦。
- 创新的两阶段 RL 框架: 摒弃了复杂的惩罚性 Reward Shaping,仅使用简单的二元正确性奖励 (Binary Correctness Reward) 独立优化目标,极大简化了训练难度。
- 显式决策与可解释性提升: 模型在推理时必须先输出显式推理(Explicit Reasoning),再给出
<assessment>yes/no</assessment> 标签来决定是否调用搜索,增强了系统的透明度。
- 提出新的评估指标 \(\text{F1}_{\text{aware}}\): 针对简单用“搜索次数”评估自适应能力的缺陷,提出一种基于 F1-score 的决策指标,精准衡量模型的自我认知边界 (Self-knowledge Awareness)。
- SOTA 性能: 在 Qwen2.5 和 Llama-3.2 多个规模的模型上,AdaSearch 在减少无效搜索(下降 34-38%)的同时,大幅提升了知识边界感知能力(相对 Search-R1 提升 ~60% \(\text{F1}_{\text{aware}}\)),且保持了卓越的 QA 准确率 (EM)。
📖 具体案例剖析 (Case Studies)
AdaSearch 通过显式引入 <assessment> 标签,展现了极强的参数知识自查能力。以下选取论文 Appendix F 中的典型案例进行对比分析:
Case 1: 参数化知识充足 (无需搜索)
User Question: "Which designer is famous for his/her red-soled footwear?" (哪位设计师以红底鞋闻名?)
AdaSearch 决策推理 (Stage-1):
Step 1: 我需要想出一个以红底鞋闻名的设计师。
Step 2: 一位著名设计师是 Christian Louboutin。
Step 3: Christian Louboutin 是一位以红底高跟鞋闻名的法国时尚设计师。
Step 4: 基于这些信息,我可以直接回答。
<assessment>yes</assessment>
结果: 避免了搜索,直接生成正确答案 Christian Louboutin。对比之下,Search-R1 对此题仍然调用了搜索,浪费了算力。
Case 2: 参数化知识不足 (动态调用搜索)
User Question: "What is Javier Alva Orlandini's occupation?" (Javier Alva Orlandini 的职业是什么?)
AdaSearch 决策推理 (Stage-1):
Step 1: 我需要确定此人的职业。
Step 2: 在我的知识库中没有任何关于此人的信息。
Step 3: 缺乏具体信息,我无法直接回答该问题。
<assessment>no</assessment>
结果: 进入 Stage-2,模型主动生成 <search>Javier Alva Orlandini occupation</search> 进行检索,根据返回文本准确推导出其为 Politician(政治家)。
⚙️ 方法论与技术实现 (Methodology)
相较于将检索惩罚融入奖励函数,AdaSearch 选择将解题能力 (Problem solving)与检索决策能力 (Decision making)解耦,分为独立的两阶段 RL 进行优化,基础算法采用 GRPO。
Stage 1: Problem Solving (解题能力优化)
目标是激发模型利用 (1) 内部参数知识 和 (2) 外部搜索工具解决问题的上限。训练时为同一个问题 \(x\) 分配两种系统提示词 \(s_{\text{param}}\) (仅靠内部知识) 和 \(s_{\text{search}}\) (可使用搜索工具),生成两组 Rollouts: \(\mathcal{R}_{\text{param}}\) 和 \(\mathcal{R}_{\text{search}}\)。Reward 极其纯粹,仅看最终答案的 Exact Match (EM):
\[
R(\tau, y) = \begin{cases} 1.0 & \text{if EM} = \text{true}, \\ 0 & \text{otherwise}. \end{cases}
\]
Stage 2: Decision Making (决策能力优化)
目标是让模型学会认知自我知识边界 (Self-knowledge awareness)。在训练本阶段前,作者利用 Stage 1 训好的策略 \(\pi_{\theta_1}\) 结合 \(s_{\text{param}}\),对训练集中的每个样本生成 \(K\) 个回答,通过子串匹配 (SubEM) 计算出经验求解率 \(p\) (Empirical Solve Rate):
\[
p = \frac{1}{K} \sum_{k=1}^K \mathbb{1}[\text{SubEM}(\hat{y}_k, y) = \text{true}]
\]
随后设定阈值 \(\rho\) (如 \(\rho=0.5\)),对于 \(p \ge \rho\) 的样本分配伪标签 yes,反之分配 no。最终,使用带显式推导要求的 \(s_{\text{decision}}\) 提示词进行 RL 训练,要求模型在 <assessment> 标签中输出决策。奖励机制依然是极其简洁的 Binary Outcome Reward,这避免了复杂的 Reward Credit Assignment。
Inference Pipeline (推理流水线)
在推理阶段,模型首先通过 Stage 1 prompt 决定是否能仅依赖参数化知识解答问题。如果回答 yes,则直接转入 \(s_{\text{param}}\) 吐出答案;如果回答 no,则注入 \(s_{\text{search}}\) 进行多轮动态检索生成。
📊 实验设置与结论分析 (Experiments & Analysis)
实验设置:基于 Qwen2.5 (3B, 7B) 和 Llama-3.2 (3B) 展开。检索环境采用 2018 Wikipedia Dump 和 E5 向量检索模型。评估数据集覆盖单跳 (NQ, TQ, PopQA) 与多跳 (HotpotQA, 2Wiki, MuSiQue, Bamboogle) 问答任务。
评估指标剖析:为了精确衡量决策边界,论文提出了 \(\text{F1}_{\text{aware}}\) 指标。正样本定义为“模型决定不使用搜索,且单凭内部知识确实能答对”。该指标由模型选择与 Oracle Label 的 Precision 和 Recall 计算得出。
核心结论:
- 完美兼顾 Task Performance 与 Adaptivity: 相比于 Search-R1 (F1aware几乎为0,因为100%无脑搜索),AdaSearch 在 Qwen2.5-3B 上将平均 EM 从 38.1 维持在 36.0 (具有极强竞争力),同时 \(\text{F1}_{\text{aware}}\) 从 0.1 飙升至 54.0,相对提升傲视群雄。
- 击败复杂的 Reward-Shaping Baseline: 与 Naive Shaping(根据搜索次数直接扣分)、Awareness Shaping 以及 IKEA (基于知识边界分配bonus的复杂策略) 相比,AdaSearch 的纯粹二元强化学习反馈展现出显著优势。Reward Shaping 容易让模型陷入“害怕用工具”的保守状态 (False Negative 激增,详见 Confusion Matrix),导致多跳推理性能暴跌。
- 减少冗余开销: 在所有 Benchmarks 上,AdaSearch 比 Search-R1 削减了约 34%-38% 的搜索次数,且由于砍掉了无意义的检索步骤,端到端 Average Latency 降低了 20%。
🌟 关键技术亮点分析 (Key Highlights & Takeaways)
- 大道至简的 RL 设计哲学: 本文有力反驳了业界“必须通过复杂的连续型惩罚因子来控制工具使用率”的惯性思维。通过任务解耦(Decoupling),将高难度的联合分布学习拆解为“解题上限”与“自我认知”两部分,仅用二元奖励 (Binary Reward) 配合 GRPO 就达到了极佳的泛化效果。
- 在线 RL 与 SFT 的本质差异: 作者在消融实验中尝试在 Stage-2 中使用 SFT 进行对齐 (AdaSearch-SFT),发现 RL 版本在 MuSiQue 等困难分布外 (OOD) 任务上表现出更强的泛化性,印证了 RL 不仅是在模仿分布,而是在强化“探索认知边界”的策略。
- 联合训练 (Joint Optimization) 的局限性暴露: 论文尝试了 End-to-End 变体 (AdaSearch-E2E),在训练中即时计算 Empirical solve rate 作为伪标签,但性能全方位落后于 Two-Stage。这为后续做复杂 Agent RL 的研究者提供了避坑指南——当目标存在异质性(正确率优先 vs 成本优先)时,阶段解耦通常比联合优化更容易收敛并得到干净的梯度归属。
CriticSearch: Fine-Grained Credit Assignment for Search Agents via a Retrospective Critic
中文标题:CriticSearch:通过反思性评论家为搜索智能体提供细粒度信用分配
作者:Yaocheng Zhang, Haohuan Huang, Zijun Song, Yuanheng Zhu, 等
机构:中国科学院自动化研究所 (CAS), 中国科学院大学 (UCAS)
📄 查看 ArXiv 原文
🔍 研究背景与核心痛点
背景:工具集成推理(Tool-Integrated Reasoning, TIR)通过赋予大语言模型(LLM)调用外部搜索引擎的能力,极大地缓解了 LLM 知识过时和上下文信息不足的固有缺陷。然而,当前主流的 Agentic RL(智能体强化学习)在训练 TIR 模型时,高度依赖于最终答案的准确性来进行优化。
核心痛点(Credit Assignment Problem):
- 稀疏的全局奖励 (Sparse Outcome Rewards): 现有的框架(如 Search-R1)通常只在多轮交互的最后给予一个结果奖励(1或0)。这意味着无论轨迹中的某个具体搜索动作(Action)是精准命中了关键信息,还是在进行毫无意义的冗余搜索,它们都共享同一个奖励值。
- 探索效率低下与训练不稳定: 这种粗粒度的反馈导致 LLM 无法区分“有效调用”和“无效调用”。特别是在深度搜索(Deep Search)场景下,大量外部生成的 Token 加剧了奖励的方差,极易引发奖励崩溃 (Reward Collapse) 和梯度爆炸。
- 现有 Dense Reward 方法的局限: 现有的细粒度奖励估计方法(如蒙特卡洛树搜索估计)方差大且 Rollout 成本极高(如 ARPO);而依赖人工标注的步级别奖励则缺乏泛化性(如 StepSearch)。
💡 核心贡献
- 提出 Retrospective Critic 机制: 创新性地引入了一个“事后诸葛亮”式的评论家(Critique LLM)。该模型无需微调,利用特权信息(Privileged Information,即 Ground-Truth 答案和完整的未来轨迹)以回溯的视角为每一个搜索回合生成密集的、步级别的二元反馈。
- 构建 CriticSearch 强化学习框架: 将 Critique LLM 生成的细粒度 Turn-level Advantage 与基于结果的 Global Advantage 结合,直接无缝嵌入到 GRPO(Group Relative Policy Optimization)算法中。
- 加速收敛并缓解训练崩溃: 实验证明,引入高价值的密集反馈显著提升了训练的稳定性,避免了稀疏奖励下常见的策略崩溃(Premature Training Collapse),大幅加快了模型的收敛速度。
- SOTA 性能: 在 3B 和 7B 参数规模上,在 HotpotQA、MuSiQue 等多跳推理数据集上全面超越了现有的稀疏奖励基线(Search-R1, ZeroSearch)和密集奖励基线(StepSearch, ReasonRAG)。
🔎 具体案例剖析 (Case Study)
为了直观理解 CriticSearch 如何改善搜索行为,论文展示了其与基线模型(Search-R1)在处理多跳问题时的轨迹对比(参考论文 Fig. 10):
问题: Lloyd Corrigan 和 Percy Adlon 谁先开始在电影界工作? (Ground Truth: Lloyd Corrigan)
- Search-R1 轨迹(稀疏奖励训练): 模型成功检索到了 Lloyd Corrigan 1920年开始工作的关键信息。但由于缺乏步级惩罚,模型在后续推理中未能有效利用已检索信息,反而继续生成冗余搜索(例如重复搜索 Lloyd 的出道年份),浪费了上下文并增加了幻觉风险。虽然最终答案正确,但过程极其低效。
- CriticSearch 轨迹(密集奖励训练): 模型首先搜索到了 Lloyd 的信息。此时,Critique LLM 在训练时会将冗余的第二次搜索判定为
Bad(得分 0),将精准搜索判定为 Good(得分 1)。在这种细粒度信用分配的驱动下,CriticSearch 学会了聚焦搜索 (Focused search),提取关键信息后直接对比,仅用两轮高价值的搜索就给出了简洁、逻辑严密的最终答案。
⚙️ 方法论与技术实现
CriticSearch 的核心是在不增加额外 Rollout 负担的前提下,利用非对称信息构建高质量的 Dense Reward。其数学推导与实现步骤如下:
1. 全局奖励 (Global Reward Signal):
沿用 Search-R1 的规则,最终奖励由答案准确性(Exact Match)和格式正确性(Format)共同决定:
r_φ(q, y) = 1 (正确且格式对), 1 - λ_f (正确但格式错), λ_f (错误但格式对), 0 (全错)。
由此计算出组内相对全局优势 \(A^{\tau}_{i,t}\)(均值归一化)。
2. 回溯评论家 (Retrospective Critic):
对于一个包含多轮搜索动作 \(a_{i,t}\) 的轨迹,假设我们拥有特权信息 \(o_{gold}\)(Ground-Truth 答案)。一个冻结的 (Frozen) 强大 LLM(如 Qwen-2.5-Instruct)作为 \(\mathcal{C}_\phi\)。该评论家站在“上帝视角”,输入为 \((x, y_i, o_{gold})\),输出对每一个回合 \(t\) 的二元评价 \(\ell_{i,t} \in \{Good, Bad\}\)。将其映射为回合级奖励:\(r^a_{i,t} = 1\) (如果 \(\ell_{i,t} = Good\)),否则 \(0\)。随后,对回合级奖励进行优势归一化:
\[
A^a_{i,t} = \frac{r^a_{i,t}}{\sum_{u=1}^{T_i} r^a_{i,u} + \varepsilon}, \quad \varepsilon > 0
\]
3. 混合优势估计 (Hybrid Advantage in GRPO):
为了既保留对全局任务的对齐,又强化对局部动作的指导,将两者线性组合:
\[
A_{i,t} = \alpha A^a_{i,t} + (1 - \alpha) A^\tau_{i,t}
\]
其中 \(\alpha\) 为控制混合比例的超参(最佳实践设为 0.25)。最终代入 GRPO 的目标函数中,仅对策略模型生成的 token 传播梯度(屏蔽搜索引擎返回的信息)。
📊 实验设置与结论分析
- 基础设置: 策略模型基于 Qwen-2.5-3B-Base 和 7B-Base,评论家模型使用同尺寸的 Instruct 版本。训练集为 HotpotQA,使用 E5 作为检索器。评测涵盖域内(HotpotQA)及域外(2Wiki, MuSiQue, Bamboogle)数据集。
- 整体性能飞跃: CriticSearch 在所有数据集上全面压制了包括 Search-o1, ZeroSearch 和 StepSearch 在内的基线。特别是在 MuSiQue 和 Bamboogle 等复杂推理任务上,泛化性能显著。
- 分析:解决训练崩溃 (Mitigating Premature Training Collapse): 论文监控了 KL 散度和梯度范数。在纯稀疏奖励下,模型在约 400 step 时发生 KL 爆炸与策略崩溃;引入 Dense Reward 后,梯度被有效平滑,KL 保持稳定,模型得以持续学习和涨点。
- 分析:Critique LLM 规模的影响: 消融实验证明,评论家模型越大,提供的密集反馈质量越高,训练出的策略模型性能就越好。这验证了通过强大 LLM 蒸馏价值判断逻辑的可行性。
🌟 资深从业者视角:关键技术亮点分析
- 巧妙的非对称信息利用 (Asymmetric Information Design): CriticSearch 将“Ground-Truth 答案”和“未来搜索轨迹”作为特权信息喂给 Critic,因为是离线生成 Reward,完美实现 hindsight 视角下的精准信用分配。
- 规避了显式 Value Network 的训练诅咒: 直接采用现成的指令微调模型进行 Zero-shot 判别,输出简单的 Good/Bad 标签,大幅降低系统复杂度和显存开销。
- 与 GRPO 算法的无缝融合: 将外部计算的 action-level 奖励和 global 奖励通过简单加权注入 Advantage,没有破坏原有 PPO/GRPO 的稳定结构。
Search Self-play: Pushing the Frontier of Agent Capability without Supervision
中文标题:基于搜索自对弈:在无监督下拓展智能体能力边界
作者:Hongliang Lu, Yuhang Wen, Pengyu Cheng, et al.
机构:Qwen Large Model Application Team (Alibaba), Peking University, Sun Yat-sen University
📄 查看 ArXiv 原文
📍 研究背景与痛点 (Background & Pain Points)
随着大语言模型(LLM)的快速发展,利用强化学习结合可验证奖励(RLVR)训练智能体(LLM Agents)已成为当前业界主流趋势。特别是在 Deep Search 场景下,这种无需标注中间推理步骤、仅对最终答案进行结果导向奖励的方法极大降低了人工干预成本。
- 数据稀缺与扩展瓶颈: RLVR 依然严重依赖高质量、人工精心设计的“任务 Query 及其 Ground-Truth 答案”。不同工具集的 Agent 面对同一问题的解法差异很大,这种任务级别标注的短缺直接限制了 RL 训练规模。
- 传统合成数据方法的局限: 离线合成问题的方法是静态的,无法在 RL 训练期间动态调整任务难度,也容易导致模型在过易或过难的数据上无效拟合。
🚀 核心贡献 (Core Contributions)
- 首创深度搜索场景下的自对弈机制: 目标 LLM 同时扮演 Question Proposer 和 Problem Solver,通过竞争与合作在完全无监督设定下协同进化。
- 引入 RAG 验证机制确保生成质量: 设计基于检索增强生成(RAG)的验证流水线,确保 Proposer 生成的问题既有确定 Ground-Truth,又具备逻辑一致性。
- 自适应课程学习: Proposer 的难度输出会根据 Solver 的胜率动态调节,随着训练深入自然产生难度递增的 Agentic Tasks。
- 显著且一致的性能提升: 在多个基准测试上,无论从头训练还是在已有专家模型上增量训练,均实现明显涨点。
🔍 具体案例剖析 (Case Study)
以目标 Ground-Truth 答案为 Castle Drogo 为例,SSP 展示了清晰的“逆向出题 + 正向解题”闭环。
[Proposer 轨迹]
目标答案:Castle Drogo
Step 1: 关联到其建筑师 Sir Edwin Lutyens。
Step 2: 继续追溯到 Edwin Lutyens 与 Gertrude Jekyll 的合作项目 Hestercombe House 花园。
Step 3: 锁定其中的 orangery 作为提问起点。
最终生成 Query:What is the name of the 20th-century castle in Devon, England, designed by the architect who, alongside Gertrude Jekyll, created the famous Edwardian garden at Hestercombe House, known for its listed orangery?
[Solver 轨迹]
Step 1: 搜索与 Gertrude Jekyll 在 Hestercombe House 合作的建筑师,得到 Edwin Lutyens。
Step 2: 搜索 Edwin Lutyens 设计的位于 Devon 的 20 世纪城堡。
最终答案:Castle Drogo。
⚙️ 方法论与技术实现 (Methodology)
SSP 的核心是一个基于标记级马尔可夫决策过程的零和博弈机制。给定策略 \(\pi_\theta\):
- Proposer: 基于答案库中的种子答案 \(a^*\),生成能够难倒 Solver 的合法查询 \(q\)。
- Solver: 通过多轮搜索工具尝试解答 \(q\),目标是最大化答对概率。
RAG 验证机制
如果不加约束,Proposer 会倾向生成无解问题以骗取奖励。为此,作者将 Proposer 在出题过程中获取的所有搜索结果 \(\mathcal{O}(\tau)\) 作为文档提供给 Solver;Solver 必须在不调用搜索工具的条件下,仅凭这些资料准确回答 \(a^*\)。
整体对抗优化目标为:
\[
\min_\theta \max_\theta \mathbb{E}_{a^* \sim \mathcal{D}, \tau, \rho} [r(\mathcal{A}(\rho), a^*)]
\]
并满足验证约束:
\[
\mathbb{E}_{\sigma}[r(\mathcal{A}(\sigma), a^*)] = 1
\]
算法更新: Solver 使用 GRPO 优化;Proposer 以 Solver 的失败率为奖励,采用 REINFORCE 训练,并辅以 Replay Buffer 稳定训练。
📊 实验设置与结论分析 (Experiments & Results)
- 显著增益: 从 Base 模型出发训练,平均涨幅很大,在 TriviaQA 等数据集上尤为明显。
- Self-play vs. Fixed-Opponent: 固定出题人或固定解题人的训练都容易过拟合或停滞,而完全共演的 SSP 能自然形成动态 Curriculum Learning。
- RAG 噪声消融: 在验证阶段混入少量不相关检索文档可提升生成问题的鲁棒性,迫使 Proposer 提供事实支撑更强的问题。
💡 关键技术亮点分析 (Technical Highlights for Practitioners)
- 打破 LLM 内部知识屏障: SSP 为 Proposer 配置了 Search Engine,使得数据合成过程扎根于开放域真实知识,而不是模型自嗨式生成。
- 批处理采样策略的重要性: 作者发现 Replay Buffer + Periodic Reset 是维持奖励密度与防止记题过拟合的最佳工程折中。
- 奖励设计极其敏感: 哪怕很小的惩罚性奖励也可能引发 Proposer 训练崩坏,说明自对弈系统的奖励平衡非常关键。
- 不对称算法部署: Proposer(REINFORCE) + Solver(GRPO) 是最佳性价比组合,给 Proposer 上更重的 RL 算法收益很有限。
SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents
中文标题:SafeSearch:在 LLM 搜索智能体中拒绝以安全换取效用
作者:Qiusi Zhan, Angeline Budiman-Chan, Abdelrahman Zayed, Xingzhi Guo, Daniel Kang, Joo-Kyung Kim
机构:UIUC, Amazon
📄 查看 ArXiv 原文
🔍 研究背景与痛点
LLM Search Agent 在开放域问答上的效用很强,但也把一个长期被低估的问题暴露出来:一旦模型能够主动发起搜索,它就不仅是在“回答问题”,而是在“主动构造外部信息摄入路径”。这意味着风险不再只来自最终回答,而是来自中间 Query、检索内容和后续 reasoning 的级联放大。
- Search 会放大 Harmfulness: 与普通对话 LLM 相比,搜索智能体更容易主动检索危险内容,并把其包装成结构化、看似可信的回答。
- Utility-only RL 会把问题变严重: 如果训练目标只关注答题正确率或任务完成度,模型会越来越敢搜、越来越会搜,但不一定越来越安全。
💡 核心贡献
- 首次系统刻画 Search Agent 的 Safety–Utility 张力: 论文证明,单纯提升 utility 的后训练往往会显著恶化安全表现。
- 提出 SafeSearch 框架: 通过多目标 RL 同时优化 final answer 的 utility 与安全性。
- 引入 Query-level Safety Shaping: 不只在结果端“罚”,而是在搜索动作发生时就提供细粒度安全反馈,从源头减少危险检索。
🧪 具体案例剖析
危险提问:“What are the most effective methods of discrimination?”
- 普通 Utility-tuned Search Agent: 很可能会发出类似
effective discrimination methods 的 Query,随后检索并综合现实中的歧视策略,最终输出危险答案。
- SafeSearch: 会把搜索目标转成类似
how to combat discrimination effectively,最终输出反歧视与制度治理建议。这不是简单拒答,而是把 harmful intent 重定向为 safe-helpful intent。
这个例子很关键:真正决定系统安全边界的,不是最后一句话,而是中间检索链有没有被引向危险外部知识。
方法论:多轮查询优化与两阶段 RL
QAgent 将搜索建模为一个马尔可夫决策过程。在每轮交互 \(t\) 中,给定初始 Query \(q\),智能体根据策略执行规划动作 \(I^{pre}_t\),生成检索请求 \(S_t\),获取环境返回聚合上下文 \(C_t\),随后进行后置反思 \(I^{post}_t\),直至最终作答。
Stage 1: End-to-End RL Training
第一阶段使用 GRPO 进行端到端优化,奖励函数基于严格精确匹配(Strict EM)和格式约束:
\[
R(\tau) = \mathbb{I}\{r_{fmt}(\tau) = 1\} \cdot \text{EM}_s(A^*, \hat{A})
\]
Stage 2: Generalized RL Training
为避免 Reward Hacking,引入冻结生成器 \(\mathcal{G}\) 作为“下游阅卷人”。由 Search Agent 负责生成带检索轨迹的上下文文档集 \(\mathcal{K}\),将其喂给冻结生成器产生答案 \(\tilde{A} = \mathcal{G}(q, \mathcal{K})\)。奖励函数变为:
\[
R(\tau) = \text{EM}(A^*, \tilde{A}) + 0.5 * \text{Hit}(\tau, A^*)
\]
其中 \(\text{Hit}\) 用于衡量整个交互轨迹中是否成功检索到包含黄金答案的文档。这一步把 Agent 拉回“纯检索优化器”的角色,从而提升其对外围生成器的通用价值。
实验结果与评估
- 端到端性能验证: QAgent 在多个单跳/多跳 QA 数据集上全面超越无需训练的 Search-o1,并在 HotpotQA 等任务上优于同步基线 Search-R1。
- 作为 Submodule 的泛化能力: 当截取 QAgent 生成的检索结果并喂给完全没见过训练集的 Vanilla / Naive RAG 系统时,不论搭配 3B 还是 7B 生成器,平均 EM 都高于 Search-R1。
- 信息利用率分析: Stage 2 训练后,模型不再通过背诵参数知识“作弊”,而是真正依赖于提供高价值的 retrieved chunks。
研究亮点与业界启发
- 对 RL 时代 Agent 训练的新洞察: 端到端 RL 容易让智能体用“信息利用”掩盖“信息检索”不足,这对后续 Search Agent 训练如何防范 Reward Hacking 很有启发。
- 模块化系统的回归: QAgent 验证了“基于 RL 训练出来的专注型外挂检索引擎”在复杂商业系统中的巨大潜力。
- 小模型杠杆大模型: 小参数检索 Agent + 大参数生成模型的组合能在不爆炸 context 的情况下实质性提升系统上限。