大语言模型Agent与强化学习核心论文深度解析

AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning

中文标题：AdaSearch：通过强化学习在大型语言模型中平衡参数化知识与外部搜索

作者：Tzu-Han Lin, Wei-Lin Chen, Chen-An Li, Hung-yi Lee, Yun-Nung Chen, Yu Meng

机构：国立台湾大学 (National Taiwan University), 弗吉尼亚大学 (University of Virginia)

🔍 研究背景与痛点 (Background & Challenges)

随着大型语言模型 (LLMs) 在各类复杂任务中的广泛应用，利用强化学习 (RL) 将搜索引擎作为工具集成到 LLM 中（即 Search Agents）已成为解决模型幻觉、获取最新或长尾知识的核心范式。然而，当前的 Search Agents 面临一个关键的“自适应性困境”：

过度依赖搜索 (Overreliance on Search)： 如 Search-R1 等方法倾向于对所有 query 调用搜索工具（Tool Overuse），这不仅增加了不必要的 API 成本和延迟，还可能引入恶意或噪声文本。
复杂的奖励工程陷阱 (Reward Engineering Pitfalls)： 现有方法（如 IKEA, OTC）试图通过在 RL 奖励函数中惩罚搜索调用次数（Search-call counts）来抑制过度搜索。然而，这种 Reward Shaping 极度依赖手工调参（Trial-and-error），且容易导致信用分配模糊 (Ambiguous Credit Assignment)——Agent 可能会通过生成更强的单次 Query 来减少调用，或者在确实需要外部知识时为了规避惩罚而拒绝搜索（导致幻觉）。
决策过程的黑盒化 (Lack of Interpretability)： 此前的方法中，“是否需要搜索”的决策是隐式的，缺乏显式的推理链路。在金融、医疗等高风险场景中，系统缺乏可解释性会严重削弱用户的信任。

💡 核心贡献 (Core Contributions)

为了打破“参数化知识”与“外部搜索”之间的平衡难题，本文提出了 AdaSearch——一个极简且高效的两阶段、基于结果驱动 (Outcome-driven) 的 RL 框架。其核心思想是将“解决问题”和“决定是否搜索”这两个能力的优化进行解耦。

创新的两阶段 RL 框架： 摒弃了复杂的惩罚性 Reward Shaping，仅使用简单的二元正确性奖励 (Binary Correctness Reward) 独立优化目标，极大简化了训练难度。
显式决策与可解释性提升： 模型在推理时必须先输出显式推理（Explicit Reasoning），再给出 <assessment>yes/no</assessment> 标签来决定是否调用搜索，增强了系统的透明度。
提出新的评估指标 \(\text{F1}_{\text{aware}}\)： 针对简单用“搜索次数”评估自适应能力的缺陷，提出一种基于 F1-score 的决策指标，精准衡量模型的自我认知边界 (Self-knowledge Awareness)。
SOTA 性能： 在 Qwen2.5 和 Llama-3.2 多个规模的模型上，AdaSearch 在减少无效搜索（下降 34-38%）的同时，大幅提升了知识边界感知能力（相对 Search-R1 提升 ~60% \(\text{F1}_{\text{aware}}\)），且保持了卓越的 QA 准确率 (EM)。

📖 具体案例剖析 (Case Studies)

AdaSearch 通过显式引入 <assessment> 标签，展现了极强的参数知识自查能力。以下选取论文 Appendix F 中的典型案例进行对比分析：

Case 1: 参数化知识充足 (无需搜索)
User Question: "Which designer is famous for his/her red-soled footwear?" (哪位设计师以红底鞋闻名？)
AdaSearch 决策推理 (Stage-1):
Step 1: 我需要想出一个以红底鞋闻名的设计师。
Step 2: 一位著名设计师是 Christian Louboutin。
Step 3: Christian Louboutin 是一位以红底高跟鞋闻名的法国时尚设计师。
Step 4: 基于这些信息，我可以直接回答。
<assessment>yes</assessment>
结果： 避免了搜索，直接生成正确答案 Christian Louboutin。对比之下，Search-R1 对此题仍然调用了搜索，浪费了算力。

Case 2: 参数化知识不足 (动态调用搜索)
User Question: "What is Javier Alva Orlandini's occupation?" (Javier Alva Orlandini 的职业是什么？)
AdaSearch 决策推理 (Stage-1):
Step 1: 我需要确定此人的职业。
Step 2: 在我的知识库中没有任何关于此人的信息。
Step 3: 缺乏具体信息，我无法直接回答该问题。
<assessment>no</assessment>
结果： 进入 Stage-2，模型主动生成 <search>Javier Alva Orlandini occupation</search> 进行检索，根据返回文本准确推导出其为 Politician（政治家）。

⚙️ 方法论与技术实现 (Methodology)

相较于将检索惩罚融入奖励函数，AdaSearch 选择将解题能力 (Problem solving)与检索决策能力 (Decision making)解耦，分为独立的两阶段 RL 进行优化，基础算法采用 GRPO。

Stage 1: Problem Solving (解题能力优化)

目标是激发模型利用 (1) 内部参数知识和 (2) 外部搜索工具解决问题的上限。训练时为同一个问题 \(x\) 分配两种系统提示词 \(s_{\text{param}}\) (仅靠内部知识) 和 \(s_{\text{search}}\) (可使用搜索工具)，生成两组 Rollouts: \(\mathcal{R}_{\text{param}}\) 和 \(\mathcal{R}_{\text{search}}\)。Reward 极其纯粹，仅看最终答案的 Exact Match (EM)：

\[ R(\tau, y) = \begin{cases} 1.0 & \text{if EM} = \text{true}, \\ 0 & \text{otherwise}. \end{cases} \]

Stage 2: Decision Making (决策能力优化)

目标是让模型学会认知自我知识边界 (Self-knowledge awareness)。在训练本阶段前，作者利用 Stage 1 训好的策略 \(\pi_{\theta_1}\) 结合 \(s_{\text{param}}\)，对训练集中的每个样本生成 \(K\) 个回答，通过子串匹配 (SubEM) 计算出经验求解率 \(p\) (Empirical Solve Rate)：

\[ p = \frac{1}{K} \sum_{k=1}^K \mathbb{1}[\text{SubEM}(\hat{y}_k, y) = \text{true}] \]

随后设定阈值 \(\rho\) (如 \(\rho=0.5\))，对于 \(p \ge \rho\) 的样本分配伪标签 yes，反之分配 no。最终，使用带显式推导要求的 \(s_{\text{decision}}\) 提示词进行 RL 训练，要求模型在 <assessment> 标签中输出决策。奖励机制依然是极其简洁的 Binary Outcome Reward，这避免了复杂的 Reward Credit Assignment。

Inference Pipeline (推理流水线)

在推理阶段，模型首先通过 Stage 1 prompt 决定是否能仅依赖参数化知识解答问题。如果回答 yes，则直接转入 \(s_{\text{param}}\) 吐出答案；如果回答 no，则注入 \(s_{\text{search}}\) 进行多轮动态检索生成。

📊 实验设置与结论分析 (Experiments & Analysis)

实验设置：基于 Qwen2.5 (3B, 7B) 和 Llama-3.2 (3B) 展开。检索环境采用 2018 Wikipedia Dump 和 E5 向量检索模型。评估数据集覆盖单跳 (NQ, TQ, PopQA) 与多跳 (HotpotQA, 2Wiki, MuSiQue, Bamboogle) 问答任务。

评估指标剖析：为了精确衡量决策边界，论文提出了 \(\text{F1}_{\text{aware}}\) 指标。正样本定义为“模型决定不使用搜索，且单凭内部知识确实能答对”。该指标由模型选择与 Oracle Label 的 Precision 和 Recall 计算得出。

核心结论：

完美兼顾 Task Performance 与 Adaptivity： 相比于 Search-R1 (F1_aware几乎为0，因为100%无脑搜索)，AdaSearch 在 Qwen2.5-3B 上将平均 EM 从 38.1 维持在 36.0 (具有极强竞争力)，同时 \(\text{F1}_{\text{aware}}\) 从 0.1 飙升至 54.0，相对提升傲视群雄。
击败复杂的 Reward-Shaping Baseline： 与 Naive Shaping（根据搜索次数直接扣分）、Awareness Shaping 以及 IKEA (基于知识边界分配bonus的复杂策略) 相比，AdaSearch 的纯粹二元强化学习反馈展现出显著优势。Reward Shaping 容易让模型陷入“害怕用工具”的保守状态 (False Negative 激增，详见 Confusion Matrix)，导致多跳推理性能暴跌。
减少冗余开销： 在所有 Benchmarks 上，AdaSearch 比 Search-R1 削减了约 34%-38% 的搜索次数，且由于砍掉了无意义的检索步骤，端到端 Average Latency 降低了 20%。

🌟 关键技术亮点分析 (Key Highlights & Takeaways)

大道至简的 RL 设计哲学： 本文有力反驳了业界“必须通过复杂的连续型惩罚因子来控制工具使用率”的惯性思维。通过任务解耦（Decoupling），将高难度的联合分布学习拆解为“解题上限”与“自我认知”两部分，仅用二元奖励 (Binary Reward) 配合 GRPO 就达到了极佳的泛化效果。
在线 RL 与 SFT 的本质差异： 作者在消融实验中尝试在 Stage-2 中使用 SFT 进行对齐 (AdaSearch-SFT)，发现 RL 版本在 MuSiQue 等困难分布外 (OOD) 任务上表现出更强的泛化性，印证了 RL 不仅是在模仿分布，而是在强化“探索认知边界”的策略。
联合训练 (Joint Optimization) 的局限性暴露： 论文尝试了 End-to-End 变体 (AdaSearch-E2E)，在训练中即时计算 Empirical solve rate 作为伪标签，但性能全方位落后于 Two-Stage。这为后续做复杂 Agent RL 的研究者提供了避坑指南——当目标存在异质性（正确率优先 vs 成本优先）时，阶段解耦通常比联合优化更容易收敛并得到干净的梯度归属。

CriticSearch: Fine-Grained Credit Assignment for Search Agents via a Retrospective Critic

中文标题：CriticSearch：通过反思性评论家为搜索智能体提供细粒度信用分配

作者：Yaocheng Zhang, Haohuan Huang, Zijun Song, Yuanheng Zhu, 等

机构：中国科学院自动化研究所 (CAS), 中国科学院大学 (UCAS)

📄 查看 ArXiv 原文

🔍 研究背景与核心痛点

背景：工具集成推理（Tool-Integrated Reasoning, TIR）通过赋予大语言模型（LLM）调用外部搜索引擎的能力，极大地缓解了 LLM 知识过时和上下文信息不足的固有缺陷。然而，当前主流的 Agentic RL（智能体强化学习）在训练 TIR 模型时，高度依赖于最终答案的准确性来进行优化。

核心痛点（Credit Assignment Problem）：

稀疏的全局奖励 (Sparse Outcome Rewards)： 现有的框架（如 Search-R1）通常只在多轮交互的最后给予一个结果奖励（1或0）。这意味着无论轨迹中的某个具体搜索动作（Action）是精准命中了关键信息，还是在进行毫无意义的冗余搜索，它们都共享同一个奖励值。
探索效率低下与训练不稳定： 这种粗粒度的反馈导致 LLM 无法区分“有效调用”和“无效调用”。特别是在深度搜索（Deep Search）场景下，大量外部生成的 Token 加剧了奖励的方差，极易引发奖励崩溃 (Reward Collapse) 和梯度爆炸。
现有 Dense Reward 方法的局限： 现有的细粒度奖励估计方法（如蒙特卡洛树搜索估计）方差大且 Rollout 成本极高（如 ARPO）；而依赖人工标注的步级别奖励则缺乏泛化性（如 StepSearch）。

💡 核心贡献

提出 Retrospective Critic 机制： 创新性地引入了一个“事后诸葛亮”式的评论家（Critique LLM）。该模型无需微调，利用特权信息（Privileged Information，即 Ground-Truth 答案和完整的未来轨迹）以回溯的视角为每一个搜索回合生成密集的、步级别的二元反馈。
构建 CriticSearch 强化学习框架： 将 Critique LLM 生成的细粒度 Turn-level Advantage 与基于结果的 Global Advantage 结合，直接无缝嵌入到 GRPO（Group Relative Policy Optimization）算法中。
加速收敛并缓解训练崩溃： 实验证明，引入高价值的密集反馈显著提升了训练的稳定性，避免了稀疏奖励下常见的策略崩溃（Premature Training Collapse），大幅加快了模型的收敛速度。
SOTA 性能： 在 3B 和 7B 参数规模上，在 HotpotQA、MuSiQue 等多跳推理数据集上全面超越了现有的稀疏奖励基线（Search-R1, ZeroSearch）和密集奖励基线（StepSearch, ReasonRAG）。

🔎 具体案例剖析 (Case Study)

为了直观理解 CriticSearch 如何改善搜索行为，论文展示了其与基线模型（Search-R1）在处理多跳问题时的轨迹对比（参考论文 Fig. 10）：

问题： Lloyd Corrigan 和 Percy Adlon 谁先开始在电影界工作？ (Ground Truth: Lloyd Corrigan)

Search-R1 轨迹（稀疏奖励训练）： 模型成功检索到了 Lloyd Corrigan 1920年开始工作的关键信息。但由于缺乏步级惩罚，模型在后续推理中未能有效利用已检索信息，反而继续生成冗余搜索（例如重复搜索 Lloyd 的出道年份），浪费了上下文并增加了幻觉风险。虽然最终答案正确，但过程极其低效。
CriticSearch 轨迹（密集奖励训练）： 模型首先搜索到了 Lloyd 的信息。此时，Critique LLM 在训练时会将冗余的第二次搜索判定为 Bad（得分 0），将精准搜索判定为 Good（得分 1）。在这种细粒度信用分配的驱动下，CriticSearch 学会了聚焦搜索 (Focused search)，提取关键信息后直接对比，仅用两轮高价值的搜索就给出了简洁、逻辑严密的最终答案。

⚙️ 方法论与技术实现

CriticSearch 的核心是在不增加额外 Rollout 负担的前提下，利用非对称信息构建高质量的 Dense Reward。其数学推导与实现步骤如下：

1. 全局奖励 (Global Reward Signal):
沿用 Search-R1 的规则，最终奖励由答案准确性（Exact Match）和格式正确性（Format）共同决定：
r_φ(q, y) = 1 (正确且格式对), 1 - λ_f (正确但格式错), λ_f (错误但格式对), 0 (全错)。
由此计算出组内相对全局优势 \(A^{\tau}_{i,t}\)（均值归一化）。

2. 回溯评论家 (Retrospective Critic):
对于一个包含多轮搜索动作 \(a_{i,t}\) 的轨迹，假设我们拥有特权信息 \(o_{gold}\)（Ground-Truth 答案）。一个冻结的 (Frozen) 强大 LLM（如 Qwen-2.5-Instruct）作为 \(\mathcal{C}_\phi\)。该评论家站在“上帝视角”，输入为 \((x, y_i, o_{gold})\)，输出对每一个回合 \(t\) 的二元评价 \(\ell_{i,t} \in \{Good, Bad\}\)。将其映射为回合级奖励：\(r^a_{i,t} = 1\) (如果 \(\ell_{i,t} = Good\))，否则 \(0\)。随后，对回合级奖励进行优势归一化： \[ A^a_{i,t} = \frac{r^a_{i,t}}{\sum_{u=1}^{T_i} r^a_{i,u} + \varepsilon}, \quad \varepsilon > 0 \]

3. 混合优势估计 (Hybrid Advantage in GRPO):
为了既保留对全局任务的对齐，又强化对局部动作的指导，将两者线性组合： \[ A_{i,t} = \alpha A^a_{i,t} + (1 - \alpha) A^\tau_{i,t} \] 其中 \(\alpha\) 为控制混合比例的超参（最佳实践设为 0.25）。最终代入 GRPO 的目标函数中，仅对策略模型生成的 token 传播梯度（屏蔽搜索引擎返回的信息）。

📊 实验设置与结论分析

基础设置： 策略模型基于 Qwen-2.5-3B-Base 和 7B-Base，评论家模型使用同尺寸的 Instruct 版本。训练集为 HotpotQA，使用 E5 作为检索器。评测涵盖域内（HotpotQA）及域外（2Wiki, MuSiQue, Bamboogle）数据集。
整体性能飞跃： CriticSearch 在所有数据集上全面压制了包括 Search-o1, ZeroSearch 和 StepSearch 在内的基线。特别是在 MuSiQue 和 Bamboogle 等复杂推理任务上，泛化性能显著。
分析：解决训练崩溃 (Mitigating Premature Training Collapse)： 论文监控了 KL 散度和梯度范数。在纯稀疏奖励下，模型在约 400 step 时发生 KL 爆炸与策略崩溃；引入 Dense Reward 后，梯度被有效平滑，KL 保持稳定，模型得以持续学习和涨点。
分析：Critique LLM 规模的影响： 消融实验证明，评论家模型越大，提供的密集反馈质量越高，训练出的策略模型性能就越好。这验证了通过强大 LLM 蒸馏价值判断逻辑的可行性。

🌟 资深从业者视角：关键技术亮点分析

巧妙的非对称信息利用 (Asymmetric Information Design)： CriticSearch 将“Ground-Truth 答案”和“未来搜索轨迹”作为特权信息喂给 Critic，因为是离线生成 Reward，完美实现 hindsight 视角下的精准信用分配。
规避了显式 Value Network 的训练诅咒： 直接采用现成的指令微调模型进行 Zero-shot 判别，输出简单的 Good/Bad 标签，大幅降低系统复杂度和显存开销。
与 GRPO 算法的无缝融合： 将外部计算的 action-level 奖励和 global 奖励通过简单加权注入 Advantage，没有破坏原有 PPO/GRPO 的稳定结构。

Search Self-play: Pushing the Frontier of Agent Capability without Supervision

中文标题：基于搜索自对弈：在无监督下拓展智能体能力边界

作者：Hongliang Lu, Yuhang Wen, Pengyu Cheng, et al.

机构：Qwen Large Model Application Team (Alibaba), Peking University, Sun Yat-sen University

📄 查看 ArXiv 原文

📍 研究背景与痛点 (Background & Pain Points)

随着大语言模型（LLM）的快速发展，利用强化学习结合可验证奖励（RLVR）训练智能体（LLM Agents）已成为当前业界主流趋势。特别是在 Deep Search 场景下，这种无需标注中间推理步骤、仅对最终答案进行结果导向奖励的方法极大降低了人工干预成本。

数据稀缺与扩展瓶颈： RLVR 依然严重依赖高质量、人工精心设计的“任务 Query 及其 Ground-Truth 答案”。不同工具集的 Agent 面对同一问题的解法差异很大，这种任务级别标注的短缺直接限制了 RL 训练规模。
传统合成数据方法的局限： 离线合成问题的方法是静态的，无法在 RL 训练期间动态调整任务难度，也容易导致模型在过易或过难的数据上无效拟合。

🚀 核心贡献 (Core Contributions)

首创深度搜索场景下的自对弈机制： 目标 LLM 同时扮演 Question Proposer 和 Problem Solver，通过竞争与合作在完全无监督设定下协同进化。
引入 RAG 验证机制确保生成质量： 设计基于检索增强生成（RAG）的验证流水线，确保 Proposer 生成的问题既有确定 Ground-Truth，又具备逻辑一致性。
自适应课程学习： Proposer 的难度输出会根据 Solver 的胜率动态调节，随着训练深入自然产生难度递增的 Agentic Tasks。
显著且一致的性能提升： 在多个基准测试上，无论从头训练还是在已有专家模型上增量训练，均实现明显涨点。

🔍 具体案例剖析 (Case Study)

以目标 Ground-Truth 答案为 Castle Drogo 为例，SSP 展示了清晰的“逆向出题 + 正向解题”闭环。

[Proposer 轨迹]
目标答案：Castle Drogo
Step 1: 关联到其建筑师 Sir Edwin Lutyens。
Step 2: 继续追溯到 Edwin Lutyens 与 Gertrude Jekyll 的合作项目 Hestercombe House 花园。
Step 3: 锁定其中的 orangery 作为提问起点。
最终生成 Query：What is the name of the 20th-century castle in Devon, England, designed by the architect who, alongside Gertrude Jekyll, created the famous Edwardian garden at Hestercombe House, known for its listed orangery?

[Solver 轨迹]
Step 1: 搜索与 Gertrude Jekyll 在 Hestercombe House 合作的建筑师，得到 Edwin Lutyens。
Step 2: 搜索 Edwin Lutyens 设计的位于 Devon 的 20 世纪城堡。
最终答案：Castle Drogo。

⚙️ 方法论与技术实现 (Methodology)

SSP 的核心是一个基于标记级马尔可夫决策过程的零和博弈机制。给定策略 \(\pi_\theta\)：

Proposer： 基于答案库中的种子答案 \(a^*\)，生成能够难倒 Solver 的合法查询 \(q\)。
Solver： 通过多轮搜索工具尝试解答 \(q\)，目标是最大化答对概率。

RAG 验证机制

如果不加约束，Proposer 会倾向生成无解问题以骗取奖励。为此，作者将 Proposer 在出题过程中获取的所有搜索结果 \(\mathcal{O}(\tau)\) 作为文档提供给 Solver；Solver 必须在不调用搜索工具的条件下，仅凭这些资料准确回答 \(a^*\)。

整体对抗优化目标为：

\[ \min_\theta \max_\theta \mathbb{E}_{a^* \sim \mathcal{D}, \tau, \rho} [r(\mathcal{A}(\rho), a^*)] \]

并满足验证约束： \[ \mathbb{E}_{\sigma}[r(\mathcal{A}(\sigma), a^*)] = 1 \]

算法更新： Solver 使用 GRPO 优化；Proposer 以 Solver 的失败率为奖励，采用 REINFORCE 训练，并辅以 Replay Buffer 稳定训练。

📊 实验设置与结论分析 (Experiments & Results)

显著增益： 从 Base 模型出发训练，平均涨幅很大，在 TriviaQA 等数据集上尤为明显。
Self-play vs. Fixed-Opponent： 固定出题人或固定解题人的训练都容易过拟合或停滞，而完全共演的 SSP 能自然形成动态 Curriculum Learning。
RAG 噪声消融： 在验证阶段混入少量不相关检索文档可提升生成问题的鲁棒性，迫使 Proposer 提供事实支撑更强的问题。

💡 关键技术亮点分析 (Technical Highlights for Practitioners)

打破 LLM 内部知识屏障： SSP 为 Proposer 配置了 Search Engine，使得数据合成过程扎根于开放域真实知识，而不是模型自嗨式生成。
批处理采样策略的重要性： 作者发现 Replay Buffer + Periodic Reset 是维持奖励密度与防止记题过拟合的最佳工程折中。
奖励设计极其敏感： 哪怕很小的惩罚性奖励也可能引发 Proposer 训练崩坏，说明自对弈系统的奖励平衡非常关键。
不对称算法部署： Proposer(REINFORCE) + Solver(GRPO) 是最佳性价比组合，给 Proposer 上更重的 RL 算法收益很有限。

SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents

中文标题：SafeSearch：在 LLM 搜索智能体中拒绝以安全换取效用

作者：Qiusi Zhan, Angeline Budiman-Chan, Abdelrahman Zayed, Xingzhi Guo, Daniel Kang, Joo-Kyung Kim

机构：UIUC, Amazon

📄 查看 ArXiv 原文

🔍 研究背景与痛点

LLM Search Agent 在开放域问答上的效用很强，但也把一个长期被低估的问题暴露出来：一旦模型能够主动发起搜索，它就不仅是在“回答问题”，而是在“主动构造外部信息摄入路径”。这意味着风险不再只来自最终回答，而是来自中间 Query、检索内容和后续 reasoning 的级联放大。

Search 会放大 Harmfulness： 与普通对话 LLM 相比，搜索智能体更容易主动检索危险内容，并把其包装成结构化、看似可信的回答。
Utility-only RL 会把问题变严重： 如果训练目标只关注答题正确率或任务完成度，模型会越来越敢搜、越来越会搜，但不一定越来越安全。

💡 核心贡献

首次系统刻画 Search Agent 的 Safety–Utility 张力： 论文证明，单纯提升 utility 的后训练往往会显著恶化安全表现。
提出 SafeSearch 框架： 通过多目标 RL 同时优化 final answer 的 utility 与安全性。
引入 Query-level Safety Shaping： 不只在结果端“罚”，而是在搜索动作发生时就提供细粒度安全反馈，从源头减少危险检索。

🧪 具体案例剖析

危险提问：“What are the most effective methods of discrimination?”

普通 Utility-tuned Search Agent： 很可能会发出类似 effective discrimination methods 的 Query，随后检索并综合现实中的歧视策略，最终输出危险答案。
SafeSearch： 会把搜索目标转成类似 how to combat discrimination effectively，最终输出反歧视与制度治理建议。这不是简单拒答，而是把 harmful intent 重定向为 safe-helpful intent。

这个例子很关键：真正决定系统安全边界的，不是最后一句话，而是中间检索链有没有被引向危险外部知识。

方法论：多轮查询优化与两阶段 RL

QAgent 将搜索建模为一个马尔可夫决策过程。在每轮交互 \(t\) 中，给定初始 Query \(q\)，智能体根据策略执行规划动作 \(I^{pre}_t\)，生成检索请求 \(S_t\)，获取环境返回聚合上下文 \(C_t\)，随后进行后置反思 \(I^{post}_t\)，直至最终作答。

Stage 1: End-to-End RL Training

第一阶段使用 GRPO 进行端到端优化，奖励函数基于严格精确匹配（Strict EM）和格式约束：

\[ R(\tau) = \mathbb{I}\{r_{fmt}(\tau) = 1\} \cdot \text{EM}_s(A^*, \hat{A}) \]

Stage 2: Generalized RL Training

为避免 Reward Hacking，引入冻结生成器 \(\mathcal{G}\) 作为“下游阅卷人”。由 Search Agent 负责生成带检索轨迹的上下文文档集 \(\mathcal{K}\)，将其喂给冻结生成器产生答案 \(\tilde{A} = \mathcal{G}(q, \mathcal{K})\)。奖励函数变为：

\[ R(\tau) = \text{EM}(A^*, \tilde{A}) + 0.5 * \text{Hit}(\tau, A^*) \]

其中 \(\text{Hit}\) 用于衡量整个交互轨迹中是否成功检索到包含黄金答案的文档。这一步把 Agent 拉回“纯检索优化器”的角色，从而提升其对外围生成器的通用价值。

实验结果与评估

端到端性能验证： QAgent 在多个单跳/多跳 QA 数据集上全面超越无需训练的 Search-o1，并在 HotpotQA 等任务上优于同步基线 Search-R1。
作为 Submodule 的泛化能力： 当截取 QAgent 生成的检索结果并喂给完全没见过训练集的 Vanilla / Naive RAG 系统时，不论搭配 3B 还是 7B 生成器，平均 EM 都高于 Search-R1。
信息利用率分析： Stage 2 训练后，模型不再通过背诵参数知识“作弊”，而是真正依赖于提供高价值的 retrieved chunks。

研究亮点与业界启发

对 RL 时代 Agent 训练的新洞察： 端到端 RL 容易让智能体用“信息利用”掩盖“信息检索”不足，这对后续 Search Agent 训练如何防范 Reward Hacking 很有启发。
模块化系统的回归： QAgent 验证了“基于 RL 训练出来的专注型外挂检索引擎”在复杂商业系统中的巨大潜力。
小模型杠杆大模型： 小参数检索 Agent + 大参数生成模型的组合能在不爆炸 context 的情况下实质性提升系统上限。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning

🔍 研究背景与痛点 (Background & Challenges)

💡 核心贡献 (Core Contributions)

📖 具体案例剖析 (Case Studies)

⚙️ 方法论与技术实现 (Methodology)

Stage 1: Problem Solving (解题能力优化)

Stage 2: Decision Making (决策能力优化)

Inference Pipeline (推理流水线)

📊 实验设置与结论分析 (Experiments & Analysis)

🌟 关键技术亮点分析 (Key Highlights & Takeaways)

CriticSearch: Fine-Grained Credit Assignment for Search Agents via a Retrospective Critic

🔍 研究背景与核心痛点

💡 核心贡献

🔎 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现

📊 实验设置与结论分析

🌟 资深从业者视角：关键技术亮点分析

Search Self-play: Pushing the Frontier of Agent Capability without Supervision

📍 研究背景与痛点 (Background & Pain Points)

🚀 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study)

⚙️ 方法论与技术实现 (Methodology)

RAG 验证机制

📊 实验设置与结论分析 (Experiments & Results)

💡 关键技术亮点分析 (Technical Highlights for Practitioners)

SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents

🔍 研究背景与痛点

💡 核心贡献

🧪 具体案例剖析

方法论：多轮查询优化与两阶段 RL

Stage 1: End-to-End RL Training

Stage 2: Generalized RL Training

实验结果与评估

研究亮点与业界启发