大模型 Agent 与强化学习 (RL) 深度学术解读报告

Learning to Retrieve from Agent Trajectories

从Agent轨迹中学习检索:为Agentic Search量身打造的Retriever训练新范式

作者:Yuqi Zhou, Sunhao Dai, Changle Qu, Liang Pang, Jun Xu, Ji-Rong Wen

机构:中国人民大学高瓴人工智能学院,中科院计算所AI安全重点实验室

📄 查看 ArXiv 原文

1. 研究背景与痛点

传统的信息检索(IR)系统,无论是早期的稀疏检索(BM25)还是现代的 Dense Embedding 模型,其训练范式和监督信号(如点击、停留时间等)都是围绕人类用户(Human-centric)设计的。然而,随着像 DeepResearch 等长逻辑链 Search Agent 的崛起,现代搜索引擎的“主要消费者”正迅速从人类转变为自主运行的 Agent。

Agentic Search 范式中,原有的假设被彻底打破:

2. 核心贡献

为了解决上述 Mismatch,本文突破性地提出了Learning to Retrieve from Agent Trajectories (LRAT)的新范式。核心贡献如下:

3. 具体案例剖析 (Case Study)

理解 LRAT 的前提是理解深层研究 Agent 的执行轨迹(Execution Trajectory)。一个典型的 Agent 轨迹呈现出不断交替的 [Think][Action] 循环。例如:

User Query: Which station merged with Immaculate Heart Radio in 2017?

[Think]: 目前还没有关于合并的信息。我们需要搜索关于 2017 年合并的具体细节。

[Search]: Search["Immaculate Heart" "merged" "2017"]

[Information]: (Retriever返回前10名候选文档及Snippet)
Doc [3948]: Immaculate Heart Radio...
Doc [2295]: corporate name Relevant Radio, Inc...

[Think]: Doc [2295] 的摘要里提到了 Relevant Radio,里面可能包含具体的合并日期,我们仔细阅读一下这篇文档内容。

[Browse]: Browse[DocID: 2295]

[Information]: (返回完整全文,确认了合并方)

[Think]: (经过几百 Token 的推理计算) 我已经找到答案了,电台是 WMJR...

[Answer]: The station is WMJR (Nicholasville, KY).

在这个案例中,Agent 放过了 Doc [3948] 而主动选择 [Browse] 候选列表中的 Doc [2295],并在浏览后生成了大量的高质量 [Think] 思考。这构成了极佳的天然隐式反馈,指示着在特定 Query 上下文下,文档真实的“功能性效用”。

4. 方法论与技术实现

如图所示,LRAT 的技术管线主要包含两大部分:监督信号挖掘与相关性强度感知的网络训练。

4.1 挖掘逐步精炼的监督信号

4.2 强度感知训练 (Intensity-Aware Training)

这是全篇最精彩的机制迁移之一:经典 IR 中有一个公认的结论——用户在一个网页停留的时间(Dwell Time)越长,该网页越相关。在 LLM 身上,这一表现被映射为了“推理计算消耗”(Post-browse Reasoning Length)。Agent 浏览高价值线索后,往往会生成很长的 Thought 链来进行深层逻辑推演。

受时间感知点击模型的指数饱和效应启发,作者使用 Agent 在浏览动作后的生成的 Token 数量 $l$ 计算平滑相关性权重 $w$:

$$ w = \frac{1}{\mu_{\text{raw}}} \left( 1 - \exp\left(-\frac{\ln 2 \cdot l}{\beta}\right) \right) $$

其中,$\beta$ 是所有轨迹中推理长度的中位数作为半衰参数,使得边际效用随着 Token 增多而逐渐饱和,防止极端异常长的输出带崩梯度。

最终,将该权重纳入经典的 InfoNCE 损失函数中,指导基于 Bi-encoder 的 Dense Retriever 微调(带权重强度的对比学习):

$$ \mathcal{L} = - \frac{1}{N} \sum_{i=1}^{N} w_i \cdot \log \frac{\exp(s(q_i, d_i^+)/\tau)}{\exp(s(q_i, d_i^+)/\tau) + \sum_{d^- \in \mathcal{N}_i} \exp(s(q_i, d^-)/\tau)} $$

5. 实验设置与结论分析

实验基准与基座设置:使用面向 Agent 的复杂深层搜索评测集 InfoSeek-Eval(In-Domain)和 BrowseComp-Plus(OOD)。Retriever 选用 Multilingual-E5-Large 和 Qwen3-Embedding-0.6B;搭配的 Agent 涵盖了小参数专项模型(如 AgentCPM 4B)至通用千亿参数模型(如 GPT-OSS-120B, GLM-4.7-358B)。

6. 关键技术亮点与从业者启发

突破大语言模型智能体能力边界:策略引导的探索

Expanding LLM Agent Boundaries with Strategy-Guided Exploration

作者机构:Andrew Szot, Michael Kirchhof, Omar Attia, Alexander Toshev (Apple)

论文链接:📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

在后训练阶段(Post-training)引入强化学习(RL)是当前提升 LLM Agent 复杂任务能力(如计算机控制、工具调用、代码生成)的核心驱动力。然而,在 Agentic 场景下,探索(Exploration)面临着极为严峻的挑战:

为了解决上述问题,当前领域内尝试了如熵正则化(Entropy Regularization)、基于随机网络蒸馏的内在奖励(RND)等方法,但在重度依赖逻辑推理的 Agentic 环境中效果有限(增加输出 Token 的熵往往只会带来语法错误或坐标偏移,而非语义上的有效探索)。

💡 核心贡献 (Core Contributions)

Apple 研究团队提出了一种极具工程实用价值且无需额外模型的探索方法——策略引导的探索(Strategy-Guided Exploration, SGE)。其核心逻辑是:将探索的空间从底层的“动作空间”转移到高层的“自然语言策略空间”。主要贡献包括:

  1. 策略提示(Strategy Prompting): 强制 LLM 在输出具体的执行动作前,先生成一段精炼的自然语言策略(Strategy),描述如何向目标推进。
  2. 混合温度采样(Mixed-Temperature Sampling): 针对 Rollout 数据收集阶段,采用不对称的温度设定:用高温度(如 $T=1.2$)采样策略 Token 以最大化高维探索,用低温度(如 $T=0.7$)采样动作 Token 以保证代码/UI操作的精确执行。
  3. 策略反思(Strategy Reflection): 在 Rollout 阶段引入 In-context 历史反馈,将之前失败(或成功)的策略喂给当前 Prompt,要求模型进行自我批判并生成截然不同的新策略,打破同质化采样的死循环。
  4. 突破 Base Model 极限: 在 UI 交互、工具调用、多步编程和具身智能四个跨度极大的领域全面超越了 GRPO、EntropyAdv、RND 等 Baseline,最关键的是,SGE 成功突破了基座模型的 pass@k 上限,证明其真正学到了 Base Model 无法通过简单随机采样解决的新任务。

🛠 具体案例剖析 (Case Study)

为了直观感受 SGE 与标准 RL 采样的差异,我们来看两个论文中的具体 Case:

Case 1: AndroidWorld 环境中的 UI 交互探索

任务: 在 Markor APP 中创建一个名为 calm_umbrella_backup.txt 的新笔记。当前屏幕状态已经输入了文件名,但扩展名默认是 .md,需要改成 .txt
标准采样(GRPO): 面对屏幕截图,由于缺少高层指导,模型倾向于在输入框的文字坐标附近盲目尝试点击,甚至尝试通过打字来修改扩展名,但 UI 逻辑要求必须点击“扩展名下拉菜单”。
SGE 采样: 借助混合温度采样,SGE 在高层策略空间展开探索,生成了诸如:“I need to indicate that the file should be named... with the .md extension, so I select the name field...” 这样的策略。在多次 Rollout 中,某一次高温度生成的策略成功意识到了需要点击下拉菜单,随后低温度的动作生成精确预测了该 UI 元素的 $(x,y)$ 坐标,从而获得正向 Reward 供 RL 更新。

Case 2: 编程环境中的“负面策略反思(Negative Reflection)”

任务: LeetCode Hard 级别的两人相遇点计算。
失败的历史策略: 智能体之前生成的策略错误地假设了“相遇建筑必须严格在两人初始位置的右侧且高于两者”。
SGE 注入的 Reflection Prompt: Here is my previous FAILED strategy: ... First, critique the failed strategy and how it can be fixed. Be precise...
SGE 新生成的修正策略: 智能体在 Prompt 引导下输出:“The previous failed approach incorrectly assumes that... While this condition is necessary, it is not sufficient... Critical Insight: The movement rule says that...”。通过直接把过去的坑作为 Context 传入,模型被强迫探索出了新的算法路径,避免了在同一个死胡同里浪费大量的 RL 采样算力。

⚙️ 方法论与技术实现 (Methodology & Implementation)

SGE 的实现非常优雅,它完全不改动基础强化学习算法(如 GRPO)的损失函数和梯度更新机制,仅仅在数据收集(Rollout)阶段的采样机制上做文章。

1. 策略提示与概率分布重构

将标准的思维链采样 $y_1 \sim \pi(\cdot \mid g, o_1)$ 改造成先进行策略采样。整个输出的分布变为: $$ \pi(a_t|y_t, s_t, o_t) \pi(y_t|s_t, o_t) S_\pi(s_t|o_t) $$ 其中 $S_\pi$ 代表特定的策略采样分布,它由特制的 Prompt 和独立配置的温度参数构成。

2. 混合温度采样 (Mixed-Temperature Sampling)

在推理生成阶段,对同一个输出流实施两段式温度控制:

3. 策略反思 (Strategy Reflection)

为防止在一次 PPO/GRPO 迭代中并行生成的 $K$ 条轨迹同质化,SGE 维护了一个策略回放缓冲区。 在训练循环的 Rollout 阶段,维护两个集合:成功策略缓存 $\mathcal{B}_G$ 和失败策略缓存 $\mathcal{B}_B$。

以概率 $p_B$(如 0.25)触发负面反思:从 $\mathcal{B}_B$ 随机采样一条同任务下曾经失败的策略(如果环境支持,还会附带 Error Log 比如测试失败输出),拼接到 Prompt 中,迫使模型反思并输出新策略。
以概率 $p_G$(如 0.1)触发正面反思:从 $\mathcal{B}_G$ 提取成功策略,要求模型受此启发生成变体,从而提升学习效率并维持高熵状态。

📊 实验设置与结论分析 (Experiments & Analysis)

实验环境:涵盖 4 个不同维度的 Agent 任务,分别是 AndroidWorld(多步视觉UI控制)、Language Rearrangement(三维具身智能物体重排)、Coding(LeetCode Hard 多步代码修改)、AppWorld(多步API调用)。
基座模型:Qwen2.5-VL-3B (Android), Qwen3-4B-Instruct (LangR, Coding), Qwen3-8B (AppWorld)。
Baseline:标准的 GRPO,以及强化探索的 Entropy Advantage、RND(随机网络蒸馏)、RLAD(抽象发现强化学习)。

核心结论:

  1. 显著提升最终 RL 性能: SGE 在四个环境中的平均相对成功率比表现最好的 Baseline 高出 27%。
  2. 成功突破 Base Model 极限 (Max Pass@k): 论文中极其重要的一项发现是:在多轮 Coding 任务中,Base Model 的 Pass@2048 极限停留在 69%(意味着无论怎么采样都无法解决剩下的 31% 问题)。最好的 Baseline (GRPO) 最终训练收敛的 Pass@1 仅为 64%,无法获得新能力。而 SGE 训练后的单次执行成功率达到了 73%,实打实地跨越了基座的认知边界,解锁了新技能。
  3. 优异的泛化性 (Generalization): 在 Zero-Shot 评测未见过的测试集任务时(Table 1),SGE 同样全面领先。例如在 AndroidWorld 中,SGE 的泛化成功率为 36.7%,而 GRPO 仅为 21.9%。
  4. 消融实验与缩放定律: 移除混合温度采样会导致性能骤降,表明单纯的全局高温度采样对 Agent 而言是灾难。此外,实验表明 SGE 的发挥极度依赖基座模型本身的推理底座:在 600M 模型上 SGE 几乎无效,在 4B 和 8B 模型上增益极为显著。

🌟 关键技术亮点分析 (Technical Highlights)

大语言模型的 Agent 技能:架构、获取、安全及未来发展方向

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

作者:Renjun Xu, Yang Yan

机构:浙江大学 (Zhejiang University, China)

📄 查看 ArXiv 原文

💡 研究背景与痛点

随着大语言模型 (LLMs) 能力的飞速扩展,它们作为自主智能体 (Autonomous Agents) 在实际应用中面临着一个根本性矛盾:通用模型具备广泛的世界知识,但极度缺乏解决现实世界复杂任务所需的专业领域程序性知识 (Procedural Knowledge)

过去解决这一问题的主流方案存在明显局限:

在此背景下,Agent Skills (技能工程) 作为一种全新的范式应运而生:从依赖模型权重或临时 Prompt,转向一种模块化、基于文件系统的抽象层。技能不再是单一的模型或 Prompt 模板,而是一个包含结构化指令、脚本、参考文档的独立上下文包,Agent 可以按需动态加载,从而实现免重新训练的能力扩展。

🚀 核心贡献

本文是首篇全面系统性论述“Agent Skills”范式的综述文章,填补了现有 LLM Agent 或 Tool Use 综述在“技能抽象层 (Skill Abstraction Layer)”上的空白。其核心贡献包括:

🔍 具体案例剖析 (Case Study)

为了直观理解 Agent Skills 与传统 Tool Use 的本质区别,论文给出了一个“PDF 处理 (PDF-processing)”的典型案例。

【输入/场景】 用户给出指令:“帮我填写这份 PDF 表单。”

【传统 Tool Use 方案】
Agent 可能会触发一个 read_pdf() 的函数,获取 PDF 文本,然后尝试生成回复。它本质上只是调用了一个 API,Agent 自身并不知道处理复杂 PDF 表单的最佳工程实践是什么。

【Agent Skills 方案】
当触发 pdf-processing 技能时,系统会执行基于渐进式披露 (Progressive Disclosure) 的三级动作:

  1. Level 1 (Metadata) 匹配: 系统的 System Prompt 中预加载了轻量级的 YAML 元数据 (仅几十个 Tokens),Skill Router 发现意图匹配。
  2. Level 2 (Instructions) 注入: 触发后,Agent 会将该技能的 SKILL.md 核心内容作为隐藏的元消息 (Meta-message) 注入上下文。这不只是一个工具,而是一套“员工入职指南”——告诉 Agent 应该分几步走、如何处理解析异常、推荐使用哪些内置的 Bash 命令。
  3. Level 3 (Resources) 动态加载: 如果 Level 2 的指导认为有必要,Agent 会进一步按需加载该技能包下的 scripts/extract.py 等可执行脚本或参考文档。

【结果】 技能通过注入程序性知识和修改执行上下文,改变了 Agent 的“准备状态 (Preparation)”,随后 Agent 才开始利用这套丰富的领域认知去规划并完成任务,大幅降低了试错率和 Token 消耗。

⚙️ 方法论与技术实现

本文从架构、获取和部署三个维度,对 Agent Skills 的技术体系进行了深度解构:

1. 架构基石:Skills 与 MCP 的融合 (The Agentic Stack)

Agent 的现代化堆栈正在由两大互补层构成:

2. 技能的获取范式 (Acquisition Modalities)

除了人类直接编写 (Human-authored) 以外,学术界正探索如何让 Agent 自主学习技能:

3. 主要部署环境:CUA (计算机使用智能体) 堆栈

由于操作 GUI 界面本质上需要感知、推理与动作的复合序列,CUA 成了技能范式最天然的试验场。诸如 UI-TARS 2 等架构通过视觉与动作统一建模,结合数据飞轮与多轮 RL 训练,正在持续推高 CUA 的基准性能(详见实验部分)。

📊 实验设置与结论分析

虽然本文是综述,但汇总了该领域最新的 Benchmark 数据与安全性实证结论:

性能与基准测试 (CUA Benchmarks)

安全侧实证发现 (极度严峻)

🌟 关键技术亮点分析与洞察

  1. 从“大模型”走向“插件化脑区”:渐进式披露 (Progressive Disclosure) 架构是一项优雅的工程创新。它解决了大模型“上下文窗口容量”与“无限领域知识注入”之间的矛盾。通过仅预加载轻量化 Metadata(约30 tokens),实现了零惩罚的海量技能库路由。
  2. 原创的生命周期安全治理框架 (Trust & Lifecycle Governance):本文并未停留在提出安全问题,而是首创性地提出了一个映射系统:将静态分析、语义匹配、沙箱运行、Manifest 校验四大关卡 (G1-G4),与非信任/社区/组织/官方四级信任等级 (T1-T4) 对齐,并赋予递进式的工具/网络权限。这为未来大厂构建 Agent App Store 提供了理论基础。
  3. 技能扩张的“相变”现象 (Phase Transition):文章揭示了一个极其重要的限制——当技能库的规模增长到某个临界点时,Agent 的技能路由/选择准确率会发生断崖式下跌 (Phase Transition)。这表明,虽然技能解决了“如何做”的问题,但在企业级部署中,成百上千个技能引发的“组合爆炸与动态路由”将是未来 1-2 年内最重要的算法攻坚点。

面向LLM智能体的强化世界模型学习
Reinforcement World Model Learning for LLM-based Agents

作者:Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu

机构:哥伦比亚大学 (Columbia University), 微软研究院 (Microsoft Research), 达特茅斯学院 (Dartmouth College)

📄 查看 ArXiv 原文

1. 研究背景与痛点

大语言模型(LLMs)在以语言为中心的任务上取得了巨大成功,但当将其作为自主智能体(Autonomous Agents)放置于复杂的长视野(Long-horizon)环境中时,往往表现挣扎。这种挣扎的核心在于:模型缺乏预判动作后果并适应环境动态的能力,即缺乏“世界模型(World Model)”能力。

传统的后训练范式在此场景下存在显著痛点:

2. 核心贡献

本文提出了一种全新的、完全自监督的训练范式:强化世界模型学习(RWML, Reinforcement World Model Learning)。通过让 LLM 学习环境的状态转移函数(Transition Function),在正式的策略优化(Policy RL)之前,将其打造为一个动作条件下的世界模型。

3. 具体案例剖析 (Case Study)

论文在两个典型长链路智能体环境中展示了 RWML 为模型带来的决策质变(见图5):

4. 方法论与技术实现

RWML 的核心是将“下一个状态预测”转化为强化学习环境中的生成任务,整体流程包含以下几个关键步骤:

Step 1: 交互数据收集 (Rollout Generation)
目标策略模型 $\pi_\theta$ 在环境采样中进行 $N$ 次探索,生成包含观察、动作、下一观察的轨迹流,并将其全部转化为三元组 $\langle s_{\le t}, a_t, s_{t+1} \rangle$。

Step 2: 难样本挖掘 (Subsampling "Easy" Samples)
研究发现,由于环境反馈中存在大量微不足道的平庸状态变更(如“移动了一步”、“没有找到结果”),若将其喂给 RL 会造成算力浪费并导致奖励失效。通过训练一个小巧的参考模型剔除那些连续 10 次都能获得高分 Reward 的“简单样本”,迫使模型聚焦于复杂的非平凡(Non-trivial)动态转移。

Step 3: 构建二值化 Embedding 奖励函数
训练过程要求 LLM 输出其思维链(Reasoning)并预测下一个环境状态 $\hat{s}_{t+1}$: $$(\text{reason}, \hat{s}_{t+1}) \sim \pi_\theta(\cdot|s_{\le t}, a_t)$$ 传统的文本精确匹配过于严苛,而使用 LLM-as-a-judge 又极容易被“欺骗”(Reward Hacking)。本文创新地采用现成文本嵌入模型 $E(\cdot)$ 的余弦相似度,并设置阈值 $\tau_d$ 将其二值化以提升鲁棒性: $$ r^{\text{WM}}(\hat{s}_{t+1}, s_{t+1}) = \begin{cases} 1.0, & \text{if } 1 - \cos(E(\hat{s}_{t+1}), E(s_{t+1})) < \tau_d \\ 0.0, & \text{otherwise.} \end{cases} $$

Step 4: 基于 GRPO 的强化优化
采用无 Critic 网络的 GRPO(Group Relative Policy Optimization)算法,通过组内奖励优势计算替代传统 PPO 的价值网络估算。其优势函数设计为标准形式: $$ A = \frac{r^{\text{WM}} - \text{mean}(r^{\text{WM}})}{\text{std}(r^{\text{WM}})} $$

5. 实验设置与结论分析

实验环境设置:采用 Qwen2.5-7B (ALFWorld) 与能力更强的 Qwen3-8B ($\tau^2$ Bench) 作为基座模型。所有训练采用 8×B200 算力集群。

1. RWML 自监督带来的巨大增益:
在不使用任何任务成功(Task-Success)奖励的情况下,RWML 将基础模型在 ALFWorld 的表现从 13.0% 提升至 32.6%,在 $\tau^2$ Bench 上从 31.9% 提升至 38.8%。这印证了仅靠“理解环境法则”,就能让基础模型内化大量具身决策能力。

2. 结合 Policy RL 的终极超越:
将 RWML 视作策略优化前的 Mid-training 阶段(即 RWML + Policy RL),在 ALFWorld 上的综合胜率达到惊人的 87.9%(直跑 Policy RL 仅为 81.0%),且超越了所有依赖 GPT-4 专家标注蒸馏的方法。在更复杂的 $\tau^2$ Bench 上,同样以 43.7% 的表现力压常规 RL (38.0%)。

3. 相比 SFT,RL 显著缓解灾难性遗忘:
作者在 MMLU, MATH-500, LiveCodeBench 等评测体系上对比了 WM SFT 与 RWML 后的能力衰减。结果显示,基于 RL 的 RWML 对通用数学、编程能力的遗忘微乎其微。参数权重更改(Weight Change Analysis)表明,WM SFT 对模型大量深层参数进行了激进的重置,而 RWML 仅在特定层级进行了小范围的点式参数调整(Point-wise Updates),表现得极为“克制”和高效。

6. 关键技术亮点分析 (Practitioner's Takeaways)

这是一篇对 LLM Agent 领域具有启发性的方法论文章。对于业界从业者而言,本文释放了三个强烈信号:

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

SmartSearch:过程奖励引导的搜索智能体查询优化框架

作者:Tongyu Wen, Guanting Dong, Zhicheng Dou

机构:中国人民大学 (Renmin University of China)

📄 查看 ArXiv 原文

🔍 研究背景与核心痛点

近年来,基于大语言模型(LLM)的搜索智能体(Search Agents)在解决知识密集型任务上展现了巨大潜力。它们能够通过迭代式地调用外部搜索引擎,以多轮 Thought-Action-Observation 的范式(如 ReAct)来应对静态 RAG(检索增强生成)难以处理的复杂深度探索任务。

然而,现有的基于提示工程(Prompting)或微调(SFT/RL)的方法往往将重点放在优化智能体的推理范式(Reasoning Paradigms)或最终结果的正确性上,却严重忽略了中间搜索查询(Intermediate Search Queries)的质量

核心痛点: 在多轮搜索轨迹中,低质量的中间 Query(例如缺失关键实体修饰、意图冗余)会导致检索返回不相关甚至误导性的信息(Unexpected Results),进而使整个推理轨迹偏离正确方向(Derailment)。现有的结果导向奖励(Outcome Reward)机制过于稀疏,无法为中间查询步骤提供细粒度的信用分配和纠偏指导。

💡 核心贡献

📖 具体案例剖析 (Case Study)

论文中的 Table 5 & 6 生动展示了低质量查询如何误导模型,以及 SmartSearch 的 Query Refinement 机制如何力挽狂澜:

【用户问题】 "An Annapolis Story" 这部电影主演中,哪位美国舞台、电影和电视演员出生于1914年2月15日? 【正确答案】 Kevin McCarthy 🔴 原始失败轨迹 (Original Model Output): <think> ...首先找出电影主演,然后查他们的生日... </think> <search> stars in "An Annapolis Story" </search> <result> ...主演包括 John Derek, Diana Lynn 和 Kevin McCarthy... </result> <think> ...接下来查Kevin McCarthy的生日... </think> <search> birthdate of Kevin McCarthy </search> // ⚠️ 痛点:Query意图模糊(同名歧义) <result> ...Kevin Owen McCarthy (出生于1965年1月26日) 是一位美国政治家,众议院多数党领袖... </result> <think> 生日是1965年,不符合1914年的条件,可能指的是另一个演员... </think> 🟡 过程奖励评估 (Process Reward): Score: 0 Explanation: 搜索意图是必要的,但检索结果未包含演员Kevin McCarthy的出生日期,而是包含了政治家Kevin McCarthy的信息。 🟢 SmartSearch 查询修正与重生成 (Query Refinement & Regeneration): [Refined Query] <search> birthdate of Actor Kevin McCarthy </search> // 修正后:加入了Actor消歧 [New Result] ...Kevin McCarthy (February 15, 1914 – September 11, 2010) was an American actor... [New Think] 确认了演员Kevin McCarthy的生日符合题目要求... [Answer] Kevin McCarthy

这个对比直接为 DPO 训练阶段提供了极高质量的偏好对(Preference Pairs),教会模型在面临歧义时如何生成高质量的 Search Query。

核心架构图
图注:SmartSearch的三阶段课程学习框架:阶段1-基于查询质量过滤的SFT;阶段2-使用Query Refinement构造偏好数据进行DPO对齐;阶段3-结合过程奖励的GRPO策略优化。

⚙️ 方法论与核心技术实现

SmartSearch 由两大机制与三阶段训练范式构成。

1. 过程奖励:双层信用评估 (Dual-Level Credit Assessment)

为了衡量每个搜索回合 $t$ 的 Query 质量,论文定义了基于三大原则(新颖性、必要性、相关性)的评估机制:

2. 查询修正机制 (Query Refinement)

针对判定为低质量的查询($S_t = 0$),使用轻量级修正模型根据解释文本重写 Query:
$q_i' = \text{LLM}_{\text{refine}}(q, H_i, \mathcal{T}_i)$
随后,智能体从这个纠正后的节点重新开始执行后续的 Rollout 轨迹,形成新的修正轨迹(Revised Trajectory)。该机制极大地提升了轨迹探索的效率。

3. 三阶段课程学习框架 (Three-Stage Curriculum Learning)

📊 实验设置与结论分析

实验配置:基座模型选用 Qwen2.5-3B-Instruct,评测和修正模型同样使用该轻量级模型(通过强大的Teacher模型如Qwen-32B打标签后蒸馏获得,以兼顾效率与准确率)。环境包括本地 Wiki 检索库以及真实 Web 环境(Serper API)。

核心结果:

🌟 资深从业者视角的关键亮点

  1. 破解了Agentic RAG的一大盲区: 当前做 Agent 训练很容易陷入“模型通过不断试错穷举来碰对答案”的陷阱(依赖高频Rollout)。本文敏锐地抓住了搜索 Agent 的本质:Query 是与环境交互的唯一 Interface,垃圾进则垃圾出。通过显式优化中间 Query,大幅缩短了搜索路径(Search Efficiency 提升)。
  2. 兼顾计算效率的自我引导工程: 评估器(Evaluator)和修正器(Refiner)如果直接用庞大的Teacher模型会导致RL开销爆炸。本文巧妙通过蒸馏策略,让一个 3B 级别的学生模型完成了 Scoring 和 Query Refinement 的脏活累活。消融实验证明,虽然用大模型做 Evaluator 能稍微涨点(<1% F1),但耗时会增加 5 倍,凸显了工程设计的权衡智慧。
  3. Reward Shaping 的优雅设计: 阶段 3 中的 Reward 设计极其合理,即 $\gamma \cdot n_{\text{wrong}}$ 惩罚冗余操作,$\gamma \cdot n_{\text{correct}}$ 鼓励有效的中间探索。这种 Dense Process Reward 有效避免了传统稀疏 Reward 导致的训练崩溃(Collapse),在 RLHF 实践中非常值得借鉴。