作者:Tongyu Wen, Guanting Dong, Zhicheng Dou
机构:中国人民大学 (Renmin University of China)
在处理知识密集型任务时,基于大语言模型(LLMs)的搜索智能体(Search Agents)展现出了强大的潜力,它们能够通过自主、迭代地调用外部搜索工具来解决静态RAG无法处理的复杂深度探索问题。目前业界对于Agentic RAG的优化(如SFT、RLHF、Prompt Engineering)主要聚焦于推理范式(Reasoning Paradigms)的提升,但往往忽视了一个极其关键的环节:中间搜索查询(Intermediate Search Queries)的质量。
痛点分析:
本文开创性地将优化重心转移至中间搜索查询的质量上,提出了一套名为 SmartSearch 的综合框架。其核心贡献包括:
以 ASearcher 数据集中的一个多跳问题为例,观察低质量Query如何导致失败,以及SmartSearch如何纠正它:
用户提问: "An Annapolis Story" 这部电影由哪位出生于1914年2月15日的美国舞台剧、电影和电视演员主演?
❌ Baseline (存在缺陷的搜索轨迹):
[Thought]: 我查到主演是 Kevin McCarthy。下一步我需要确认他的生日是否是 1914-02-15。
[Search Query]: birthdate of Kevin McCarthy (低质量Query:未加限定词)
[Result]: 检索到的是加州政治家 Kevin McCarthy(生于1965年1月26日)。
[Conclusion]: 生日不匹配,答案未找到 (Not Found)。
✅ SmartSearch干预与修正:
[Process Reward 检测]: 判定该步评分为 0。反馈原因:“检索意图是合理的,但结果没有包含演员 Kevin McCarthy 的生日,而是包含了政治家的信息。”
[Query Refinement 修正]: 模型接收到反馈,将Query修改为 Actor Kevin McCarthy birth date (高质量Query)
[Regenerated Result]: 检索到演员 Kevin McCarthy(1914年2月15日 – 2010年9月11日)。
[Final Answer]: Kevin McCarthy (回答正确)。

为了判断一个中间Query的好坏,模型从三个维度评估:查询新颖性、意图必要性、检索相关性。
最终得分为两者的逻辑与:$\mathcal{S}_t = 1 \text{ if } (\mathcal{S}_t^{\text{novel}} = 1 \land \mathcal{S}_t^{\text{useful}} = 1) \text{ else } 0$。同时拼接文本解释用于指导下一步。
对于评分为 0 的低质量Query,利用同一个轻量级LLM,根据上下文和反馈解释进行重写:
$$q_t' = \text{LLM}_{\text{refine}}(q, H_t, \mathcal{T}_t)$$
随后,Agent 会丢弃旧节点,基于新 Query $q_t'$ 继续生成后续轨迹 $H_t'$。这不仅能修复错误轨迹,还是构建高质量训练数据的引擎。
Stage-1: 筛选式模仿学习 (Query Quality Screened SFT)
传统的SFT只要最终答案正确即可,但作者发现很多能得到正确答案的轨迹中,中间查询质量依然很差。因此,作者叠加了基于过程奖励的硬过滤,只保留所有步骤 $\mathcal{S}_t=1$ 且结果正确的完美轨迹进行监督微调。
Stage-2: 查询生成对齐 (Query Generation Alignment - DPO)
利用上文提到的Query Refinement机制,模型自动生成一对轨迹(重写前 vs 重写后)。偏好标注规则综合考量:(1) 答案正确者优先;(2) 答案都正确时,低质量查询次数少者优先;(3) 都错误时,高质量查询多者优先。通过DPO促使模型自主避开低效Query。
Stage-3: 查询感知策略优化 (Query Aware Policy Optimization - GRPO)
采用Agentic RL(在此具体使用了DeepSeek数学模型常用的 GRPO 算法)。在Rollout阶段,允许Agent调用Refinement生成多条轨迹。奖励函数设计为结果奖励与过程奖励的结合:
$$r = r_{\text{composite}} + \lambda \cdot r_{\text{format}}$$
其中过程奖励的设计会动态地惩罚轨迹中低质量节点数($n_{\text{wrong}}$)并奖励高质量节点数($n_{\text{correct}}$)。这促使模型不仅“蒙对”答案,更要“搜得准”。
Authors: Zixiao Huang, Wen Zeng, Tianyu Fu, et al.
Institutions: Tsinghua University, Infinigence, Lenovo, Shanghai Jiao Tong University
近年来,基于大型语言模型(LLM)的搜索智能体(Search Agents)在复杂信息检索和多步推理任务中表现出极强的能力。然而,这类 Agent 在实际落地中面临着严峻的端到端延迟(End-to-End Latency)问题,甚至在某些复杂任务(如 Deep Research)中完成单个任务需要长达 30 分钟。
Reason-Action(即 ReAct)范式。在每一步中,模型必须先生成完整的内部思考(Thought),再输出动作(Action);然后系统去执行动作(如调用 Search API),最后将观察结果(Observation)返回给模型。这种“推理-执行-推理”的严格串行导致延迟不断累加。本文提出 SPAgent,一个突破传统 Predict-Verify 局限的算法-系统协同设计(Algorithm-System Co-Design)框架。作者通过大量数据分析发现:Agent 的早期步骤多为简单的信息搜集,动作预测准确率高且风险低,完全可以跳过验证;而后期则需要严密推理。 基于此,SPAgent 做出了以下贡献:
在回答复杂问题(如:“Dan Smith 的某首歌在2013年 Billboard 排行榜成绩如何?”)时,Naive ReAct Agent 与 SPAgent 流程的对比体现了性能差距的根源:
Thought: I need to search Dan Smith to find out his songs... (耗时约1秒) -> Action: Search[Dan Smith] -> API 搜索 (耗时约1.5秒)。此步骤严格串行,总计耗时 2.5 秒以上。Search[Dan Smith], Search[Dan Smith Billboard 2013]。
Thought,与此同时,投机路径并发预测下一步动作去提前调用 API。等主路径给出 Action 决定时,若碰巧命中了投机路径刚跑完的结果,直接从 Action Buffer 中取回结果,实现 LLM推理与API耗时的完美 Overlap(时间重叠)。SPAgent 的系统架构包含算法层面的“两阶段自适应切换”和系统层面的“两级推测感知调度”。
系统引入了一个自我反思打分机制来决定采用哪种阶段。使用 LLM 生成 $k$ 个投机动作后,调用模型进行打分,若所有评分均低于预设阈值 $\beta$(表明当前任务步入深水区),则切换为验证模式。
在 Serving 场景下,多出的推测请求(Prefill/Decode)可能拖垮引擎。调度器需要在每个 Step 动态选择将哪些处于验证阶段的主任务 $S \subseteq \mathcal{R}$ 发起 $k$ 个推测样本,目标是最大化期望延迟减少量,扣除推理开销:
$$ \max_{S} T_r(S, N) = T_{r,a}(S, N) - (T_{o,d}(S, N) + T_{o,p}(S, N)) $$
其中期望缩减量 $T_{r,a}$ 计算为: $$ T_{r,a}(S, N) = \frac{1}{N_m + N_a} \sum_{r \in S} t_{act} \times [1 - (1 - p)^k] $$
$p$ 为击中正确动作的概率,$t_{act}$ 为平均动作耗时。推理引擎的开销通过分析混合 Batch 计算:解码开销 $T_{o,d}$ 与预填充开销 $T_{o,p}$ 随并发数而非线性增加。算法会在运行时贪婪地将推测收益最高的请求入队,一旦边际收益 $\le 0$ 即停止下发推测任务。
由于标准的 FCFS (First-Come-First-Serve) 调度极易让只有几个 Token 生成的“短推测请求”被主线几百个 Token 的 Decode 请求阻塞(Head-of-line blocking)。SPAgent 设计了类似 SJF 的 Speculation First 策略,提高推测请求优先级,保证它跑在主干 Reason 前面,从而实现真正的时间重叠(Overlap)。如果推测请求在队列中等待超时超过阈值 $t_w$,则被视作已无重叠价值而被抛弃。
文章在 RTX 3090, A100 及 A800 上构建了基于 vLLM 和真实 Wikipedia API 调用的测试床。评估了 Qwen2.5 (7B, 32B) 和 Gemma-3 (4B, 27B) 模型。Benchmark 包括 HotPotQA, 2WikiMultihopQA, 和 TriviaQA。
从工业落地的视角来看,SPAgent 解决的是 LLM Agent 走向大规模生产环境的核心命题——**降本与保并发**:
Authors: Mingyue Cheng, Jie Ouyang, Shuo Yu, et al.
Institution: State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China (中国科学技术大学)
📄 查看 ArXiv 原文大语言模型(LLMs)正迅速向具备自主环境交互能力的智能体(Agents)演进。在这条技术路线上,强化学习(Reinforcement Learning, RL)被认为是解锁 LLM 主动交互、工具调用和多步推理潜能的关键技术(正如 DeepSeek-R1、OpenAI o1 在静态推理任务中展现的威力)。
然而,现阶段将 RL 应用于构建多轮交互式 Agent 面临着显著的工程与理论痛点:
本文从理论到工程提供了一套闭环解决方案,推出了专为多轮交互 Agent 打造的 RL 训练框架 Agent-R1:
Tool 和 ToolEnv。实现了对多轮 Rollout 轨迹的高效采样和解析。在 Agent-R1 框架下,Agent 与环境的一次互动并非一问一答,而是一个交织着“思考、动作与反馈”的 Multi-turn Trajectory(多轮轨迹)。以框架中的一次 Rollout 为例:
[User Prompt]: "q" (一个多跳问题)
[LLM Rollout - Turn 1]:
<think> 我需要先查一下X的生日。</think>
<tool_call> wiki_search(query="X birthday") </tool_call>
[Environment - Intervenes]:
ToolEnv 检测到 tool_call,暂停生成,调用外部搜索引擎...
<tool_response> X's birthday is January 1, 1990. </tool_response>
[LLM Rollout - Turn 2 (Append)]:
<think> 好的,现在我知道X的生日了,接下来我要回答... </think>
<answer> ans </answer>
痛点解析: 在这条轨迹中,既有 Agent 自己生成的 token(思考和动作),也有环境塞进来的不可导 token(API 返回结果)。传统的单轮 RL 会把整个序列揉在一起算 Loss 或 Advantage,这在 Agent 训练中会引发灾难性的误差。Agent-R1 的核心目的就是解决这类长程交织轨迹的对齐训练问题。

作者将静态文本生成的单步决策扩展为涵盖多轮历史的 MDP:
为了支撑上述 MDP,Agent-R1 在 Rollout 设计上做了两个核心模块的拆分:
step 方法捕获 LLM 生成的特征,调用 Tool,并将 Tool 返回的内容包装回给模型,同时在这个过程中打上 Process Rewards(过程奖励)。这是 Agent-R1 算法层面的精髓。由于轨迹中混杂了外部环境的返回内容,如果按照传统方式全量计算,Critic 会难以预估,Actor 的梯度也会跑偏。框架引入了 Action Mask:
<think>、<tool_call>),才会被分配 Advantage 信号用于参数更新。论文在需要复杂搜索调用的多跳问答任务(MultihopQA:HotpotQA, 2Wiki, Musique)上进行了严格论证。采用的基础模型是 Qwen2.5-3B-Instruct。
作者分别去除了 Loss Mask 和 Advantage Mask,发现了剧烈的性能崩塌:
Advantage Mask 后下降至 0.3136;再去掉 Loss Mask 后进一步跌至 0.3022。Action Mask 方案,具有极高的实战指导意义。作者:Saksham Sahai Srivastava, Vaneet Aggarwal
机构:University of Colorado Boulder; Purdue University
📄 查看 ArXiv 原文近年来,大型语言模型(LLMs)在参数规模和能力上取得了飞跃(如拥有超400B参数的 Llama 3.1 和超600B的 DeepSeek-V3)。然而,单纯依赖极大似然估计的监督微调(SFT)存在根本瓶颈,模型常受困于对齐问题(Alignment Problem),表现为:产生幻觉(Hallucinations)、生成有害偏见内容、且难以严格遵循复杂的多步指令(Complex Instruction Following)。
在此背景下,强化学习(RL)成为对齐LLMs的核心范式。由于RL支持整合不可微(non-differentiable)的反馈信号,能够直接针对主观的“人类偏好”或客观的“代码执行/数学验证结果”进行优化。但将经典RL应用于LLM时面临特有的痛点:
本综述全面梳理了强化学习在LLMs中的技术全貌,并构建了系统的分类体系,核心贡献包括:
本综述未局限于单一模型的介绍,而是横向穿插了当前顶级LLM如何通过特定的RL策略实现能力跃迁的具体案例(Case Studies):
本综述详细拆解了LLM领域最核心的几条RL技术路线:
PPO 至今仍是大模型对齐的黄金标准。其核心在于通过截断比率(Clipped Probability Ratio)和 KL 散度惩罚,保证策略更新的稳定性,防止策略崩溃。
$$ \mathcal{L}_{\text{PPO}}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right] $$
由 DeepSeek 提出,专门解决 PPO 的庞大开销。GRPO 摒弃了独立的价值网络(Value Model),它针对同一个 Prompt 采样 $G$ 个候选回答,利用这组回答的奖励进行内部标准化(均值 $\mu$、方差 $\sigma$)来计算组内相对优势(Group-normalized Advantage $\hat{A}_i^{\text{GRPO}}$)。极大降低了内存消耗,特别适合数学等强推理任务。
$$ \mathcal{L}^{\text{GRPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( r_i(\theta) \hat{A}_i^{\text{GRPO}}, \text{clip}(r_i(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i^{\text{GRPO}} \right) \right] $$
基于偏好的隐式奖励优化,免去了训练 Reward Model 的繁琐过程,直接利用 KL 约束下的最优策略形式对策略网络进行分类任务式的更新:
$$ \mathcal{L}_{\text{DPO}}(\theta) = -\mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{p_\theta(y_w|x)}{p_{\text{pref}}(y_w|x)} - \beta \log \frac{p_\theta(y_l|x)}{p_{\text{pref}}(y_l|x)} \right) \right] $$
作者引用并对比了大量离线(Offline)与在线(Online)对齐方法在多类 Benchmark(包括 Open LLM Leaderboard、HumanEval 等)上的综合表现:
从从业者视角来看,本文揭示了当前LLM领域从“模仿学习”全面倒向“强化学习”的深层演进逻辑:
作者:Yichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E
机构:ByteDance Seed、Peking University
学术文献检索并不只是“搜到几篇相关论文”这么简单。对于研究者而言,真正有价值的是面向复杂、细粒度 query 的高召回、高精度、可追溯的全面检索。传统搜索引擎在 broad query 上还能工作,但一旦进入“某类方法在某类任务上的某个子设定”这种长尾问题,就会迅速暴露短板。
论文里给出的典型 query 是:“哪些研究关注基于 value-based methods,尤其是 UCB algorithm 的 non-stationary RL?” 这类问题对传统搜索引擎很不友好,因为它要求同时满足:非平稳强化学习、value-based、UCB 风格算法三个层次的限定。
PaSa 的处理不是一次搜索完事,而是一个多轮过程:
这种流程更像真正的 researcher workflow,而不是普通 web search。

Crawler 追求 recall,负责调用搜索工具、阅读候选文献、遍历 citation graph;Selector 追求 precision,判断某篇论文是否真正回答用户 query。这个拆分非常合理,因为“找得到”和“判得准”本来就是两个不同子问题。
PaSa 不是只在单步 action 上训练,而是把整段搜索流程看成一个 session。直觉上,这等于优化:
$$R_{session} = \alpha \cdot \text{Recall} + \beta \cdot \text{Precision} - \gamma \cdot \text{Cost}$$
虽然论文中的实际奖励定义更细,但核心思想就是:最终不只看“这一步搜得像不像”,而是看整段搜索流程最后是否找全、找准、且成本可控。
AutoScholarQuery 的亮点在于:不需要人工逐条设计学术复杂 query,而是利用已有论文的 related work 段落反推出“这个作者在比较什么、归纳什么”,再把引用集合当作近似 ground truth。这种方法兼具规模化与学术语义密度。
PaSa 在真实和合成的 academic paper search benchmark 上,都比传统搜索基线和通用 LLM 检索方案更强,尤其是在 recall 维度优势明显。这一点很关键:学术搜索如果 recall 不够,后续再聪明的 reranker 也没救。