大模型 Agent 与强化学习 (RL) 深度学术解读报告

SmartSearch: Process Reward-Guided Query Refinement for Search Agents

SmartSearch:过程奖励引导的搜索智能体查询优化框架

作者:Tongyu Wen, Guanting Dong, Zhicheng Dou

机构:中国人民大学 (Renmin University of China)

📄 查看 ArXiv 原文

🔍 研究背景与核心痛点

在处理知识密集型任务时,基于大语言模型(LLMs)的搜索智能体(Search Agents)展现出了强大的潜力,它们能够通过自主、迭代地调用外部搜索工具来解决静态RAG无法处理的复杂深度探索问题。目前业界对于Agentic RAG的优化(如SFT、RLHF、Prompt Engineering)主要聚焦于推理范式(Reasoning Paradigms)的提升,但往往忽视了一个极其关键的环节:中间搜索查询(Intermediate Search Queries)的质量

痛点分析:

💡 核心贡献

本文开创性地将优化重心转移至中间搜索查询的质量上,提出了一套名为 SmartSearch 的综合框架。其核心贡献包括:

  1. 引入过程奖励机制(Process Rewards): 提出了“双层信用评估(Dual-Level Credit Assessment)”方法,通过规则和轻量级模型对每步Query的“新颖性”和“有用性”进行细粒度打分并生成文本反馈。
  2. 设计查询重写与优化机制(Query Refinement): 在探索/训练过程中,一旦检测到低质量Query,即利用过程奖励提供的反馈信息触发查询修正,并基于修正后的Query重新生成后续轨迹。
  3. 面向查询的三阶段课程学习(Curriculum Learning): 构建了一条从 SFT(筛选的高质量轨迹模仿学习)DPO(基于生成的修正数据进行偏好对齐) 再到 GRPO(整合过程奖励的策略强化学习) 的完整训练管线,使Agent逐步内化提升Query质量的能力。

🌰 具体案例剖析 (Case Study)

以 ASearcher 数据集中的一个多跳问题为例,观察低质量Query如何导致失败,以及SmartSearch如何纠正它:

用户提问: "An Annapolis Story" 这部电影由哪位出生于1914年2月15日的美国舞台剧、电影和电视演员主演?

Baseline (存在缺陷的搜索轨迹):

[Thought]: 我查到主演是 Kevin McCarthy。下一步我需要确认他的生日是否是 1914-02-15。
[Search Query]: birthdate of Kevin McCarthy (低质量Query:未加限定词)
[Result]: 检索到的是加州政治家 Kevin McCarthy(生于1965年1月26日)。
[Conclusion]: 生日不匹配,答案未找到 (Not Found)。

SmartSearch干预与修正:

[Process Reward 检测]: 判定该步评分为 0。反馈原因:“检索意图是合理的,但结果没有包含演员 Kevin McCarthy 的生日,而是包含了政治家的信息。”
[Query Refinement 修正]: 模型接收到反馈,将Query修改为 Actor Kevin McCarthy birth date (高质量Query)
[Regenerated Result]: 检索到演员 Kevin McCarthy(1914年2月15日 – 2010年9月11日)。
[Final Answer]: Kevin McCarthy (回答正确)。

核心架构图
图注:SmartSearch的三阶段课程学习框架:Stage 1 (SFT) 利用过程奖励过滤高质量轨迹;Stage 2 (DPO) 基于Query重写机制构造正负样本对;Stage 3 (GRPO强化学习) 利用Query重写作为探索策略(Rollout),并将过程奖励直接加入Reward函数中进行全局优化。

⚙️ 方法论与技术实现

1. 过程奖励机制:双层信用评估 (Dual-Level Credit Assessment)

为了判断一个中间Query的好坏,模型从三个维度评估:查询新颖性、意图必要性、检索相关性。

最终得分为两者的逻辑与:$\mathcal{S}_t = 1 \text{ if } (\mathcal{S}_t^{\text{novel}} = 1 \land \mathcal{S}_t^{\text{useful}} = 1) \text{ else } 0$。同时拼接文本解释用于指导下一步。

2. 过程奖励引导的查询重写 (Query Refinement)

对于评分为 0 的低质量Query,利用同一个轻量级LLM,根据上下文和反馈解释进行重写:
$$q_t' = \text{LLM}_{\text{refine}}(q, H_t, \mathcal{T}_t)$$
随后,Agent 会丢弃旧节点,基于新 Query $q_t'$ 继续生成后续轨迹 $H_t'$。这不仅能修复错误轨迹,还是构建高质量训练数据的引擎。

3. 三阶段课程学习 (Three-Stage Curriculum Learning)

Stage-1: 筛选式模仿学习 (Query Quality Screened SFT)
传统的SFT只要最终答案正确即可,但作者发现很多能得到正确答案的轨迹中,中间查询质量依然很差。因此,作者叠加了基于过程奖励的硬过滤,只保留所有步骤 $\mathcal{S}_t=1$ 且结果正确的完美轨迹进行监督微调。

Stage-2: 查询生成对齐 (Query Generation Alignment - DPO)
利用上文提到的Query Refinement机制,模型自动生成一对轨迹(重写前 vs 重写后)。偏好标注规则综合考量:(1) 答案正确者优先;(2) 答案都正确时,低质量查询次数少者优先;(3) 都错误时,高质量查询多者优先。通过DPO促使模型自主避开低效Query。

Stage-3: 查询感知策略优化 (Query Aware Policy Optimization - GRPO)
采用Agentic RL(在此具体使用了DeepSeek数学模型常用的 GRPO 算法)。在Rollout阶段,允许Agent调用Refinement生成多条轨迹。奖励函数设计为结果奖励与过程奖励的结合:
$$r = r_{\text{composite}} + \lambda \cdot r_{\text{format}}$$
其中过程奖励的设计会动态地惩罚轨迹中低质量节点数($n_{\text{wrong}}$)并奖励高质量节点数($n_{\text{correct}}$)。这促使模型不仅“蒙对”答案,更要“搜得准”。

📊 实验设置与结论分析

🌟 资深从业者技术看点分析

  1. RAG的范式转移:从“如何推理”到“如何发问”。 很多企业在做Agentic RAG时,过度关注给LLM做复杂的Re-Ranker或注入极其复杂的规划Prompt,却忽略了如果搜索工具的输入(Query)本身就是一坨屎,无论后端多强大也救不回来。这篇论文通过一套完整的流程把对Query的关注给规范化和自动化了。
  2. PRM(过程奖励模型)落地的工程智慧。 在多轮搜索这种长轨迹任务中,如果用大模型做PRM,推理成本极高;如果纯基于规则,又无法泛化。作者采用 Rule-based(新颖度检测) + 轻量化LLM(相关度评估,Teacher-Student 范式蒸馏) 的双层设计,是实际业务中非常值得借鉴的性价比打法(有效性-效率折中)。
  3. 将Refinement作为Rollout策略的新思路。 在标准的 RLHF(如 PPO/GRPO)中,Rollout 往往依赖随机采样或温度调节,非常盲目。SmartSearch 创新性地在探索阶段直接把错误节点利用 Refine 模型修补过来再生成,不仅能保证生成的Trajectory多样性,还大大提高了遇到高回报状态的概率,加速了RL的收敛。

Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design

基于投机的算法-系统协同设计降低LLM搜索Agent的延迟

Authors: Zixiao Huang, Wen Zeng, Tianyu Fu, et al.

Institutions: Tsinghua University, Infinigence, Lenovo, Shanghai Jiao Tong University

📄 查看 ArXiv 原文

一、 研究背景与痛点 (Background & Challenges)

近年来,基于大型语言模型(LLM)的搜索智能体(Search Agents)在复杂信息检索和多步推理任务中表现出极强的能力。然而,这类 Agent 在实际落地中面临着严峻的端到端延迟(End-to-End Latency)问题,甚至在某些复杂任务(如 Deep Research)中完成单个任务需要长达 30 分钟。

二、 核心贡献 (Core Contributions)

本文提出 SPAgent,一个突破传统 Predict-Verify 局限的算法-系统协同设计(Algorithm-System Co-Design)框架。作者通过大量数据分析发现:Agent 的早期步骤多为简单的信息搜集,动作预测准确率高且风险低,完全可以跳过验证;而后期则需要严密推理。 基于此,SPAgent 做出了以下贡献:

三、 具体案例剖析 (Case Study)

在回答复杂问题(如:“Dan Smith 的某首歌在2013年 Billboard 排行榜成绩如何?”)时,Naive ReAct Agent 与 SPAgent 流程的对比体现了性能差距的根源:

四、 方法论与技术实现 (Methodology)

SPAgent 的系统架构包含算法层面的“两阶段自适应切换”和系统层面的“两级推测感知调度”。

1. 自适应 Action 级投机 (Adaptive Action-Level Speculation)

系统引入了一个自我反思打分机制来决定采用哪种阶段。使用 LLM 生成 $k$ 个投机动作后,调用模型进行打分,若所有评分均低于预设阈值 $\beta$(表明当前任务步入深水区),则切换为验证模式。

2. 系统级调度:Intra-Speculation Request Schedule (负载感知准入)

在 Serving 场景下,多出的推测请求(Prefill/Decode)可能拖垮引擎。调度器需要在每个 Step 动态选择将哪些处于验证阶段的主任务 $S \subseteq \mathcal{R}$ 发起 $k$ 个推测样本,目标是最大化期望延迟减少量,扣除推理开销

$$ \max_{S} T_r(S, N) = T_{r,a}(S, N) - (T_{o,d}(S, N) + T_{o,p}(S, N)) $$

其中期望缩减量 $T_{r,a}$ 计算为: $$ T_{r,a}(S, N) = \frac{1}{N_m + N_a} \sum_{r \in S} t_{act} \times [1 - (1 - p)^k] $$

$p$ 为击中正确动作的概率,$t_{act}$ 为平均动作耗时。推理引擎的开销通过分析混合 Batch 计算:解码开销 $T_{o,d}$ 与预填充开销 $T_{o,p}$ 随并发数而非线性增加。算法会在运行时贪婪地将推测收益最高的请求入队,一旦边际收益 $\le 0$ 即停止下发推测任务。

3. 系统级调度:Inter-Request Schedule (投机优先排队)

由于标准的 FCFS (First-Come-First-Serve) 调度极易让只有几个 Token 生成的“短推测请求”被主线几百个 Token 的 Decode 请求阻塞(Head-of-line blocking)。SPAgent 设计了类似 SJF 的 Speculation First 策略,提高推测请求优先级,保证它跑在主干 Reason 前面,从而实现真正的时间重叠(Overlap)。如果推测请求在队列中等待超时超过阈值 $t_w$,则被视作已无重叠价值而被抛弃。

五、 实验设置与结论分析 (Experiments & Results)

文章在 RTX 3090, A100 及 A800 上构建了基于 vLLM 和真实 Wikipedia API 调用的测试床。评估了 Qwen2.5 (7B, 32B) 和 Gemma-3 (4B, 27B) 模型。Benchmark 包括 HotPotQA, 2WikiMultihopQA, 和 TriviaQA。

六、 关键技术亮点分析 (Key Highlights)

从工业落地的视角来看,SPAgent 解决的是 LLM Agent 走向大规模生产环境的核心命题——**降本与保并发**:

  1. 从“算法层”到“系统层”的贯通:目前很多所谓 Agent 优化工作只停留在 Prompt 调整流和 Python 循环层级。本文真正深入到了 vLLM 的 PagedAttention 和 Batch 混合调度系统,证明了 System-level Co-design 的巨大威力。
  2. 直面推测机制的高并发诅咒:传统的 Speculative Planning 或 Actions,一旦请求增多,推测产生的算力碎片会立刻挤爆显存和 Decoder。SPAgent 的动态退化机制(边缘收益计算)极为巧妙,引擎负载一高,优雅降级为纯 ReAct,保证系统的高可用性(SLA)。
  3. 打破了推测必验证的思维惯性:洞察到搜索 Agent 的步骤具有“早易晚难”的生命周期,开创性地在早期省略了 Verify 环节,不仅提高了首字速度,甚至连附带的 Acc 收益都在佐证“让大模型在简单任务上强行写 CoT 是资源的极大浪费”。

Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

Agent-R1:基于端到端强化学习训练强大的LLM智能体

Authors: Mingyue Cheng, Jie Ouyang, Shuo Yu, et al.

Institution: State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China (中国科学技术大学)

📄 查看 ArXiv 原文

🔍 研究背景与核心痛点

大语言模型(LLMs)正迅速向具备自主环境交互能力的智能体(Agents)演进。在这条技术路线上,强化学习(Reinforcement Learning, RL)被认为是解锁 LLM 主动交互、工具调用和多步推理潜能的关键技术(正如 DeepSeek-R1、OpenAI o1 在静态推理任务中展现的威力)。

然而,现阶段将 RL 应用于构建多轮交互式 Agent 面临着显著的工程与理论痛点:

💡 核心贡献与创新点

本文从理论到工程提供了一套闭环解决方案,推出了专为多轮交互 Agent 打造的 RL 训练框架 Agent-R1

🛠️ 具体案例剖析:多轮轨迹 (Trajectory) 是如何构成的?

在 Agent-R1 框架下,Agent 与环境的一次互动并非一问一答,而是一个交织着“思考、动作与反馈”的 Multi-turn Trajectory(多轮轨迹)。以框架中的一次 Rollout 为例:

[User Prompt]: "q" (一个多跳问题)

[LLM Rollout - Turn 1]:
<think> 我需要先查一下X的生日。</think>
<tool_call> wiki_search(query="X birthday") </tool_call>

[Environment - Intervenes]:
ToolEnv 检测到 tool_call,暂停生成,调用外部搜索引擎...
<tool_response> X's birthday is January 1, 1990. </tool_response>

[LLM Rollout - Turn 2 (Append)]:
<think> 好的,现在我知道X的生日了,接下来我要回答... </think>
<answer> ans </answer>

痛点解析: 在这条轨迹中,既有 Agent 自己生成的 token(思考和动作),也有环境塞进来的不可导 token(API 返回结果)。传统的单轮 RL 会把整个序列揉在一起算 Loss 或 Advantage,这在 Agent 训练中会引发灾难性的误差。Agent-R1 的核心目的就是解决这类长程交织轨迹的对齐训练问题。

核心架构图
图注:这里用中文解释该图的核心含义:展示了传统的单轮RL生成阶段与Agent-R1多轮交互RL生成阶段的核心区别。Agent-R1引入了 ToolEnv 协调器、动作屏蔽(Action Mask)和过程奖励(Process Rewards),使得策略模型能在多轮环境干预下被正确评估。

⚙️ 方法论与技术实现

1. 扩展型马尔可夫决策过程(Extended MDP)

作者将静态文本生成的单步决策扩展为涵盖多轮历史的 MDP:

2. 工程架构:Tool 与 ToolEnv 解耦

为了支撑上述 MDP,Agent-R1 在 Rollout 设计上做了两个核心模块的拆分:

3. 策略优化:多轮轨迹的精确对齐(Masking 机制)

这是 Agent-R1 算法层面的精髓。由于轨迹中混杂了外部环境的返回内容,如果按照传统方式全量计算,Critic 会难以预估,Actor 的梯度也会跑偏。框架引入了 Action Mask

📊 实验设置与结论分析

论文在需要复杂搜索调用的多跳问答任务(MultihopQA:HotpotQA, 2Wiki, Musique)上进行了严格论证。采用的基础模型是 Qwen2.5-3B-Instruct。

🌟 关键技术亮点分析 (资深从业者视角)

  1. 填补“交互式对齐”框架的空白:相较于 TRL、OpenRLHF 等长于标准 RLHF 训练的框架,Agent-R1 直接杀入 Multi-turn Agent 训练的痛点区。把不可导的环境状态响应完美地缝合进 Rollout 循环,且不干扰梯度的传递。
  2. 优雅的 Action Masking 策略落地:很多从业者在用 RL 训练智能体时,往往因为环境 Prompt、外部反馈扰乱 Value 估计而翻车。本文不仅通过理论(扩展型 MDP)证明了剥离环境噪音的必要性,还提供了一套直接可用的工程级 Action Mask 方案,具有极高的实战指导意义。
  3. 顺应 GRPO 时代:框架原生支持了 DeepSeek-R1 引爆的 GRPO 算法,且实验证明 GRPO 在这类 Tool-use 密集型多轮任务上,表现甚至超越了重装上阵的 PPO,为构建小体积、强 Reasoning 的轻量级 Agent 趟出了一条路。

A Technical Survey of Reinforcement Learning Techniques for Large Language Models

大型语言模型强化学习技术演进与前沿综述

作者:Saksham Sahai Srivastava, Vaneet Aggarwal

机构:University of Colorado Boulder; Purdue University

📄 查看 ArXiv 原文

🔍 研究背景与痛点

近年来,大型语言模型(LLMs)在参数规模和能力上取得了飞跃(如拥有超400B参数的 Llama 3.1 和超600B的 DeepSeek-V3)。然而,单纯依赖极大似然估计的监督微调(SFT)存在根本瓶颈,模型常受困于对齐问题(Alignment Problem),表现为:产生幻觉(Hallucinations)、生成有害偏见内容、且难以严格遵循复杂的多步指令(Complex Instruction Following)。

在此背景下,强化学习(RL)成为对齐LLMs的核心范式。由于RL支持整合不可微(non-differentiable)的反馈信号,能够直接针对主观的“人类偏好”或客观的“代码执行/数学验证结果”进行优化。但将经典RL应用于LLM时面临特有的痛点:

💡 核心贡献

本综述全面梳理了强化学习在LLMs中的技术全貌,并构建了系统的分类体系,核心贡献包括:

  1. 全景技术解析:详细梳理了从基础的 PPO、RLHF,到低成本的 RLAIF、Constitutional AI,再到免Reward Model的隐式对齐(DPO/KTO),以及针对推理优化的前沿算法(GRPO)。
  2. 细分领域应用总结:深刻剖析了 RL 在指令遵循(Instruction Following)、代码生成(Code Generation)、工具使用(Agentic Tool Use)和复杂推理(Reasoning Capabilities)等维度的落地策略。
  3. 构建Taxonomy并开展详尽Benchmark对比:基于“奖励模型策略、反馈机制、RL范式、优化方法”四大维度建立分类学,汇总分析了 13 种对齐算法及各家开源大模型在 Open LLM Leaderboard 上的多任务对比表现。
  4. 指出未来技术演进方向:强调了从偏好对齐向基于验证器的推理对齐(Verifier-Guided RL)、多目标约束以及算法的高效化演进。

🛠️ 具体案例剖析

本综述未局限于单一模型的介绍,而是横向穿插了当前顶级LLM如何通过特定的RL策略实现能力跃迁的具体案例(Case Studies):

⚙️ 方法论与技术实现

本综述详细拆解了LLM领域最核心的几条RL技术路线:

1. 经典的 Proximal Policy Optimization (PPO)

PPO 至今仍是大模型对齐的黄金标准。其核心在于通过截断比率(Clipped Probability Ratio)和 KL 散度惩罚,保证策略更新的稳定性,防止策略崩溃。

$$ \mathcal{L}_{\text{PPO}}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right] $$

2. Group Relative Policy Optimization (GRPO)

由 DeepSeek 提出,专门解决 PPO 的庞大开销。GRPO 摒弃了独立的价值网络(Value Model),它针对同一个 Prompt 采样 $G$ 个候选回答,利用这组回答的奖励进行内部标准化(均值 $\mu$、方差 $\sigma$)来计算组内相对优势(Group-normalized Advantage $\hat{A}_i^{\text{GRPO}}$)。极大降低了内存消耗,特别适合数学等强推理任务。

$$ \mathcal{L}^{\text{GRPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( r_i(\theta) \hat{A}_i^{\text{GRPO}}, \text{clip}(r_i(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i^{\text{GRPO}} \right) \right] $$

3. Direct Preference Optimization (DPO)

基于偏好的隐式奖励优化,免去了训练 Reward Model 的繁琐过程,直接利用 KL 约束下的最优策略形式对策略网络进行分类任务式的更新:

$$ \mathcal{L}_{\text{DPO}}(\theta) = -\mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{p_\theta(y_w|x)}{p_{\text{pref}}(y_w|x)} - \beta \log \frac{p_\theta(y_l|x)}{p_{\text{pref}}(y_l|x)} \right) \right] $$

4. 增强推理的稀疏与密集奖励框架

📊 实验设置与结论分析

作者引用并对比了大量离线(Offline)与在线(Online)对齐方法在多类 Benchmark(包括 Open LLM Leaderboard、HumanEval 等)上的综合表现:

🌟 关键技术亮点分析

从从业者视角来看,本文揭示了当前LLM领域从“模仿学习”全面倒向“强化学习”的深层演进逻辑:

PaSa: An LLM Agent for Comprehensive Academic Paper Search

PaSa:用于全面学术论文搜索的大语言模型智能体

作者:Yichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E

机构:ByteDance Seed、Peking University

📄 查看 ArXiv 原文

🔍 研究背景与痛点

学术文献检索并不只是“搜到几篇相关论文”这么简单。对于研究者而言,真正有价值的是面向复杂、细粒度 query 的高召回、高精度、可追溯的全面检索。传统搜索引擎在 broad query 上还能工作,但一旦进入“某类方法在某类任务上的某个子设定”这种长尾问题,就会迅速暴露短板。

💡 核心贡献

  1. 提出 PaSa 双智能体框架: 用 Crawler 负责广覆盖搜索与引文扩展,用 Selector 负责判别论文是否真正满足 query 条件。
  2. 提出 AutoScholarQuery 数据构建方法: 从顶会论文 related work 中反推复杂 query,并将引用文献作为 supervision,低成本构建学术检索训练集。
  3. 引入 session-level PPO: 针对长轨迹搜索流程,把回报定义在整段检索 session 上,优化智能体的规划和探索策略。
  4. 构建真实评测集 RealScholarQuery: 由真实学术问题和专家标注组成,更贴近科研检索的落地使用场景。

🛠️ 具体案例剖析

论文里给出的典型 query 是:“哪些研究关注基于 value-based methods,尤其是 UCB algorithm 的 non-stationary RL?” 这类问题对传统搜索引擎很不友好,因为它要求同时满足:非平稳强化学习、value-based、UCB 风格算法三个层次的限定。

PaSa 的处理不是一次搜索完事,而是一个多轮过程:

  1. 先根据 query 生成初始检索式,搜到一批候选论文;
  2. 阅读论文标题、摘要,必要时进入全文或指定章节;
  3. 沿着引用/被引关系继续扩展候选集;
  4. 由 Selector 结合 query 条件逐篇判断是否纳入最终答案集。

这种流程更像真正的 researcher workflow,而不是普通 web search。

核心架构图
图注:PaSa 通过 Crawler+Selector 的双智能体协作,把“广撒网检索”和“精筛选判断”拆开处理,并在引用网络中反复扩展与收敛。

⚙️ 方法论与技术实现

1. 双智能体职责拆分

Crawler 追求 recall,负责调用搜索工具、阅读候选文献、遍历 citation graph;Selector 追求 precision,判断某篇论文是否真正回答用户 query。这个拆分非常合理,因为“找得到”和“判得准”本来就是两个不同子问题。

2. Session-level 强化学习

PaSa 不是只在单步 action 上训练,而是把整段搜索流程看成一个 session。直觉上,这等于优化:

$$R_{session} = \alpha \cdot \text{Recall} + \beta \cdot \text{Precision} - \gamma \cdot \text{Cost}$$

虽然论文中的实际奖励定义更细,但核心思想就是:最终不只看“这一步搜得像不像”,而是看整段搜索流程最后是否找全、找准、且成本可控。

3. 数据构建非常聪明

AutoScholarQuery 的亮点在于:不需要人工逐条设计学术复杂 query,而是利用已有论文的 related work 段落反推出“这个作者在比较什么、归纳什么”,再把引用集合当作近似 ground truth。这种方法兼具规模化与学术语义密度。

📊 实验设置与结论分析

PaSa 在真实和合成的 academic paper search benchmark 上,都比传统搜索基线和通用 LLM 检索方案更强,尤其是在 recall 维度优势明显。这一点很关键:学术搜索如果 recall 不够,后续再聪明的 reranker 也没救。

🌟 关键技术亮点分析

  1. 把 academic search 当成 agent problem,而不是 IR 小修小补: 这是本文最重要的视角转变。
  2. Recall-first 的系统意识: 许多系统一上来就优化答案质量,但论文检索里先找全候选更重要,PaSa 在这点上判断很准。
  3. 很适合做企业知识库/专利检索迁移: 这套 Crawler + Selector + citation-style expansion 的思路,不只适合 arXiv,也适合法律、专利、企业文档图谱等高价值检索场景。