大模型 Agent 与强化学习 (RL) 深度学术解读报告

Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval

SIRA:信息检索的下一个前沿——超智能检索Agent

作者:Zeyu Yang, Qi Ma, Jason Chen, Anshumali Shrivastava

机构:Meta Superintelligence Labs, Rice University

📄 查看 ArXiv 原文

研究背景与痛点 (Background & Pain Points)

在大模型和 RAG(Retrieval-Augmented Generation)时代,信息检索系统正逐渐演变为基于自然语言对话和多轮问答的交互范式。然而,当前的搜索 Agent 和检索基础架构面临着根本性的不匹配与痛点:

核心贡献 (Core Contributions)

本作定义了检索领域的“超智能”:将传统繁冗的多轮探索式搜索,压缩成单次、具备领域判别性的受控检索动作。核心贡献如下:

具体案例剖析 (Case Study)

示例查询:What is the name of the researcher who discovered the theory of relativity?

核心架构图
图注:SIRA 流水线架构概览。左侧为离线的语料库端增强,右侧为在线的查询端增强,二者最终汇合到一次加权 BM25 检索。

方法论与技术实现 (Methodology)

1. 语料端离线增强

冻结的 LLM 读取语料库中的文档,预测用户可能使用但文档中缺失的搜索词(同义词、缩写、别名、对立观点词等)。所有候选词都要通过 DF 过滤,只保留满足 $DF \le \tau \cdot |C|$ 的短语,再注入增强版 BM25 倒排索引。

2. 查询端在线增强

针对用户查询 $q_{orig}$,LLM 生成 expected-response sketch,再通过相同的 DF 过滤器校验,要求这些扩展词既不能太泛化,也必须在当前索引中真实存在。

3. 加权 BM25 重组

最终评分形式为:

$\text{score}(d) = \text{BM25}(q_{orig}, d) + w \cdot \text{BM25}(q_{exp}, d)$

这样进入 $q_{exp}$ 的词往往具备高 IDF,从而在排序时主导区分真正相关文档与 confusers。

实验设置与结论分析 (Experiments & Results)

作者在 BEIR 10 个数据集上进行评估,对比 BM25、E5、SPLADE、HyDE 以及各类多轮搜索 Agent。SIRA 在零监督设置下平均 Recall@10 达到 0.691,显著优于 E5 的 0.648、SPLADE 的 0.625 与 BM25 的 0.530。

在 NQ 和 HotpotQA 等下游 QA 任务中,SIRA 作为单轮 Retriever,其 Top-10 answer coverage 甚至超过部分复杂 Agent 系统的最终 QA 准确率,说明“高质量单发检索”本身就可能比低质量多轮搜索更值钱。

关键技术亮点分析 (Key Technical Highlights)

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

StraTA:通过战略轨迹抽象激励智能体强化学习

📝 作者:Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

🏫 机构:香港中文大学、上海人工智能实验室、乔治亚大学、牛津大学、深圳循环区研究院等

📄 查看 ArXiv 原文

研究背景与痛点

现有 Agentic RL 多数仍是纯反应式策略:在每个时间步只根据当前状态直接生成动作。这会导致短视探索、回溯增多以及前后行为不一致。同时,长轨迹任务的奖励往往高度稀疏、严重延迟,信用分配极难。

StraTA 的直觉是:像人类解决复杂问题一样,模型应该先显式产出一段高层 Strategy,再在其约束下执行细粒度 Action,并在事后复盘策略与执行的一致性。

核心贡献

  1. 显式战略轨迹抽象: 让模型先基于初始状态生成自然语言全局策略 $z$,再在后续每一步动作生成时将其作为条件。
  2. 层次化 GRPO: 在策略层与动作层上构造两级采样与优化结构。
  3. 多样性策略采样 + 自我评判: 用最远点采样鼓励策略探索,用批判性自我判断为不遵循策略且无助于完成任务的步骤施加惩罚。
  4. 实证效果强: 在 ALFWorld、WebShop、SciWorld 上明显领先多种开源 RL baseline 与若干闭源模型。

具体案例剖析

在 SciWorld 中,模型先生成“先开 hallway door、观察环境、再去 outside 比较动物寿命”的全局策略,后续诸如 open、goto、focus 等动作都围绕该策略展开。若 rollout 中存在偏离路线的无效动作,训练阶段的 self-judgment 会将其标记为惩罚目标,从而改善 credit assignment。

核心架构图
图注:StraTA 框架概览。左图展示层级 GRPO 组构建,中图展示策略多样性采样,右图展示基于自我判断的步级辅助惩罚。

方法论与技术实现

在初始状态 $s_1$ 上先生成文本策略 $z \sim \pi_\theta(\cdot \mid s_1)$,后续动作按 $a_t \sim \pi_\theta(\cdot \mid z, s_t)$ 生成。StraTA 对每个任务先采样多个策略,再在每个策略下采样多条轨迹。

为了评估策略层质量,作者没有直接平均其下所有 rollout 回报,而是对其中 top-$\delta$ 的高质量 rollout 取均值,从而近似表示该策略的上界潜力:

$ R(z^i) = \text{mean}(\text{top-}\delta (\{R(\tau^{i,j})\}_{j=1}^M)) $

同时引入最远点采样选择语义上最分散的策略,并让模型在轨迹结束后判断哪些步骤既没遵守全局策略、也没推动任务进度,再对这些步施加辅助惩罚。

实验设置与结论分析

在 7B 级别,StraTA 在 ALFWorld 达到 93.1%,WebShop 达到 84.2%,SciWorld 达到 63.5%,均显著超过 Vanilla GRPO 和多种强基线。加入 Diverse + Judgment 后,训练收敛更快,最终性能更高。

关键技术亮点分析

基本信息

英文标题:Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

中文标题:RL 能教会大语言模型长程推理吗?逻辑表达能力是关键

作者:Tianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov

机构:普渡大学、UNC、Georgia Tech、UCSD

📄 查看 ArXiv 原文

研究背景与核心痛点

RLVR 正成为提升 LLM 复杂推理能力的关键后训练范式,但真实数学/代码数据虽然可自动验证,却难以精细控制“推理深度”与“逻辑表达能力”。这使得我们很难系统回答:随着 horizon 变深、表达能力变强,训练成本究竟如何增长。

核心贡献

具体案例剖析

论文展示了一个典型差异:未经 RL 的模型在对数方程题中只考虑“判别式为 0”这一浅层情况,直接得出答案 2;而经 SCALELOGIC 强化后的模型会继续检查定义域与根分布,显式展开分支推理,最终得出正确答案 501。这个案例非常直观地证明:模型学到的是“补全逻辑树与验证遗漏分支”的能力,而不是某类题目的模板。

核心架构图
图注:SCALELOGIC 框架图。通过后向构造生成唯一可验证证明树,并系统控制逻辑表达能力与树深度。

方法论与技术实现

作者使用 backward construction:从候选结论反向生成规则树,再对错误选项做轻微破坏,确保每道题具有唯一正确推导路径。框架支持 implication、conjunction、negation、disjunction、quantification 五级表达能力。

强化学习部分采用基于 GRPO/DAPO 的设置,仅在最终答案正确时给出二元稀疏奖励。结果显示,长程推理的训练成本随深度近似满足幂律。

实验设置与结论分析

在 Qwen3-4B / 8B 上,作者发现当逻辑表达能力增强时,幂律指数 $\gamma$ 从接近线性增长一路提升到明显超线性。使用课程学习后,可显著降低训练成本曲线的陡峭程度。同时,这些在合成逻辑上得到的能力能稳定迁移到 MATH500、AIME、GPQA 等真实 benchmark。

核心技术亮点与启发

ROSE: Rollout On Serving GPUs via Cooperative Elasticity for Agentic RL

ROSE:通过协作弹性在 Serving GPU 上加速 Agentic RL 的 Rollout

作者:Wei Gao, Yuheng Zhao, Tianyuan Wu 等

机构:香港科技大学、阿里巴巴集团

📄 查看 ArXiv 原文

研究背景与核心痛点

Agentic RL 的 rollout 通常占到总体 wall-clock 的大头,而且轨迹时长分布存在明显 long-tail。静态分配 GPU 会造成大量等待;而 spot/serverless 弹性扩容又会引入冷启动、容器重拉与模型重载的额外成本。另一方面,Serving 集群为了应对流量峰值,平时往往长期闲置。

核心贡献

具体案例剖析

在训练集群与线上集群分离的场景中,ROSE 会在平峰时把大量 rollout 调度到 Serving GPU 上;一旦线上突发流量,系统立即回收 rollout 的 KVC 预算,把显存页归还给 Serving 模型。被驱逐的 rollout 任务再路由回训练集群继续执行,保证用户侧 TTFT/TPOT 不被拖垮。

方法论与技术实现

ROSE 通过双 SLO 准入控制,在 TTFT 与 TPOT 的 slack 允许范围内插入 rollout token 计算。对显存管理,利用 CUDA VMM 维护 Serving 与 Rollout 各自的虚拟地址空间,并按页重映射底层物理显存。

在跨集群同步中,作者不直接传全量权重,而是传递 $\Delta W_t = W_t - W_{t-1}$ 的稀疏表示,再在目标侧恢复,极大降低跨机房带宽压力。

实验设置与结论分析

在 Qwen3-8B 与 Qwen3-32B 的 Agentic RL 设置下,ROSE 相比固定资源框架和若干弹性基线,在吞吐上达到 1.2x–3.3x 的提升,同时能更稳定满足 Serving 端的 P99 SLO 约束。

关键技术亮点分析

SkillOS: 智能体自我进化的技能库精选强化学习框架

Title: SkillOS: Learning Skill Curation for Self-Evolving Agents

作者: Siru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, 等

机构: UIUC, Google Cloud AI Research, MIT

📄 查看 ArXiv 原文

研究背景与痛点

多数 LLM Agent 仍是一次性问题求解器,无法真正从历史任务中积累可复用技能。现有记忆管理方法要么依赖人工编写,要么依赖启发式规则,难以在开放域长期任务流中高质量地进行技能插入、更新与删除。

核心贡献

具体案例剖析

在 AIME 类数学任务中,SkillOS 生成的技能不再只是泛泛而谈的文字,而是会产出带 workflow、约束条件和示例的 procedural knowledge;在 ALFWorld 中,它能从历史经验中总结出“先取目标物、再去光源处检查”这类真正可复用的行动策略。

方法论与技术实现

SkillOS 将每个技能组织为 SKILL.md 风格文件。Curator 的动作空间被约束为 insert_skill、update_skill、delete_skill 三类操作。训练时,以任务组为单位顺序执行,使早期任务产生的技能能够影响后续任务。

整体奖励可表示为:

$r = r^{task} + \lambda_f r^{fc} + \lambda_u r^{cnt} + \lambda_c r^{comp}$

其中任务成败是核心信号,另辅以函数调用格式、内容压缩与外部 judge 评分,避免模型只是把轨迹原文塞进记忆库。

实验设置与结论分析

在 ALFWorld、WebShop 及数学推理任务上,SkillOS 一致优于无记忆和多种 memory baseline,同时还显著降低交互步数。更有价值的是:训练出的 Curator 可以迁移服务于更强的 Executor,显示出明显的跨执行器泛化能力。

关键技术亮点分析