大模型 Agent 与强化学习 (RL) 深度学术解读报告

Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with Constraints

基于约束强化学习提升大模型可靠性的审慎搜索框架

作者:Zhenyun Yin, Shujie Wang, Xuhong Wang, Xingjun Ma, Yinchun Wang

机构:复旦大学、上海人工智能实验室

📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

在当前大模型(LLM)的落地应用中,开放域问答、代码合成和复杂决策高度依赖于检索增强(RAG)和Agentic Search。然而,业内普遍面临一个致命痛点:置信度校准失效(Miscalibrated Confidence)。模型经常以极高的确定性输出错误答案,即陷入“错误且自信(False & Certain)”的状态。这种过度自信严重破坏了用户对系统的信任,是阻碍LLM走向高可靠性生产环境的核心壁垒。

现有的RAG或搜索增强方法主要存在两点局限:

💡 核心贡献 (Core Contributions)

本作提出了一种全新的“推理主导”搜索框架——Deliberative Searcher(审慎搜索者),通过带约束的强化学习(Constrained RL),将外部搜索无缝融入CoT生成中,同时维持显式的置信度校准。

🔬 具体案例剖析 (Case Study)

为了直观展示模型如何将“置信度”作为一种需通过证据获取的内部状态,论文提供了一个具体的推演轨迹(图4):

Query: "BERT base比Attention is All You Need多多少个Transformer block?"

  • Step 1: 模型发起 <search> bert base layers。找到BERT有12层。
    当前置信度 (Confidence): 4/10(初步获取信息,仍不确定原始Transformer结构)
  • Step 2: 发起 <search> original transformer architecture。检索结果有歧义,需要查阅一手信源。
    当前置信度: 2/10(发现信息冲突,置信度合理下降)
  • Step 3: 执行 <read> 阅读特定文档摘要,确认原始论文中 N=6。
    当前置信度: 8/10(核心证据链闭环,置信度大幅上升)
  • Step 4: 为求稳妥,再次执行 <read> 交叉验证两个架构的层数。
    当前置信度: 9/10(交叉验证完成,得出最终结论 12-6=6)

资深从业者视角:这个案例极其关键。它证明了约束RL成功地将置信度从一个“二分类判定器”转变为一种“认知探测器”。模型学会了在信息不全时表现出不确定性,并通过主动检索权威证据来“赚取”高置信度。

核心架构图
图注:Deliberative Searcher 的核心交互架构。Agent (LLM) 在内部思考 (think) 后决定发起搜索 (search) 或精读 (read),并在每次环境返回观测结果后,动态自我评估当前的置信度 (confidence),直至输出最终答案 (answer)。

⚙️ 方法论与技术实现 (Methodology)

模型的动作空间定义为 $\mathcal{A} = \{\text{think, search, read, confidence, answer}\}$。模型采用“两阶段检索”:先基于摘要评估相关性,再决定是否提取全文,以此缩减Context长度并提供清晰的决策信号。

1. 约束强化学习目标 (Constrained RL Objective)

传统的RL模型目标是最大化奖励,但在追求正确率时往往会导致过度自信。本文通过引入可靠性约束 $U_i(\theta) \ge a_i$ 扩展了传统框架:

$$P^* = \max_\theta \min_{\lambda \ge 0} \mathcal{L}(\theta, \lambda) = R(\theta) + \sum_{i=1}^m \lambda_i (U_i(\theta) - a_i)$$

这里的 $\lambda$ 是自适应拉格朗日乘子。在GRPO优化过程中,策略网络最大化期望正确率(Primal update),而 $\lambda$ 则通过梯度上升(Dual update)持续调整,以保证系统满足预设的可靠性阈值。

2. 复合奖励设计 (Reward Design)

系统的最终奖励由三部分构成:格式合规性 ($r_{format}$)、回答准确性 ($r_{acc}$) 和 可靠性奖励 ($r_{reliab}$)。其中可靠性定义为正确率与模型自我报告的确定性($c(s_T) \ge \zeta$)的一致性:

$$r_{reliab} \triangleq (r_{acc} \land (c(s_T) \ge \zeta)) \lor (\neg r_{acc} \land (c(s_T) < \zeta))$$

最终 Reward 计算为:$r_{final} = r_{format} \cdot (0.1 r_{format} + 0.9 r_{acc} + \lambda r_{reliab})$。如果格式错误则全局奖励归零,充当硬约束。

📊 实验设置与结论分析 (Experiments & Results)

论文在三大类模型上进行了实验:7B级别(如Qwen2.5-VL-7B, R1-Searcher)、70B级别(如DeepSeek-R1-Distill-Llama-70B)以及闭源SOTA(GPT-4o, Claude 3.5 Sonnet)。评测集覆盖了 In-Distribution 多跳推理(HotpotQA, 2Wiki, MuSiQue)和 OOD 真实联网评测(GAIA, xbench-deepsearch)。

🌟 关键技术亮点分析 (Key Highlights for Practitioners)

AgentV-RL: Scaling Reward Modeling with Agentic Verifier

AgentV-RL:利用智能体验证器扩展奖励建模

作者:Jiazheng Zhang, Ziche Fu, Zhiheng Xi, et al.

机构:复旦大学,华中科技大学,香港大学,字节跳动 Seed

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Motivation)

随着 o1 和 DeepSeek-Math 等推理模型的崛起,测试时扩展(Test-Time Scaling, TTS)已成为提升 LLM 复杂推理能力的核心范式。TTS 的有效性(如 Best-of-N 并行采样或迭代拒绝采样)高度依赖于奖励模型(Reward Model, RM)/验证器(Verifier)的精准度。

然而,现有的验证模型(包括结果奖励模型 ORM、过程奖励模型 PRM 以及基于生成式的奖励模型 GenRM)在复杂数学或逻辑领域面临两个致命挑战:

🚀 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study: 为什么传统 GenRM 会被骗?)

以附录 D 中的复杂多项式求根题为例($x^{10} + (13x - 1)^{10} = 0$,求复数根特征):

⚙️ 方法论与技术实现 (Methodology)

1. 双向智能体架构 (Bidirectional Agentic Verifier)

受数学证明策略启发,验证器分为两个独立协同的角色:

2. AgentV-RL 训练配方

为了让单体 LLM 具备上述多智能体协同、多轮推理和工具调用的能力,作者设计了严密的训练管线:

第一阶段:合成轨迹数据构建与 SFT (Rejection Fine-Tuning)
利用提示工程引导基础模型生成带有工具调用的验证轨迹 $\mathcal{H}$。仅保留其预测结论 $\tilde{l}$ 与真实标签 $l$ 一致的高质量轨迹进行 SFT 训练。SFT 损失函数旨在对齐多轮决策行为,由于遮蔽了环境观察(工具返回结果),损失仅计算在策略生成的 action 和 thought 上: $$ \mathcal{L} = -\mathbb{E}_{\tau \sim \mathcal{H}} \left[ \sum_{i=1}^{|\mathcal{H}|} \mathbb{I}[\tau_i \neq o_i] \cdot \log \pi_\theta (\tau_i | \mathcal{H}_{

第二阶段:群体相对策略优化 (GRPO)
为了进一步解锁自主探索能力并拉长验证视界,引入 GRPO 进行强化学习。对同一问题-解答对,使用当前策略采样 $G$ 条验证轨迹。奖励函数直接基于最终 Verdict 是否与 Ground Truth 匹配来给分:如果 $\tilde{l} = l$ 则 $r = 1$,否则 $r = -1$。优化目标为: $$ \mathcal{J}_{GRPO}(\psi) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \sum_{t=1}^{|\mathcal{H}_i|} \min \left( \frac{\pi_\psi}{\pi_{old}} \hat{A}_{i,t}, \text{clip}\left(\frac{\pi_\psi}{\pi_{old}}, 1-\epsilon, 1+\epsilon\right) \hat{A}_{i,t} \right) - \beta D_{KL}(\pi_\psi || \pi_{ref}) \right] $$

📊 实验设置与结论分析 (Experiments & Results)

实验设置:基座模型选用 Qwen3-4B,在 MATH500, GSM8K, Gaokao2023, AIME24 等高难度数学基准上进行测试。评估场景分为 Best-of-N (BoN, 并行扩展) 和 Sequential Scaling (迭代修正)。

核心结论:

🌟 关键技术亮点分析 (Expert Highlights)

从大模型对齐与推理系统架构的角度来看,本论文贡献了几个非常具有前瞻性的 insight:

  1. Verifier 的“智能体化 (Agentic)”是必然趋势: 随着 Generator/Actor 模型输出的 CoT 越来越长(如 o1-like 模型的几千 tokens),期待用一个静态的 ORM 甚至 PRM 一次性完成精准打分已经不现实。将 Verification 本身视为一个需要多步探索、验证的推理任务,是打破 Reward Model 能力瓶颈的核心解法。
  2. “双向验证”完美对应数学中的“充要条件”: 前向推导防范的是逻辑断层,后向倒推防范的是伪造前提。这种机制在算法层面逼迫 LLM 逃离自身的“上下文惯性”(Attention Drift),避免被生成的漂亮但不讲理的代码/公式洗脑。
  3. “RL for Verifier” 的闭环: 过去 RL 大多用于训练生成器(Actor)。本篇工作展示了通过 GRPO 优化带有工具调用的验证器轨迹,证明了 Verifier 自身也可以通过 RL 产生深刻的 System-2 思考。这为构建超越人类标注水平的超强自动化判别器(Super-human AI Judge)铺平了道路。

整合图、大语言模型与智能体:推理与检索的全面综述

Integrating Graphs, Large Language Models, and Agents: Reasoning and Retrieval

作者:Hamed Jelodar, Samita Bai, Mohammad Meymani, 等

机构:加拿大网络安全研究所,新不伦瑞克大学 (University of New Brunswick)

📄 查看 ArXiv 原文

📍 研究背景与痛点 (Background & Pain Points)

近年来,基于 Transformer 的大语言模型(LLMs)在自然语言理解和非结构化文本生成方面展现了极其强大的能力。然而,作为资深从业者,我们深知纯参数化的 LLM 在处理复杂逻辑、长逻辑链推理以及知识强依赖场景时,存在明显的局限性:

因此,将图结构(Graphs)、大语言模型(LLMs)与智能体(Agents)进行深度融合,取长补短(结构化推理的严谨性 + 非结构化语义的泛化性),成为了当前 Gen-AI 走向可信、可解释决策系统的核心演进路径。

🚀 核心贡献 (Core Contributions)

本文是一篇极具参考价值的宏观综述,系统性地梳理了“图-大模型”融合的技术全景,为从业者提供了清晰的架构设计指南(When, Why, Where, and What):

  1. 构建统一的 Graph-LLM 融合分类法: 按照“功能角色分类”(图构建、图推理、图谱问答、场景图)、“图模态分类”(知识图谱、场景图、交互图、依赖图等)以及“集成策略”(Prompting、RAG、Training、Agentic)进行了详尽的解构。
  2. 深度剖析 Hybrid GNN-LLM 架构: 梳理了当前预训练、协同训练与单向增强(LLM4GNN vs GNN4LLM)的最新 SOTA 范式。
  3. 提出 Graph-Agent-LLM 新范式: 探讨了如何将图作为 Agent 的“记忆(Memory)”和“规划(Planning)”载体,推动多步复杂工作流的自动化。
  4. 落地场景映射: 详细评估了该技术栈在网络安全(恶意软件分析)、医疗(电子病历提取)、推荐系统及合规审计等领域的实际工程价值。

💡 具体案例剖析 (Case Studies)

为了直观展示 Graph-LLM 融合的威力,以下提取论文中提及的几个典型落地范例:

⚙️ 方法论与技术实现 (Methodology & Architecture)

论文对两大基础架构的数学本质进行了对比,并提出了多种技术融合路径。大模型通过自回归机制计算序列联合概率:

$ P_\theta(\mathbf{x}) = \prod_{t=1}^{T} P_\theta(x_t \mid x_{

而 GNN 通过消息传递(Message Passing)显式捕获局部邻域信息并更新表征:

$ \mathbf{h}_v^{(l+1)} = \phi^{(l)} \left( \mathbf{h}_v^{(l)}, \bigoplus_{u \in \mathcal{N}(v)} \psi^{(l)}\left(\mathbf{h}_v^{(l)}, \mathbf{h}_u^{(l)}, \mathbf{e}_{uv}\right) \right) $

两者的融合可划分为以下几个核心范式:

1. LLM 辅助的图构建 (LLM-Assisted Graph Construction)

即 Text2KG。传统的多阶段流水线(NER -> RE -> EL -> Schema Alignment)需要大量标注数据且易发生级联错误。当前 SOTA 转向统一生成范式(Unified Generation),通过 Prompt 或 RAG 约束,LLM 可以端到端地输出 JSON/RDF 三元组。进阶做法包括零样本迭代构建(如使用 LLM 动态提取并反向验证幻觉)。

2. 图增强大模型推理 (Graph-Enhanced LLM Reasoning)

包含了如今大火的 GraphRAG 技术。它将检索单元从“孤立的文本块”升级为“关联的知识子图”。模型不再依赖隐式学习,而是通过硬提示(Hard Graph Prompting)、软提示图词表化(Soft Graph Tokenization)或路径指引推理(Path-Guided Inference)将显式的结构约束输入给 LLM。这种方法使得模型具备了多跳推理(Multi-hop inference)能力。

3. 混合 GNN-LLM 架构 (Hybrid GNN-LLM Models)

这是学术界目前最硬核的研究方向,分为四类耦合策略:

4. 场景图 (Scene Graphs) 与大语言模型

结合多模态(VLM),LLM 充当了推理、解析、规划和验证的大脑。在 2D/3D 甚至动态时间场景下,场景图将物理世界的物体属性与空间关系抽象化,LLM 基于此执行零样本导航(Zero-shot Navigation)、机器人任务规划甚至 3D 场景生成与编辑(如 SceneCraft)。

5. Graph-Agent-LLM 融合 (Agentic Reasoning)

将图作为智能体的情景与语义记忆库 (Episodic + Semantic Memory)。例如 LAFA 框架在联邦分析中,Agent 将复杂查询分解为有向无环图 (DAG) 格式的执行计划进行优化调度;而 X-GridAgent 利用规划层、协调层和动作层与领域特定图数据库交互,实现自动化电力网分析。

📊 实验设置与结论分析 (Experiments & Findings)

论文对当前领域的测试基准与实验结论进行了宏观总结:

🌟 关键技术亮点分析 (Key Innovations & Challenges)

站在资深技术人员的视角,本综述揭示了当前 Graph-LLM 融合落地的几个关键亮点和未解难题(Open Challenges):

CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution

作者:Shidong Yang, Ziyu Ma, Tongwen Huang, Yiming Hu, Yong Wang, Xiangxiang Chu

机构:AMAP, Alibaba Group (高德/阿里集团)

📄 查看 ArXiv 原文

1. 研究背景与核心痛点

强化学习(RL)已成为训练具身或软件环境交互式大语言模型(LLM Agent)的主流范式。然而,目前大多数Agent的训练重度依赖静态数据集(Static Data Distribution)。这种传统范式面临以下痛点:

2. 核心贡献

本论文提出了一种零人工干预的动态强化学习框架——CoEvolve(协同进化)。该框架使得Agent策略与其训练数据分布在闭环的交互反馈中实现“相互促进,共同演进”:

3. 具体案例剖析 (Case Study)

为了直观理解CoEvolve是如何通过信号制导生成能够“压榨”Agent能力的复杂任务,我们可以参考论文附录中在AppWorld环境下的生成案例:

4. 方法论与技术实现

CoEvolve建立在一个支持训练时数据动态扩充的循环系统上,其基线优化算法采用最新的组相对策略优化(GRPO),优化目标如下:

$$ \mathcal{J}(\theta) = \frac{1}{\sum_{k=1}^K |\tau_k|} \sum_{k=1}^K \sum_{t=1}^{|\tau_k|} \text{CLIP}(r_{k,t}(\theta), \hat{A}_k, \epsilon) - \beta \cdot \mathbb{D}_{\text{KL}}[\pi_\theta \parallel \pi_{\text{ref}}] $$

在此基础上,整个演化过程分为三个关键Stage:

Stage 1: 训练与弱点信号提取 (Training and Signal Extraction)

在GRPO训练采样时,算法通过监控轨迹指标,实时捕获三种行为信号:

Stage 2: 信号制导的环境重探索 (Signal-Guided Environment Re-exploration)

首先由一个辅助LLM将提取到的带标注信号与历史轨迹转化为“探索上下文(Context)”,明确失败根因和重点探索方向。随后,LLM基于该上下文在真实环境中进行两个维度的正交展开:多轮探索(Multi-round)以提升多样性,多步探索(Multi-step)以确保观察-动作依赖反馈链的完整性。此阶段产出的是底层的步级别交互三元组(Step-level Triplets)。

Stage 3: 任务抽象与验证 (Task Abstraction and Validation)

把底层的杂乱Triplets直接喂给Agent显然是低效的。论文引入了抽象机制:由LLM将相关Triplets总结归纳出高层的“意图指令(Query)”“黄金解法(Action Sequence)”。最核心的是环境验证(Environment Validation):新合成的任务必须在真实环境跑通验证(完成任务或取得正向Reward),才会被正式加入任务集 $D_t$ 中,这彻底过滤了LLM极易产生的“幻觉任务”,保证了闭环演进的稳定性。

5. 实验设置与结论分析

团队在具有高度复杂性的评测工具上进行了详尽测试,包括AppWorld(跨多App的长链条API调度)和BFCL-V3(Berkeley Function Calling的复杂工具链场景)。

6. 关键技术亮点分析

Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents

中文标题:经验压缩光谱:统一LLM Agent的记忆、技能与规则

作者:Xing Zhang, Guanghui Wang, Yanwei Cui, 等人

机构:AWS Generative AI Innovation Center, HSBC Holdings Plc.

📄 查看 ArXiv 原文

1. 研究背景与痛点 (Background & Pain Points)

随着 LLM Agent 从单次会话的 Demo 走向持久化、长周期的真实环境部署,Agent 积累的交互经验(Interaction traces)正呈指数级增长。一个每天处理数千个任务的 Agent,其产生的日志会迅速耗尽任何实际的 Context Window 或检索预算。管理这些经验知识成为了第一级的扩展性瓶颈。

当前业界主要有两个独立的研究社区在试图解决这一问题:

核心痛点:作者通过对22篇核心论文的1,136篇参考文献进行分析,发现这两个社区的交叉引用率不到 1%。这两个社区在各自的孤岛中独立解决了相同的基础子问题(如知识检索、冲突解决、陈旧数据清理)。此外,现有的系统都在单一、预设的压缩层级上运行,导致了“专业化有余而通用性不足”,无法实现根据经验积累动态改变抽象层级的自适应扩展。

2. 核心贡献 (Core Contributions)

本文没有提出一个具体的代码库或单一模型,而是提出了一个极具高屋建瓴视角的**统一架构框架**,具有深远的指导意义:

3. 具体案例剖析 (Case Study: 跨层级动态演进)

为了具象化“缺失的对角线”到底应该怎么运作,作者给出了一个非常精彩的理想化客服 Agent(Customer-support Agent)演进案例,展示了知识如何在 L1 到 L3 之间双向流动:

场景设定:客服 Agent 处理 API 请求

  • 阶段 1 (L1 Episodic Memory):Agent 在调用 /api/export 时遇到了 Timeout(超时)错误,它将这次具体的失败过程存为一个 L1 级别的记忆。
  • 阶段 2 (L2 Procedural Skill 向上晋升):当系统积累了 5 次类似的 L1 记忆后,系统的“晋升引擎”触发,将这些记忆合并提取为一个 L2 级别的通用技能(Skill):
    "HANDLE_EXPORT_TIMEOUT: 检查 Batch Size,如果大于 1000 行则减小 Batch 并重试。"
  • 阶段 3 (L3 Declarative Rule 向上抽象):随着 Agent 在几十个不同的 Endpoint(不仅仅是 export)上都运用了类似策略,系统泛化出一条 L3 级别的领域陈述性规则:
    "处理数据密集型 Endpoint 时,Timeout 通常源于过大的 Batch Size。"
  • 阶段 4 (向下回退 Demotion):如果在某个极其特殊的全新上下文中,这条 L3 规则失效了,系统会自动回退(Demote),降级回 L1 模式,重新开始收集该特殊上下文的独立证据。

当前的系统只能做到其中一步(要么存记忆,要么写技能),而未来的架构应该像人类认知一样,实现上述全生命周期的流转。

4. 方法论与技术实现 (Methodology)

作者建立了一个形式化框架来描述经验压缩:

定义交互轨迹为 $\mathcal{T} = \{(s_t, a_t, o_t, f_t)\}_{t=1}^N$,包含状态、动作、观察和反馈。经验压缩函数定义为 $\mathcal{C}_L: \mathcal{T} \rightarrow \mathcal{K}_L$,其中 $L \in \{0, 1, 2, 3\}$ 代表压缩层级。

系统设计的三个属性权衡 (Trade-offs):

  1. 泛化性 vs. 特异性:压缩级别越高,知识泛化能力越强,但上下文细节越少。
  2. 压缩率 vs. 细节保留:高级别压缩通过语义抽象丢弃背景噪声(如 Mem0 从 26k Token 压到 1.8k Token)。
  3. 获取成本 vs. 维护成本:获取一条 L1 记忆很便宜,但大规模部署时维护/检索 L1 的成本是线性的且极高。L3 规则提取需要大量算力,但一旦成型,在千百次调用中维护和检索成本极低。

5. 实验设置与结论分析 (Experiments & Analysis)

作为一篇 Meta-Analysis 导向的论文,作者通过横向对比各顶级顶会的实证结果,提炼出了对 Agent Scaffold 系统开发至关重要的结论:

6. 关键技术亮点分析 (Key Highlights & Open Problems)

对于深入 Agent 架构设计的工程师和研究者,本文指出了极具商业和研究价值的未来方向: