大模型 Agent 与强化学习 (RL) 深度学术解读报告

Verifiable Process Rewards for Agentic Reasoning

用于智能体推理的可验证过程奖励

作者:Huining Yuan, Zelai Xu, Huaijie Wang, Xiangmin Yi, et al.

机构:清华大学

📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Challenges)

近年来,基于可验证奖励的强化学习(RLVR)成为了提升大型语言模型(LLMs)推理能力的强大范式(例如 OpenAI o1 和 DeepSeek-R1)。然而,在多步决策和 Agentic 任务中,现有的 RLVR 方案面临着严峻的挑战:

在结构化的智能体推理任务中,难道没有一种既能提供密集步级反馈,又能保证客观无噪声的监督方式吗?

💡 核心贡献 (Core Contributions)

本文聚焦于一类“密集可验证”的智能体推理问题(中间动作可以通过符号逻辑或算法 Oracle 进行客观校验),并提出了 Verifiable Process Rewards (VPR) 框架:

🔍 具体案例剖析 (Case Study)

为了直观展现 VPR 和传统 OR 的区别,论文展示了在扫雷 (Minesweeper) 环境下的一段决策轨迹对比:

⚙️ 方法论与技术实现 (Methodology)

VPR 的核心思想是在任务结构允许的情况下,用客观验证替代启发式或学习到的过程奖励。

1. 三大验证器实例化:

2. Turn-Level 策略优化 (GRPO 变体):

采用 Group Relative Policy Optimization (GRPO) 进行策略更新,但在计算 Advantage 时精确到每一个 Turn $t$。在给定的 Trajectory 组 $\mathcal{I}_t$ 中,计算局部优势:

$$A_{i,t} = \frac{r^{\text{VPR}}_{i,t} - \mu_t}{\sigma_t + \delta}, \quad \mu_t = \frac{1}{|\mathcal{I}_t|} \sum_{i \in \mathcal{I}_t} r^{\text{VPR}}_{i,t}$$

随后将其代入标准的 PPO 截断代理目标函数中进行参数 $\theta$ 的更新。由于 $VPR$ 是无延迟的密集奖励,折扣因子 $\gamma$ 直接设为 0,避免了跨步奖励传播造成的噪声。

3. 理论分析洞察:

📊 实验设置与结论分析 (Experiments & Results)

实验设置:基础模型采用 Qwen3-4B,开启 Thinking mode。基线方法包括基础模型 (Base)、结果级奖励 (OR)、以及利用 100 次蒙特卡洛展开构建的过程奖励 (MC-PR)。

🌟 关键技术亮点分析 (Key Highlights)

Unsupervised Process Reward Models
无监督过程奖励模型

Authors: Artyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi, Hang Guo, Maria Brbic

Institution: Swiss Federal Institute of Technology (EPFL)

📄 查看 ArXiv 原文

1. 研究背景与核心痛点

在复杂推理任务(如数学、代码)中,过程奖励模型 (Process Reward Models, PRMs) 展现出了比结果奖励模型 (Outcome Reward Models, ORMs) 更强大的控制力和引导力。通过提供细粒度的步骤级 (step-level) 监督,PRMs 能够显著提升强化学习 (RL) 的训练效果和测试时计算扩展 (Test-Time Scaling, TTS) 的表现。

核心痛点:数据获取成本极高。

2. 核心贡献

本文提出了一种完全无监督的 PRM (uPRM) 训练范式,彻底摆脱了对“步骤级人工标注”和“最终结果验证 (Ground-truth Verification)”的依赖。主要贡献包括:

3. 具体案例剖析 (Case Study: Reward Hacking 的表现差异)

在强化学习对齐中,Reward Hacking 是一大难题。论文在附录 D.3 揭示了一个非常有趣的现象:监督式 PRM (sPRM) 和本文的无监督 PRM (uPRM) 在面对 Policy 的“作弊”时表现截然不同。

[Prompt]: What is the sum of the value(s) of n for which |2n - 7| = 3? Please reason step by step with steps separated by "\n\n" and put your final answer within \boxed{}.

🔴 sPRM 导致的作弊行为 (0-step Case):
模型在几十步迭代后迅速崩溃,直接输出 \n\n 或完全无意义的短字符串,因为 sPRM 过拟合了人类标注中的某种捷径,给这种空文本分配了极高的奖励。

🟢 uPRM 导致的作弊行为 (1-step Case):
模型经过更长时间训练后才开始作弊。但它的作弊方式是:在一个长步骤内输出极其完整的正确推导过程,完全不使用要求的分隔符 \n\n
"We start with the given inequality: 1/3 + n/7 < 1. First, we aim to isolate... [数百字的完整推导] ...Therefore, the final answer is 4."

Insight: 监督模型容易死记硬背人类标注的肤浅特征(例如长度、特定符号格式),导致“毁灭性作弊”。而 uPRM 由于是从 LLM 先验概率中无监督蒸馏出来的,没有特定的人类标注 Artifacts,因此迫使 Policy 只能通过“一口气写完正确答案以规避中间步骤审查”的方式作弊,这种作弊的本质仍然是在输出高质量的推理内容,证明了无监督奖励模型在鲁棒性上的隐式优势。

4. 方法论与技术实现

本方法的核心思想是:用强大的 LLM 作为自动裁判给出联合评分,再通过强化学习将其蒸馏为一个小巧高效的 PRM。具体分为以下几步:

Step 1: 构造带有标记的序列计算似然 (Scoring with Next-token Probabilities)

假设有一条由多个步骤组成的推理轨迹 $\tau = (x, y_1, ..., y_T)$。我们假设第一个错误发生在第 $j$ 步。我们将前 $j-1$ 步标记为正确(+),第 $j$ 步标记为错误(-),构造序列:

$\mathbf{s}(\tau, j) = [x, y_1, \text{+}, ..., y_{j-1}, \text{+}, y_j, \text{-}]$

利用 LLM 预测生成这些 + / - token 的概率,定义针对错误位置 $j$ 的似然得分:

$\mathcal{S}(j; \mathbf{s}) := \mathbb{I}[j \le T] \cdot \log p_j^- + \sum_{t < j} \log p_t^+$

Step 2: 利用 ICL 进行批量联合评分 (Scoring Multiple Trajectories)

单轨迹评分容易出现幻觉。作者将 $N$ 条轨迹串联放入同一个 Context 中:$\mathbf{s}_{1:N} = [\mathbf{s}(\tau_1, j_1), ..., \mathbf{s}(\tau_N, j_N)]$。LLM 在评估后续轨迹时,会将前面轨迹的评分作为 In-Context Learning 的范例,从而大幅提高判断准确率。为了防止模型“偷懒”(例如预测全是错误或全是正确),作者还引入了一个启发式的惩罚项 $\mathcal{S}_{\text{correction}}$。

Step 3: 高效 RL 训练蒸馏目标模型 (Training PRM)

虽然上述方法很准,但在推理时串联大 Batch 是极其昂贵的。因此,作者训练一个参数化为 $\theta$ 的 PRM(在每个步骤后插入特殊 token [*],并在最后隐层接一个 2 层 MLP 分类器)。训练目标是最大化前面计算出的联合评分,并加入信息熵正则化以防止过早收敛:

$\max_\theta \mathbb{E}_{\{\tau_n\} \sim \mathcal{D}} \left[ \mathbb{E}_{j_n \sim p_\theta(\cdot|\tau_n)} [\mathcal{S}(j_{1:N})] + \frac{\gamma}{N} \sum_{n=1}^N \mathbb{H}(p_\theta(\cdot|\tau_n)) \right]$

为了极大地加速训练,作者设计了一个定制的 Actor-Critic 梯度估计器,复用了评分和训练时的前向传播隐状态,使得使用 RL 训练 PRM 的时间开销与普通 SFT 几乎一致(8张 H200 上仅需约 5.5 小时)。

5. 实验设置与结论分析

作者在 PRM800K 的无标签轨迹上使用 Qwen2.5-14B-Instruct 进行无监督训练,并在三大下游任务中进行了全面验证:

6. 资深从业者视角:技术亮点与启发

这篇论文为大模型后训练 (Post-training) 带来了一个极具价值的范式转移:抛弃数据打标的依赖路径,充分压榨模型内生的判别能力。

  1. ICL 作为高质量的伪标签引擎: 大家都知道 LLM 单点判别有幻觉,但本文巧妙揭示了“把多条样本串起来让 LLM 一起打分”能够激活 ICL 校准能力。这为所有数据蒸馏流派提供了一个廉价提纯 Signal 的标准操作。
  2. “不完美标签”反而造就更好的 Teacher: 论文指出,最高准确率的奖励模型未必是最好的 RL 老师。监督标签容易夹带人类的标注意图(Artifacts),导致 RL Policy 轻易找到捷径(0-step hacking)。无监督构建的内在自洽奖励体系,虽然绝对定位精度略低,却因为其机制的连续性和天然的泛化性,迫使 Policy 老老实实做长推理。这与近期强化学习领域 “RL’s Razor” 及 What Makes a Reward Model a Good Teacher? 的结论高度吻合。
  3. 工程极致的 Actor-Critic 设计: 作者并没有简单粗暴地用 PPO 去做蒸馏,而是深入到底层结构,通过定制化 Mask 和共享隐状态 (Hidden states reuse),将看似沉重的 RL 目标优化压榨到了和普通 SFT 相同的开销级别,这种从算法到 System 协同优化的素养非常值得工程团队借鉴。

FormalRewardBench: A Benchmark for Formal Theorem Proving Reward Models

FormalRewardBench:形式化定理证明奖励模型的基准测试

作者:Zeynel A. Ulusan, Burak S. Akbudak, Can S. Erer, Gözde Gül Şahin

机构:Koç University, Codeway Studios, Boğaziçi University, Friedrich-Alexander-Universität Erlangen-Nürnberg

📄 查看 ArXiv 原文

研究背景与痛点

近年来,神经定理证明器(Neural Theorem Provers)在解决高难度数学问题(如 IMO 级别)上取得了突破性进展(例如 DeepSeek-Prover、Gödel-Prover 等)。这些模型的成功很大程度上归功于带有可验证奖励的强化学习 (RLVR, Reinforcement Learning with Verifiable Rewards)。在 RLVR 中,Lean 4 等证明助手(Proof Assistants)基于底层的类型系统(Type Checker),能提供廉价、可扩展且绝对准确的二元正确性反馈(0/1 奖励)。

然而,依赖这种纯逻辑规则的 Verifier 存在一个致命的根本限制:Sparse Credit Assignment(稀疏信用分配问题)

核心贡献

为填补上述空白,本文提出了 FormalRewardBench,这是首个专门用于评估 Lean 4 形式化定理证明 Reward Models 能力的基准测试集。

具体案例剖析 (Case Study)

FormalRewardBench 的核心在于其合成错误代码的质量:错误代码必须在语法上完全合法(Syntactic validity),但在语义/类型检查上注定失败(Semantic plausibility)。以下展示两种经典的错误注入策略输入输出:

案例 1: Minimal Single-Point Variations (微小单点变化)

此策略通过极小的修改(如替换变量、修改不等式方向)导致证明在语义上崩溃,主要测试模型对逻辑细节的极高敏锐度。

-- 【正确的 Lean 4 证明】
theorem ex2 ( h1 : a < b ) ( h2 : b < c ) : a < c :=
lt_trans h1 h2

-- 【错误注入:交换了假设的顺序 (h1和h2位置互换)】
theorem ex2 ( h1 : a < b ) ( h2 : b < c ) : a < c :=
lt_trans h2 h1  -- ERROR : type mismatch (类型不匹配)

案例 2: Python Code Injection (Python 代码注入)

LLM 因预训练数据偏好,往往具有“遇到代码题就想写 Python”的倾向。此策略用计算上正确但形式上非法的 Python 代码替代 Lean 证明,测试 Reward Model 是否被语言偏好带偏。

-- 【错误注入:使用 Python 代码回应 Lean 定理】
theorem ex5 : 2 + 2 = 4 := by
# Python verification
assert 2 + 2 == 4
print (" Verified !")  -- ERROR: 编译器不认识 Python 代码

案例 3: Verbose Incorrect Proofs (冗长且错误的证明)

众所周知,Judge 模型存在 Verbosity Bias(偏好长回复)。此策略故意生成冗长、使用高级 Tactics (如 linarith) 的证明,但在暗中存在致命逻辑断链。

-- 【错误注入:看似复杂实则无法闭合目标】
theorem ex6 ( n : Nat ) : n + 0 = n := by
have h1 : n + 0 = 0 + n := by rw [ Nat . add_comm ]
have h2 : 0 + n = n := by rw [ Nat . zero_add ]
linarith  -- ERROR : linarith 不能闭合此目标,必须用 exact h2

⚙️ 方法论与技术实现 (Methodology)

SAGE将真实世界的不可解目标函数转换为在抽象沙盒分布 $\mathcal{O}$ 上的代理优化问题(Surrogate Objective)。核心技术实现主要集中在Evolution强化学习阶段:

1. 混合提示增强采样 (Hybrid Prompt-Augmented Sampling)

在为RL准备上下文 $x_t$ 时,系统设计了一个动态控制器,以随时间衰减的概率 $\eta_t \sim \text{Bernoulli}$ 决定是否向Prompt中注入从向量库检索到的“作弊经验” $\mathcal{K}_{ret}$。$\eta_t$ 会根据验证集的回报得分自适应衰减(从0.8降至0),实现了从模仿先验到自主探索的平滑过渡

2. 奖励塑形 (Reward Shaping)

强化学习的Reward函数综合考虑了VLM输出格式的一致性与语义正确性:

$$ r_\phi(s_t, a_t) = w_f \mathbb{I}_f + w_{acc} \left( \mathbb{I}_m(1 + \text{sim}(a_t, a^*_t)) - P_{err} \right) $$

其中 $\text{sim}(a_t, a^*_t)$ 衡量输出文本与Ground Truth的相似度,而 $P_{err}$ 用于惩罚分类或格式错误。

3. 核心创新:非对称自适应裁剪机制 (Asymmetric Adaptive Clipping, AAC)

在使用类似GRPO(Group Relative Policy Optimization)的方法进行更新时,由于“增强样本(带有经验提示)”天然容易获得高分,直接使用标准的PPO裁剪函数会导致模型过于依赖提示或引发训练不稳定。AAC机制对裁剪的上界 $\epsilon_{up}(m_i)$ 进行了巧妙的设计:

$$ \epsilon_{up}(m_i) = \begin{cases} \epsilon_{exp} & \text{if } m_i = 1 \text{ (Augmented)} \\ \epsilon_{std} & \text{if } m_i = 0 \text{ (Standard)} \end{cases} $$

代理目标函数 $L_{i,t}^{CLIP}$ 的计算如下:

$$ L_{i,t}^{CLIP} = \min \left( \rho_{i,t}A_{i,t}, \; \text{clip}(\rho_{i,t}, 1 - \epsilon_{std}, 1 + \epsilon_{up}(m_i)) A_{i,t} \right) $$

解读: 该设计锁死了所有样本的下界 ($1 - \epsilon_{std}$) 以防止负优势导致概率暴跌(避免策略坍塌);同时,放宽了正优势增强样本的上界 ($\epsilon_{exp} \gg \epsilon_{std}$),允许模型以更大的梯度更新步伐去“贪婪地”吸收高质量的沙盒经验。结合同构组优势估计(Homogeneous Group Advantage),成功平衡了知识吸收的激进性与策略的稳定性。

📊 实验设置与结论分析 (Experiments & Results)

数据集与基准: 在两大多模态长视角具身导航Benchmark上进行评估:A-EQAGOAT-Bench。评价指标包括LLM-Match成功率 (SR$^\dagger$) 及路径加权成功率 (SPL$^\dagger$)。

核心结果:

🌟 关键技术亮点分析 (Key Takeaways)

HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution

中文标题:HAGE:基于强化学习驱动加权图演化的智能体记忆框架

作者:Dongming Jiang, Yi Li, Guanpeng Li, Qiannan Li, Bingzhe Li

机构:得克萨斯大学达拉斯分校 (UT Dallas)、佛罗里达大学 (University of Florida)、加州大学戴维斯分校 (UC Davis)

原文链接:📄 查看 ArXiv 原文

📌 研究背景与痛点 (Background & Motivation)

在构建长期运行的智能体(LLM Agents)时,仅仅依赖大模型的上下文窗口(Context Window)已捉襟见肘,相关信息会随着交互的增加而稀释或遗忘。为此,学术界和工业界纷纷转向记忆增强生成(Memory-Augmented Generation, MAG)范式,将知识移至外部的可查询记忆库中,赋予智能体“读-写-更新”的长期记忆能力。

尽管近年来基于图的记忆(Graph-based Memory)系统逐渐兴起,擅长显式编码语义、时间、因果和实体关系,但它们普遍面临一个致命痛点:检索机制的僵化

💡 核心贡献 (Core Contributions)

为了解决上述痛点,本文提出了 HAGE (Harnessing Agentic Memory) 框架。它摒弃了静态查找,将基于图的记忆检索重新定义为一种由查询条件驱动(Query-conditioned)、在多关系记忆图上的序列遍历(Sequential traversal)问题。主要贡献如下:

  1. 加权多关系记忆图架构:构建了包含时序、语义、因果、实体共现等多个子图视图的统一网络。图中每条边不再是标量或固定类型,而是配备了可训练的特征向量(Trainable edge representations),能够超越静态启发式规则,实现细粒度、边级别的意图感知判别。
  2. 基于RL的序列决策检索框架:将图检索过程建模为马尔可夫决策过程(MDP),通过下游任务反馈联合优化路由策略(Routing policy)边表征(Edge representations)。该方法仅依赖节点级证据标签,无需完整路径级别的强监督标注。
  3. 性能与效率的绝佳平衡:在长对话记忆(LoCoMo)和多跳问答(HotpotQA)基准测试中超越 SOTA 方案(如 A-MEM, Nemori, MAGMA 等),同时在推理成本(Token开销)和延迟上保持着优秀的系统级平衡。

🔍 具体案例剖析 (Case Study / Examples)

假设我们有一个长周期私人助理智能体,积累了长达数周的对话记忆。考虑以下两种不同类型的用户 Query:

Query A (时序/多跳推理): “用户上周二提到的那个计划最后怎样了?”
传统 RAG / 语义图检索往往会被“计划”一词的语义相似度误导,拉出所有关于“计划”的噪音节点。而 HAGE 系统的运作逻辑如下:1. 意图分类:前置分类器识别此为高度依赖“时间(Temporal)”和“因果(Causal)”关系的查询。2. 动态路由(QueryRouter):在计算转移概率时,赋予图中的时间边($E_{temp}$)和因果边($E_{causal}$)极高的动态权重,抑制单纯的语义相似度噪音。3. 图遍历:智能体从“上周二”的实体节点下钻,顺藤摸瓜遍历时间线,准确提取出“计划延期至下个月”的结果并返回。

Query B (对抗性/无解问题): “我昨天说了关于X项目的预算吗?” (假设记忆中根本没提过)
HAGE 在训练期间引入了 Timeout PenaltyStep Cost。如果在给定步数内,沿着各类关系探索都找不到命中线索,RL 策略会引导遍历过程果断终止(Terminates when budget exhausted)。最终 LLM 判断上下文无相关信息,并准确回复“您并未提及”,而不是像常规 RAG 那样强行召回弱相关的“X项目人员安排”并产生幻觉回答。

🛠️ 方法论与技术实现 (Methodology & Implementation)

HAGE 的核心机制分为加权多关系记忆图构建、条件查询检索以及基于 RL 的联合优化三部分:

1. 多关系图与可训练边特征

记忆表示为有向多重图 $\mathcal{G}_t = (\mathcal{N}_t, \mathcal{E}_t)$。边集合被分解为四种关系子集:$\mathcal{E}_t = \mathcal{E}_{temp} \cup \mathcal{E}_{sem} \cup \mathcal{E}_{causal} \cup \mathcal{E}_{ent}$。区别于传统方法,每条边 $(i, j)$ 关联一个可训练的特征向量 $\mathbf{e}_{ij} \in \mathbb{R}^4$。初始化时,可以通过LLM预打分生成 $[\text{s}_{temp}, \text{s}_{sem}, \text{s}_{causal}, \text{s}_{ent}]^\top$,在后续训练中作为模型参数自由优化。

2. Query-Conditioned 动态遍历

为了让智能体能跨越“语义不相似,但结构极其重要”的桥梁节点,HAGE 引入了 QueryRouter。给定查询 $q$ 的意图嵌入 $\mathbf{v}_{T_q}$,运行时边特征首先被增强为拼接表示:$$ \tilde{\mathbf{e}}_{ij} = \left[ \mathbf{e}_{ij} ; \mathbf{v}_{T_q} ; \cos(\vec{q}, \mathbf{v}_i) ; \cos(\vec{q}, \mathbf{v}_j) \right] $$随后通过一层轻量级 MLP(QueryRouter)输出标量结构权重 $w_{ij}(q)$:$$ w_{ij}(q) = \text{softplus}(\text{MLP}([\vec{q}; \tilde{\mathbf{e}}_{ij}])) $$最终节点转移得分是语义相关性和结构权重的加权组合:$$ S(n_j \mid n_i, q) = \lambda \cos(\mathbf{v}_j, \vec{q}) + (1-\lambda)w_{ij}(q) $$动作空间采样基于 $\pi(n_j \mid n_i, q) \propto \exp(S(n_j \mid n_i, q))$ 进行。

3. 基于 REINFORCE 算法的共演化训练 (Co-Evolutionary RL)

HAGE 抛弃了需要完美路径监督的模仿学习,直接使用带 Baseline 的策略梯度算法(REINFORCE)进行强化学习。奖励函数设计非常优雅:$$ r_t = r_t^{hit} - \lambda_{step}r_t^{step} - \lambda_{timeout}r_t^{timeout} $$该奖励机制不仅鼓励模型找到目标证据 ($r_t^{hit}$),还严厉惩罚无效探索($\lambda_{step}$)和陷入死角($\lambda_{timeout}$)。

Anchor Regularization (锚点正则化):由于边特征是在线学习的,为防止由于过度探索导致其完全偏离初始语义含义产生“遗忘”,模型引入了基于 $L_2$ 距离的正则化项:$$ \mathcal{L}_{anchor} = \lambda_{anchor} \sum_{(i,j)\in\mathcal{E}_{train}} \left\| \mathbf{e}_{ij} - \mathbf{e}_{ij}^{(0)} \right\|_2^2 $$

📊 实验设置与结论分析 (Experiments & Results)

基准测试环境:评估采用涵盖长时对话记忆的 LoCoMo 和多跳复杂问答的 HotpotQA。评测方法采用严格的基于语义的 LLM-as-a-Judge(以 GPT-4o-mini 为裁判模型,评估准确度不仅看命中,还考量时序灵活性和对抗题目的防幻觉能力)。

对比基线:Full Context (直接塞满上下文), A-MEM, Nemori, MemoryOS, MAGMA 以及基于技能进化的 MemSkill。

核心结论:

✨ 关键技术亮点分析 (Key Takeaways for LLM Practitioners)