大模型 Agent 与强化学习 (RL) 深度学术解读报告

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

列表式策略优化:将基于组的RLVR统一为LLM响应单纯形上的目标投影

作者:Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang 等

机构:清华大学自动化系、腾讯大模型团队 (Tencent Hunyuan)

📄 查看 ArXiv 原文

🔍 研究背景与痛点

自 DeepSeek-R1 和 OpenAI o1 展现出惊艳的推理能力以来,基于可验证奖励的强化学习(RLVR,Reinforcement Learning with Verifiable Rewards)已成为激发大语言模型(LLMs)复杂逻辑与数学推理能力的标准后训练范式。在这一浪潮中,无需 Critic 网络的 Group-based Policy Gradient(基于组的策略梯度,如 GRPO) 占据了绝对主导地位。这类方法针对同一个 Prompt 采样 $K$ 个响应(Responses),并利用组内的相对奖励统计量来构建优势函数(Advantage)并更新策略。

尽管社区随后提出了各种 Advantage 归一化的改进版本(例如 Dr.GRPO, MaxRL, REINFORCE++),但痛点在于:单纯从“优势函数归一化”的经验视角来理解这些算法,掩盖了其背后深层的数学优化机制。这种缺乏根本性理论理解的现状,导致了模型在 RL 训练中经常遭遇过度拟合早停、梯度剧烈波动、策略坍塌(Mode Collapse,表现为生成长度缩短和多样性丧失)等顽疾。

💡 核心贡献

本文在 RLVR 理论与算法层面做出了极具洞察力的统一与创新:

🛠️ 具体案例剖析

为了直观理解 LPO 的行为方式,我们可以观察模型在逻辑推理与代码生成任务中的表现:

核心架构图
图注:LPO(Listwise Policy Optimization)核心架构:将K个采样响应构建为单纯形上的列表分布,计算Reward并构建目标分布,最后执行解耦的精确散度投影。

⚙️ 方法论与技术实现

LPO 将传统 RLVR 中纠缠不清的梯度推导,拆解为清晰的两步过程:Target(寻找目标)和 Projection(投影)

1. Listwise 分布的定义:
对于输入 $x$,当前策略 $\pi_\theta$ 相对于行为策略 $\pi_b$ 偏好第 $k$ 个响应 $y_k$ 的程度被定义为一个单纯形上的概率向量 $P_\theta$:
$$ P_{\theta,k} = \text{softmax}(s_\theta)_k, \quad \text{其中} \quad s_{\theta,k} = \log \frac{\pi_\theta(y_k|x)}{\pi_b(y_k|x)} $$ 作者指出,在“同策略(On-policy)”点上,GRPO 梯度实际上等价于对目标 $w^* = \text{softmax}(A)$ 做逆 KL 散度的负梯度。

2. 步骤一:显式目标构建 (Target Induced on the Simplex):
摒弃隐式近似,LPO 基于 Proximal RL 目标,给出一个闭式解作为显式目标分布 $w^*$:
$$ w^*_k = \text{softmax}(\phi)_k, \quad \text{其中} \quad \phi_k = \frac{R_k}{\tau} + s_{t,k} $$ 这里 $\tau$ 取代了生硬的奖励归一化缩放系数,恢复了其作为“温度(Temperature)”和信赖域控制的本质身份。

3. 步骤二:解耦的策略投影 (Projection for Policy Optimization):
既然目标 $w^*$ 和当前分布 $P_\theta$ 都在离散单纯形上,我们就可以采用任意散度计算精确投影损失。文中实现了两种代表性散度:

4. LPO 的黄金数学性质:
由于在 Listwise 单纯形上计算,得到的梯度系数天然满足 (a) 有界性: $|c_k| \le 1$ 或 $|c_k| \le 2$,这使得模型在极端 Reward 面临“梯度爆炸”免疫;(b) 零和性: $\sum_k c_k = 0$,这是绝佳的内置控制变量(Control Variate),自适应实现基线对齐(Baseline-subtraction),无需引入额外的 Value 模型;(c) 模式覆盖(仅限 Forward KL): 具备保底下界,防止概率被压缩到0,从而保持探索的多样性。

📊 实验设置与结论分析

实验设置: 作者使用 verl 框架,在四个极具挑战的推理任务上进行了评估:逻辑推理 (Countdown)、数学 (MATH)、编程代码 (PRIME)、多模态几何 (Geometry3k)。基座模型涵盖 Qwen 系列 (1.5B 到 14B)、DeepSeek-R1-Distill、Llama-3.1-8B 和 Mistral-7B。对比基线包括设定了不同隐式温度的 GRPO ($\tau=\sigma_G$)、Dr.GRPO ($\tau=1$) 和 MaxRL ($\tau=\mu_G$)。

核心结论:

  1. 绝对性能碾压基线: 在匹配完全相同温度 $\tau$ 的设置下,无论是 LPO-fwd 还是 LPO-rev,在预期的 Pass@1 和 Pass@k 上几乎全面超越了与之对应的 PG 隐式基线(15组实验赢下13~15组)。这证明“精确的投影”带来的增益是正交且普适的。
  2. Forward KL 展现惊人的探索保留能力: 数据显示,LPO-fwd 往往在 Pass@k 上拔得头筹。监控训练动态发现,LPO 变体的 Response Entropy 远高于 GRPO,并且生成的思考序列(Response Length)显著更长。这是因为 Forward-KL 几何性质拒绝将非零目标压缩到极低概率,有效对抗了 RL 带来的信息熵锐减。
  3. 梯度极度平滑稳定: 实验中的 Gradient Norm 追踪曲线表明,传统 GRPO 的梯度范数常常出现剧烈的“锯齿状”尖峰,而 LPO 得益于其有界且零和的系数属性,其梯度曲线平滑得多,展现出极强的训练稳定性,极大降低了 RL 调参的崩溃风险。
  4. 高度可扩展性: 在 53k 规模的 Polaris 数据集上训练 Qwen-14B,LPO-fwd 仅用 70 步就达到了 GRPO 200 步的峰值性能,展现了卓越的样本效率。

🌟 关键技术亮点分析

对于资深 LLM 从业者而言,LPO 最大的启示在于重新审视了现有 Alignment/RLHF 范式中的“近似妥协”。传统的 PPO 等方法由于要在连续动作空间中运行,不得不对 Policy 采用 Pointwise 的一阶梯度近似。但对于生成式的自回归大模型而言,一次采样生成的 $K$ 条数据,天然构成了一个封闭的有限离散状态空间(单纯形)

LPO 巧妙地抓住了这个特性,把传统在连续域无法算尽的配分函数(Partition Function),降维在小批量生成的 Response 集合内精确计算。这把 RLVR 从“蒙着眼睛摸着石头过河(一阶策略梯度)”变成了“睁开眼睛看着地图直接瞬移(单纯形显式散度投影)”。

更为重要的是,LPO 实现了目标空间和优化路径的解耦。这意味着,未来我们可以设计动态调度的策略(例如早期使用 LPO-fwd 广泛铺开多条推理分支,后期切换至 LPO-rev 锁定最高效的证明路径),或者针对特定任务设计全新的散度,这为被 GRPO 统治的 LLM 强化推理后训练领域打开了极具想象力的全新设计空间。

AGPO: Asymmetric Group Policy Optimization for Verifiable Reasoning and Search Ads Relevance at JD

AGPO:用于可验证推理与京东搜索广告相关性的非对称组策略优化

作者机构:Yang Xu, Kun Yao, Yiming Deng, Zheng Fang, Kai Ming Ting, Ming Pang (南京大学, 北京大学, 京东集团)

论文链接:📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

基于可验证奖励的强化学习(RLVR,Reinforcement Learning with Verifiable Rewards)已成为提升大语言模型(LLMs)逻辑推理能力的标准范式(如 OpenAI-o1, DeepSeek-R1)。然而,业界在落地 RLVR 时逐渐发现一个致命痛点:推理能力边界收缩(Reasoning Boundary Shrinkage)

💡 核心贡献 (Core Contributions)

为了在提升 Pass@1 采样效率的同时,最大程度保护甚至拓宽模型的推理能力边界(Pass@k),本文提出了一种全新且优雅的强化学习对齐算法——非对称组策略优化 (AGPO, Asymmetric Group Policy Optimization)

  1. 提出非对称优势估计算法(AGPO): 采用“负反馈主导(NSR-dominated)”策略来抑制错误路径,同时针对正反馈采用动态组相对优势机制,给予罕见正确路径高奖励,对平凡简单正确路径实现零干预,从而保持模型探索熵。
  2. 全面验证了对数学推理边界的保护: 在 MATH、Olympiad、AIME-2024 等五大数学基准上,不仅取得了 SOTA 的 Pass@1 成绩,还在大采样预算(Pass@256)下稳稳超越 GRPO 等基线,彻底逆转了能力边界收缩现象。
  3. 成功落地超大规模工业级检索场景: 将该方法应用于京东搜索广告的 Query-SKU 相关性判断,通过对 Teacher 模型(Rele-Ads-8B)的 RLVR 训练,极大优化了蒸馏数据质量,在线上 A/B 测试中实现了核心商业指标(CTRPI, CPM, GMV)的全面正向增长。

🔎 具体案例剖析 (Case Study)

为了直观展现 AGPO 如何引导模型进行高质量、精细化的逻辑推理,我们提取了其在京东搜索广告相关性(Search Ads Relevance)任务中的具体表现。该任务要求大模型基于复杂的电子商务规则输出 CoT(思维链)并给出相关性判定。

[输入] 用户查询 (Query) 与 候选商品 (SKU) 对:
Query: 广州十三行妈妈装 (Guangzhou 13th Street Mother’s Clothing)
SKU Name: 啄木鸟(TUCANO)中老年羽绒服女短款中国风妈妈冬装保暖外套大码奶奶老人防寒衣服墨绿色2XL

[AGPO 优化的 Rele-Ads-8B 模型的 CoT 推理输出]:
输出分析: 我们首先分析产品词匹配情况,query要求产品为"妈妈装",sku对应产品为"中老年羽绒服",属于妈妈装的子类,因此产品词匹配类型为 -> <产品词完全相关>
之后分析关键属性匹配情况,query中的"广州十三行"属于店铺词,根据规则应忽略,query无其他属性词,因此关键属性匹配类型为 -> <无属性词>
综合产品词匹配情况和关键属性匹配情况,当前样例属于[产品词完全相关and无属性词],query-sku最终相关类型属于 -> <完全相关>

解读: 该案例展示了 AGPO 训练后的模型在应对“包含干扰实体(广州十三行)与抽象品类泛称(妈妈装)”时的强大鲁棒性。传统 RL 训练往往会让模型死记硬背高频 Query-SKU 匹配特征,而 AGPO 使得模型能够稳定探索并遵从规则链条(先产品词定性 -> 后属性词过滤去噪),从而在工业长尾分布上保持极高的准确度(极低的 PIR)。

⚙️ 方法论与技术实现 (Methodology)

传统的 GRPO 优势函数是对同一 Prompt 下生成的 $G$ 个样本的奖励($0$或$1$)直接进行 Z-Score 标准化。这种做法是对称的,且会过度奖励那些在当前策略下已经具备高置信度(即容易被采样到)的“平凡正确路径”。

AGPO 的核心是将优势函数的计算进行非对称解耦(Asymmetric Decoupling),其优势函数定义如下:

$\hat{A}_i^{\text{AGPO}} = \underbrace{\frac{1}{\sqrt{\sigma^2 + \delta^2}} \cdot (r_i - \mu)}_{\text{受限组相对项 (Constrained group relative term)}} + \underbrace{\mathbb{I}(r_i < 0) \cdot \mathcal{R}}_{\text{门控负项 (Gated negative term)}}$

优化机理总结: AGPO 实现了一种“难例重赏、易例零干预”的聪明机制。对于模型已经掌握的简单问题,停止注入正梯度;对于偶尔碰对的 rare correct paths($\mu$ 极低),给予最高奖励;而无论何时,坚决打压错误路径。这极大地保护了策略输出的熵值,使得模型在持续优化的同时保留了广阔的解空间探索能力。

📊 实验设置与结论分析 (Experiments & Results)

论文在开源模型(Qwen2.5-Math-7B, Qwen3-4B, Llama-3.1-8B-Instruct)上进行了广泛评测,实验结论极具说服力:

🌟 关键技术亮点与从业者洞察 (Key Takeaways)

  1. 动态熵保护机制是 RLVR 的长期命门: 实验中的“训练动态分析 (Fig 3c)”揭示了一个惊人的现象——PPO 和 GRPO 在训练几百步后,模型的输出熵会断崖式暴跌(分布坍塌),这解释了为什么它们会丢掉 Pass@256 的性能。而以 NSR 主导的 AGPO,其训练过程中的熵值甚至能维持在 Base 模型基线之上,这是它能兼顾“开采”与“探索”的核心依据。
  2. 去除 KL 散度约束的可能性: 传统 PPO/GRPO 高度依赖 KL 惩罚项($\beta \cdot \mathbb{D}_{KL}$)以防止模型跑飞。但论文通过消融实验证实:在 NSR 主导的非对称更新(如 AGPO)下,策略的安全性天然得到保障,甚至将 $\beta$ 设为 0 能取得最优表现。这极大释放了算法对参考模型的内存依赖。
  3. 警惕“冷启动约束 (Cold-Start Problem)”: 论文指出,所有 On-policy RLVR 算法(包含 AGPO)的性能天花板,均取决于 Base 模型的初始探测能力。如果在 AIME-2025 这种地狱难度基准上,Base 模型初始 Pass@1 为 0,模型将在长达数百步内收集不到任何正反馈,导致训练停滞。因此,SFT(冷启动预热)依然是现阶段高阶 RLVR 成功的前置护城河。

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

无意义内容有奇效:提示空间扰动拓宽大模型推理探索

作者:Langlin Huang, Chengsong Huang, Jinyuan Li, 等

机构:Washington University in St. Louis

📄 查看 ArXiv 原文

📍 1. 研究背景与核心痛点

近年来,结合规则验证的强化学习(RLVR,如 Group Relative Policy Optimization, GRPO)在提升 LLM 推理能力(特别是数学和代码领域)方面取得了巨大成功。DeepSeekMath 和 Qwen-Math 系列均深度依赖此范式。然而,在面对高难度推理任务(如 AIME)时,GRPO 面临一个极其致命的瓶颈:

传统解法的局限性:常规手段是增加采样预算(Adaptive Rollout Budget)或拉高温度(High Temperature)。但这只是在 Logit Space(逻辑空间) 进行探索。对于真正 hard 的问题,模型已经陷入了 local reasoning basin(局部推理盆地),单靠 Logit 级别的抖动极难让其跳出思维定势,重采样成功率依然极低,且高温容易导致推理链(CoT)崩溃。

🚀 2. 核心贡献

本文提出了一种打破常规的思路:既然 Logit 空间的探索不够,不如尝试 Prompt Space Perturbation(提示空间扰动)。作者提出了 LOPE (Lorem Perturbation for Exploration) 训练框架:

🔍 3. 具体案例剖析 (Case Study)

为了直观感受 LOPE 的工作原理,我们来看一个它注入 Prompt 时的实际形态(提取自附录):

System Prompt / Input:
in laboris velit ex est ex est exercitation sint ex enim ut incididunt tempor cupidatat nisi occaecat deserunt laboris quis voluptate qui consequat proident minim pariatur velit est aliquip do labore ut dolor et ullamco proident in non culpa est amet ipsum officia velit... (省略百字左右随机采样的 Lorem Ipsum)

Please reason step by step, and put your final answer within \boxed{}.
User:
Given $abc \neq 0$, and $a + b + c = 0$. Then the value of the algebraic expression $\frac{a^2}{bc} + \frac{b^2}{ac} + \frac{c^2}{ab}$ is: ...

现象解析:这段前置的亮橙色文本对人类而言纯属“废话乱码”,但对 Transformer 架构的 LLM 而言,它在自注意力机制中相当于注入了一种“结构化的系统噪声”。当模型在标准的 Prompt 下陷入死胡同时,这段噪声能微妙地改变 KV Cache 的注意力权重分配分布,使得模型在生成 <think> 阶段时,走向一条与之前 8 次全错尝试截然不同的推导路线,最终偶然命中正确答案,从而拯救了 Zero-advantage 僵局。

核心架构图
图注:LOPE 框架概览。当标准 Rollout 阶段的 G 个回答全部失败时,LOPE 会在 Prompt 前拼接随机的 Lorem Ipsum 序列并重新采样 G' 个回答。成功的回答将被提取出来,与最初失败的回答重组(Regroup),形成混合 Batch,替换回 Naive Prompt 构建 Pseudo Rollout 进行强化学习梯度更新。

LOPE 的技术流水线由以下几个核心步骤构成,尤其是在 RL 梯度修正上做得非常细腻:

  1. 扰动重采样 (Rollout with Perturbation):当标准 Policy $\pi_{\theta_{old}}(o \mid p, q)$ 生成的 $G$ 个样本全错时,引入随机采样的 Lorem Ipsum $\delta$,拼接得到 $\delta \oplus p$。基于新 Prompt 采样 $G'$ 个($G'=24$)新响应。
  2. 构造伪 Rollout 组合 (Construct Pseudo Rollout):从重采样中挑出 $c$ 个回答正确的样本。为了防止因输入上下文($\delta \oplus p$ 与 $p$)不一致导致的 Advantage 估算偏差,LOPE 强行将这些正确响应的 Prompt 替换回原始的 Naive prompt $p$,并与原始的错误样本混合,凑成新的 batch(大小仍为 $G$),使得一个 batch 内部既有对又有错,激活有效的 relative advantage。
  3. 重要性采样修正 (Importance Sampling):因为用 $\delta \oplus p$ 采样的输出放在了 $p$ 下训练,构成了典型的 Off-policy 场景。因此,需要计算重采样响应的重要性采样率:
    $\rho_{i,t} = \frac{\pi_\theta(o'_{i,t} \mid p, q, o'_{i,
  4. 🔥 训练信号塑形 (Training Signal Shaping):这是保证 LOPE 能收敛且起效的灵魂技术:
    • Policy Shaping (策略塑形):Off-policy 下,模型对刚探索出来的罕见正确推理 token 赋予的概率 $\pi_\theta$ 极低,导致梯度消失。引入塑形函数 $f(\rho_{i,t}) = \frac{\rho_{i,t}}{\rho_{i,t} + \gamma}$($\gamma=0.1$),强行放大这些低概率(但在探索中被证明有效)token 的梯度权重。
    • Advantage Shaping (优势塑形):如果在 $G$ 个提取出来的样本内算 advantage,会严重低估该题目的难度(因为那是从上百个废样本里淘出来的)。LOPE 改为在完整的 $G + G'$ 个样本池中计算标准化统计量:
      $\hat{A}_i = \frac{r_i - \text{mean}(\mathbf{r}_{\text{all}})}{\text{std}(\mathbf{r}_{\text{all}})}$。这使得那些在硬核题目中来之不易的正确尝试,能获得 2.1 倍到 5.0 倍的 Advantage 放大,提供更猛烈的正向训练信号。

最终优化目标:包含了标准 GRPO 的 On-policy 失败样本更新,以及经过 $f(\rho_{i,t})$ 修正和 $\hat{A}_i$ 放大的 Off-policy 重采样成功样本更新。

📊 5. 实验设置与结论分析

实验在当前最主流的 Qwen3-1.7B-Base, 4B-Base 和 Qwen2.5-Math-7B 上开展,使用 OpenR1-Math-46k 数据集,测试基准包括 MATH-500, GSM8K, AMC, 和极具挑战的 AIME。

💡 6. 关键技术亮点分析:What Makes a Good Prompt Space Perturbation?

最令从业者好奇的是:随便塞段乱码也能行吗?为什么偏偏是 Lorem Ipsum?作者在 Section 7 进行了地毯式的消融验证,测试了 Fake English(假英文)、Random ASCII(随机符号)、Random Token(随机词表)、Latin Unigram(拉丁单词拼凑)等各种噪声。

实验揭示了一个顶级实战 Insight——优质噪声必须具备两大特征:

  1. 避免核心语境干扰(Use Pseudo-Latin / Non-English):用假英文(Fake English)或高频英文单字组成的噪声表现不佳,因为英语噪声会和下游的英文数学题目在 Attention 计算中产生“语义纠缠”,带偏模型的推理逻辑。而拉丁语作为外星语(对这道题而言),能做到“只扰动分布,不篡改语义”。
  2. 维持低困惑度(Low Perplexity):模型对输入特征是有流形(Manifold)期望的。Random Token(纯随机词表抽样)的 Perplexity 达到了极其夸张的 $4.6 \times 10^5$。t-SNE 可视化证明,这种极度 Out-of-Distribution 的噪声彻底破坏了输入问题本身的语义表征,导致性能崩盘。而 Lorem Ipsum 的 Perplexity 仅为 25 左右(接近自然语言的 4.8),它是一段“符合自然语言统计学规律的废话”。

总结而言:在进行 RL 探索时,我们要的不是破坏性的“乱码”,而是一种“温和的、不相干的结构化背景音”。LOPE 用几乎零成本的方式,证明了 Prompt 空间扰动是在 RLVR 时代打破模型探索天花板的绝佳 baseline。

LANTERN: LLM-Augmented Neurosymbolic Transfer with Experience-Gated Reasoning Networks

LANTERN:基于经验门控推理网络的LLM增强神经符号迁移学习

作者:Mahyar Alinejad, Yue Wang, Amrit Singh Bedi, George Atia

机构:University of Central Florida (UCF)

📄 查看 ArXiv 原文

背景与痛点 (Background & Pain Points)

在强化学习(RL)中,为了解决长周期、非马尔可夫(Non-Markovian)的复杂任务,神经符号强化学习(Neurosymbolic RL)被广泛采用。它通过引入确定性有限自动机(DFA)或奖励机(Reward Machines)来编码时间逻辑结构,并构建乘积马尔可夫决策过程(Product MDP)以提升样本效率。

然而,在将迁移学习(Transfer Learning)引入神经符号RL时,现有方法面临三个核心痛点:

  1. 高度依赖人工专家设定(Manual Specification): 传统方法通常需要领域专家手动设计DFA或定义复杂的时间逻辑公式,这在开放环境或探索性RL场景中极难扩展。
  2. 单源迁移瓶颈(Single-source Transfer Limitations): 现有的自动机蒸馏(Automaton Distillation)或策略蒸馏方法多假设存在一个高度对齐的“单一源任务(Single source task)”。当目标任务与源任务的目标或结构发生变化时,这种硬核复用会大打折扣,甚至导致负迁移。
  3. 知识融合机制固化(Fixed Integration Mechanisms): 在整合“教师(源策略)”与“学生(目标策略)”的指导信号时,常采用静态超参数或仅依赖经验指标(如TD误差),缺乏对跨任务语义相关性动态变化的适应能力。

核心贡献 (Core Contributions)

本文提出了一种统一的多源神经符号迁移学习框架——LANTERN(LLM-Augmented Neurosymbolic Transfer with Experience-gated Reasoning Networks),其核心贡献包括:

具体案例剖析 (Case Study: Dungeon Quest)

为直观理解LANTERN如何工作,我们来看论文中的 Dungeon Quest (地牢探险) 案例:

方法论与技术实现 (Methodology)

LANTERN 框架分为五个关键阶段,将宏观的符号推理与微观的神经网络TD更新解耦并重新融合:

Phase 1: LLM增强的自动机生成

给定目标任务语言描述 $\mathcal{T}_{desc}$,通过构建结构化Prompt,引导大语言模型 $\mathcal{L}$ 提取子目标、时序依赖,生成目标DFA $\mathcal{D}^{tgt}$。更重要的是,LLM需要为每个自动机状态 $\omega \in \Omega^{tgt}$ 生成语义描述 $\text{desc}^{tgt}(\omega)$。这为后续异构迁移奠定了文本空间的基础。

Phase 2: 语义嵌入与邻域构建

使用文本嵌入模型(如Sentence-BERT)计算自动机状态描述的嵌入:$\phi(\omega) = \mathcal{E}(\text{desc}(\omega)) \in \mathbb{R}^d$。
目标状态 $\omega^{tgt}$ 与源任务状态 $\omega_k^{src}$ 之间的语义相似度通过余弦相似度计算: $$ \text{sim}(\omega^{tgt}, \omega_k^{src}) = \frac{\phi(\omega^{tgt})^\top \phi(\omega_k^{src})}{\|\phi(\omega^{tgt})\| \|\phi(\omega_k^{src})\|} $$ 基于此,选取Top-M相似的源状态组成语义邻域 $\mathcal{N}_M(\omega^{tgt})$,并计算归一化权重 $w(\omega^{tgt}, \omega_k^{src})$。

Phase 3: 多源知识聚合 (Multi-Source Aggregation)

LANTERN 同时聚合战略层(Strategic, 自动机级别的长期价值)战术层(Tactical, 动作级别的策略分布)

Phase 4: 双重波动经验门控 (Dual-Volatility Experience Gating)

如何决定学生何时该“独立思考”,何时该“抄作业”?LANTERN引入了复合信任门控:

Phase 5: LANTERN 统一更新规则

学生网络的Q-learning更新公式整合了上述多源指导 $G_{multi}$(包含战略激励与战术KL散度惩罚): $$ \Delta Q = \alpha \left[ \tau \cdot \delta_t + (1 - \tau) \cdot G_{multi} \right] $$ 当 $\tau \to 1$ 时,退化为标准TD更新(学生主导);$\tau \to 0$ 时,完全受教师指导。

实验设置与结论分析 (Experiments & Results)

研究团队在离散状态的Product MDP上评估了两种结构差异巨大的环境:

核心结论:

  1. 样本效率碾压: LANTERN 在 Dungeon Quest 中最终奖励比无迁移方案高 38%,并在学习初期(前500 Episode)相比最强单源Baseline(CADENT和LARM)有 15%~42% 的提升。在 Blind Craftsman 跨领域语义迁移中依然实现了 32% 的改进。
  2. 消融实验证明多组件的必要性:
    • Multi-source vs. Single-Source: 多源聚合比单源提升了 26%。证明了“拼接部分知识”远优于“死磕一个相似的源任务”。
    • Dual-volatility vs. Experience-only: 引入语义波动率控制后性能提升了 18%。这一机制有效防止了在“源-目标错位区域”发生的负迁移(Negative Transfer)。
    • Strategic+Tactical vs. Strategic-only: 宏观抽象与微观动作级蒸馏缺一不可,两者协同带来 31% 的效率提升。

💡 资深从业者视角:技术亮点分析 (Key Takeaways for LLM Practitioners)

AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

中文标题:AEM:面向多轮智能体强化学习的自适应熵调制

作者:Haotian Zhao, Songlin Zhou, Yuxin Zhang 等 (Baidu, Tsinghua University, Fudan University 等)

核心标签:Agentic RL, Multi-turn Interaction, Credit Assignment, Entropy Modulation, GRPO

📄 查看 ArXiv 原文

1. 研究背景与痛点 (Background & Pain Points)

随着大语言模型 (LLMs) 向能够解决复杂任务、调用工具并与外部环境持续交互的智能体 (Interactive Agents) 演进,强化学习 (RL) 已成为提升这类 Agent 核心能力的主流范式。在后训练 (Post-training) 阶段,以 GRPO 为代表的群组化无价值网络优化方法展现出了巨大的潜力。

然而,在多轮智能体强化学习 (Multi-Turn Agentic RL) 设定下,由于环境反馈具有极度的延迟性和稀疏性 (Sparse Outcome-only Rewards),传统 RL 算法面临着严峻的信用分配 (Credit Assignment) 难题:

在这样的背景下,寻找一种无需额外监督、计算轻量且能提供细粒度信用分配的方案,成为了 Agentic RL 领域的核心诉求。

2. 核心贡献 (Core Contributions)

本文从信息论和策略几何空间出发,提出了一种利用策略内生信息(响应级熵)来进行信用分配的创新框架,核心贡献如下:

3. 具体案例剖析 (Case Study / Example)

为了直观理解 AEM 的作用机制,我们来看一个 WebShop 网上购物场景 的多轮交互案例:

场景: 智能体需要购买一个特定规格的键盘。它经历了 5 个步骤:[Search] -> [Click Item 1] -> [Back] -> [Click Item 2] -> [Buy],最终购买成功(Reward=1)。

这种纯依赖模型内部生成的概率分布进行的动态加权,相当于为多轮任务隐式分配了“好步骤”和“坏步骤”的权重差异。

4. 方法论与技术实现 (Methodology & Implementation)

4.1 理论基础:响应级熵几何学 (Response-Level Entropy Geometry)

在 Agentic RL 中,环境状态的转移通常发生在智能体生成完整的一段回复 (Response) 之后,因此有效的动作粒度是响应级别而非 Token 级别。为此,作者定义了响应级惊奇度 $S(a_t | s_t) := -\log \pi_\theta(a_t | s_t)$ 以及响应级香农熵 $\mathcal{H}_{\text{resp}}(s_t)$。

基于自然梯度 (Natural Gradient) 理论,作者推导出了固定占据度下的熵漂移定理:
$$ D_{\text{RL}}^{\text{resp}}(a; s) := \left\langle \text{grad}^F \mathcal{H}_{\text{resp}}(\pi), \text{grad}^F \ell_a(\pi) \right\rangle_{\text{Fisher-Rao}} = A(a, s) \left( S(a | s) - \mathcal{H}_{\text{resp}}(s) \right) $$

该公式揭示了一个深刻的结论:策略更新时的熵增减,完全由“采样响应的 Advantage $A(a,s)$” 与“相对惊奇度 $(S - \mathcal{H}_{\text{resp}})$”乘积的符号决定。

4.2 自适应熵调制机制 (AEM Mechanism)

既然内部熵反映了探索潜力,AEM 通过缩放 Advantage 来人为干预这一过程。由于真实状态下的确切熵值 $\mathcal{H}_{\text{resp}}(s_t)$ 难以精确计算,AEM 采用了一个基于 Group 的可预测代理并进行长度归一化:

1. 计算响应级熵代理:$\bar{\mathcal{H}}_{i,t} = \frac{1}{|S_{i,t}|} \sum_{\ell \in S_{i,t}} \mathcal{H}_\ell(a_t, s_t)$
2. 对同一 Prompt 生成的多个轨迹组 $\mathcal{G}$ 内进行 Min-Max 归一化,得到 $\tilde{\mathcal{H}}_{i,t}$。
3. 利用温度参数 $\lambda$ 转化为自校准的调制权重:
$$ \alpha_{i,t} = \frac{\exp(-\lambda \tilde{\mathcal{H}}_{i,t})}{\frac{1}{|\mathcal{G}|} \sum \exp(-\lambda \tilde{\mathcal{H}}_{j,n}) + \varepsilon} $$
4. 最终应用到基础 Advantage 上:$A_{i,t}^{\text{AEM}} = \alpha_{i,t} A_{i,t}^{\text{base}}$

4.3 隐式的探索-利用转变 (Exploration-Exploitation Transition)

AEM 能够自适应地产生 Phase Transition:

5. 实验设置与结论分析 (Experiments & Results)

评测基准:

实验结果亮点:

6. 关键技术亮点分析 (Key Highlights & Takeaways)

总结:AEM 是一项“小改动、大收益”的卓越工作。在对齐税高昂、显存吃紧的大模型后训练时代,这套轻量级的自适应熵调制算法无疑是进一步深挖长思考 (Long-CoT) 和多轮智能体 (Multi-turn Agent) 能力上限的一把利器。