大模型 Agent 与强化学习 (RL) 深度学术解读报告

Rethinking Exploration in RLVR: From Entropy Regularization to Refinement via Bidirectional Entropy Modulation

重思RLVR中的探索:从熵正则化到基于双向熵调制的熵提炼

作者:Hengrui Gu, Xiaotian Han, Yujing Bian, Kaixiong Zhou

机构:北卡罗来纳州立大学 (NCSU), 凯斯西储大学 (CWRU)

📄 查看 ArXiv 原文

一、 研究背景与痛点

近年来,基于可验证奖励的强化学习(RLVR, Reinforcement learning with verifiable rewards)已成为提升大语言模型(LLMs)复杂推理能力的最具潜力的后训练(Post-training)范式。以DeepSeek-R1为代表的工作证明了RLVR能够有效缓解奖励模型过度优化(Reward Hacking),并激发模型产生长链条的深思熟虑(Chain-of-Thought)。

然而,RLVR面临着一个基础性的挑战——探索受限(Restricted Exploration)或被称为熵坍塌(Entropy Collapse)。在训练早期,策略往往会迅速对极少部分解决方案变得过度自信,导致策略熵急剧下降。这种对备选推理策略的过早抑制,必然导致模型性能过早饱和。

当前的痛点:传统的缓解思路通常是简单粗暴地在训练目标中加入熵正则化(Entropy Regularization)。但大量实证表明,传统RL中行之有效的熵正则化在长上下文和庞大词表的LLM-RL中显得水土不服。它对超参数极度敏感,容易引发“熵爆炸(Entropy Explosion)”,从而产生接近均匀分布的、缺乏语义信息的策略,不仅带来的性能增益微乎其微,甚至会破坏原有的推理能力。这引出了本文的核心拷问:单纯地盲目增加策略熵,真的能保证更好的探索吗?

二、 核心贡献

三、 具体案例剖析:对抗性熵翻转实验(Adversarial Entropy Flipping)

为了直观验证“维持信息熵”和“剔除有害熵”的必要性,作者巧妙设计了一个“控制变量的对抗性反转实验”,这可以被视为理解本文逻辑的最佳 Case Study:

正常情况下,当一道题(Prompt)的组内正确率较高时,GRPO会降低对正确Rollout的奖励权重,增加对错误Rollout的惩罚权重。作者通过修改算法,强行翻转(Flip)了这种自然趋势,设计了两个对抗变体:

  1. EntDecrease(强行降低正样本熵): 翻转正样本的优势曲线。原本GRPO在正样本上是“维持熵”的,这个变体强行让正样本的权重反转,驱动系统在正确路径上持续减少熵(快速变得确信)。
  2. EntIncrease(强行提高负样本熵): 翻转负样本的优势曲线。原本GRPO在负样本上是“加速降熵(修剪无用路径)”的,这个变体强行在错误路径上注入不确定性。

实验结果极其震撼:相比于标准GRPO,EntDecrease 导致策略熵一路暴跌;而 EntIncrease 则导致策略熵异常飙升。但这两者的验证集准确率最终都远低于标准GRPO,并出现了后期性能崩坏。
这一案例完美证明了:在正确解答上降熵会扼杀有用的多样性(抹杀探索可能),而在错误解答上升熵只会注入有害噪声(扰乱学习方向)。探索的本质不在于“最大化”或“最小化”熵,而在于精确的熵提炼(Entropy Refinement)

四、 方法论与技术实现

1. 对GRPO底层机理的重构解析:
在仅有 $\{0, 1\}$ 稀疏二值奖励的RLVR任务中,对于一个生成组 $G$ 个Rollouts,设组内准确率为 $p$。标准GRPO计算的Token级别优势函数实际上只依赖于 $p$:

$A_{pos}^{\text{GRPO}}(p) = \sqrt{\frac{1 - p}{p}}, \quad A_{neg}^{\text{GRPO}}(p) = -\sqrt{\frac{p}{1 - p}}$

作者将从方差缩减(Variance reduction)的视角切换到梯度重加权(Gradient reweighting)的视角。随着 $p$ 增加(题目变简单或模型已掌握):
- 对于正样本($A_{pos}$ 逐渐变小):减少对易题正样本的过度更新,抵制了模型趋于“过度确信”的自然趋势,从而保留了信息熵
- 对于负样本($A_{neg}$ 绝对值逐渐变大):对易题中的罕见错误施加重罚,顺应并加速了放弃有害探索方向的趋势,从而修剪了有害熵

2. 连续参数化家族与 AsymGRPO:
为了打破标准GRPO对上述缩放比例的固定捆绑(标准GRPO相当于幂指数为 0.5),作者引入了连续参数 $\beta$,并进一步将其解耦为正负独立的 $\beta_{pos}$ 和 $\beta_{neg}$,正式提出了 AsymGRPO

$A_{pos}^{(\beta_{pos})}(p) = \left(\frac{1 - p}{p}\right)^{\beta_{pos}} \quad \text{if } r(x, y_i) = 1,$

$A_{neg}^{(\beta_{neg})}(p) = -\left(\frac{p}{1 - p}\right)^{\beta_{neg}} \quad \text{if } r(x, y_i) = 0.$

这种解耦不仅覆盖了REINFORCE(两者皆为0)和标准GRPO(两者皆为0.5),更允许算法进行非对称(Asymmetric)调制。例如,可以设置较高的 $\beta_{pos}$ 极力保护在难题上取得正确答案带来的探索收益,同时校准 $\beta_{neg}$ 适度惩罚错误,以免过强的负梯度干扰导致有效长前缀被“连坐”误杀(Lazy Likelihood Displacement)。

五、 实验设置与结论分析

实验配置:基于Qwen3-4B基座,在MATH数据集上进行RLVR训练,在MATH-500、AIME24/25、AMC23和Olympiad上评估(通过高温度采样衡量泛化能力与探索能力)。采用的配置为 $\beta_{pos} = 0.9$ 和 $\beta_{neg} = 0.4$。

核心结果:

六、 关键技术亮点分析 (Takeaways for LLM Practitioners)

  1. 观念跃迁:从“Blind Inflation”到“Targeted Refinement”。过去业界往往认为策略熵越大约利于探索。本文证明了全局盲目拉升熵注定次优。真正的探索必须像“园丁修剪枝叶”一样:保护有潜力的分枝(正样本),剪掉死胡同(负样本),即实现双向提炼。
  2. 重新认识GRPO:不止省显存,更是一种极其优雅的动量分配机制。GRPO之所以在DeepSeek等模型中大放异彩,除了无需Value Network的工程优势,本文首次剖析了其背后绝佳的“组内正确率重加权”的梯度调制特性。
  3. 工程落地指导:AsymGRPO 几乎没有任何额外的计算和显存开销,仅需修改几行优势函数的计算代码,将静态参数拆分为可调的 $\beta_{pos}$(建议值偏高如0.9)和 $\beta_{neg}$(建议适中如0.4),即可在后训练中榨取更高的推理潜力。这对于算力有限但希望精调推理大模型的团队而言,是一个性价比极高的Tricks。

Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems

Cog-DRIFT:通过自适应重构实例的探索,让模型从困难推理问题中学习

Authors: Justin Chih-Yao Chen, Archiki Prasad, Zaid Khan, Joykirat Singh, Runchu Tian, Elias Stengel-Eskin, Mohit Bansal

Institution: UNC Chapel Hill

📄 查看 ArXiv 原文

1. 研究背景与核心痛点 (Background & Pain Points)

基于可验证奖励的强化学习(RLVR,如 GRPO 和 PPO)已经成为提升大型语言模型(LLMs)推理能力的核心范式。尤其是在数学、代码等具备明确正确答案的领域,RLVR 表现出了令人瞩目的效果。然而,在当前的后训练(Post-Training)阶段中,存在一个极其致命的瓶颈:

作者巧妙地借鉴了教育心理学中的“最近发展区”(Zone of Proximal Development, ZPD)理论:正如人类无法直接从极其困难的任务中学习一样,模型也需要合适的“认知脚手架”(Scaffolding)。

2. 核心贡献 (Key Contributions)

为了打破“硬问题不可学”的魔咒,本文提出了一种名为 Cog-DRIFT(Cognitive Demand Reduction via Incremental Format Transitions)的全新框架,其核心贡献包括:

3. 具体案例剖析 (Case Study: Problem Reformulation)

为了直观理解任务重构如何降低难度同时保留验证特性,我们来看原问题是如何被转化为多层级变体的。重构过程利用 prompt 指导 LLM 完成,并严格确保原始答案的保留(Answer preservation)

[最难] 原始开放式问题 (Open-ended Problem)
Question: What is the largest number of cells in a 9 × 9 board that can be cut along both diagonals without the board falling into pieces?
Answer: 21


[中等难度] 完形填空 (Cloze Problem)
Reformulated: What is the largest number of cells in a 9 × 9 board that can be cut along both diagonals without the board falling into pieces? The answer should look like: 2_.
(解析:通过部分掩码,依然属于生成式任务,但大幅限制了结果的发散可能。)


[较低难度] 10选1多选题 (10-Choice Problem)
Reformulated: What is the largest number of cells...
A. 4 B. 6 C. 7 D. 9 E. 12 F. 15 G. 18 H. 21 I. 24 J. 27
(解析:变为包含9个干扰项的判别式任务。)


[最易] 4选1多选题 (4-Choice Problem)
Reformulated: What is the largest number of cells...
A. 18 B. 21 C. 24 D. 15
(解析:认知负荷最低,模型只需在小范围内进行排序与选择。)

注意:为了鼓励模型真正学习而不是投机取巧,即使在多选题中,模型也必须输出完整答案值(例如21),而不仅仅是选项字母(B),这被称为“防短路(avoid shortcuts)”设计,对能力迁移至关重要。

方法论与技术实现

系统工程设计围绕模块化与无人值守(Automated Agentic Scraper)原则,分为三层架构:

1. 数据摄取层 (Data Ingestion Layer)
放弃了处理所有 30k 篇 arXiv 论文的低效做法,转而监控 Hugging Face Daily Papers API 这个由社区高强度筛选(upvotes)的信源。这占据了 arXiv 总量的 ~2-3%,利用社区点赞数作为影响力的廉价 Proxy。

2. 论文处理层 (Paper Processing Layer)
通过 LiteLLM 进行 API 路由分配,支持 Gemini / OpenAI / Anthropic 等多模型。系统实现了“两级缓存”机制(本地 JSON Checkpoint + 远程 Hub Lookup),确保了 Pipelines 的幂等性。为服务双语学术社区,英中双语摘要在单次 LLM Call 中同时生成以减少推理成本。

3. 趋势量化与生命周期评估方法 (Empirical Analysis Metrics)
不依赖大模型主观打分,全部基于统计学指标:

实验设置与结论分析

经过从 2023 年 5 月至 2026 年 4 月(预估,涵盖 35 个月实证数据)的纵向分析,作者观察到深刻的技术范式迁移:

关键技术亮点分析 (Takeaways for LLM Practitioners)

  1. “Open-vocabulary + 定期 Consolidation”是绝佳的标签体系方案: 在 AI 这样日新月异的领域,预定义的 Taxonomy 几个月就会过时。允许 LLM 在 Paper 级自由生成 Topic,再每月用高参数量模型对长尾 Topic 进行基于语义的聚类,这是解决知识库分类体系演进的最佳实践。
  2. 发现真正的跨领域“基础设施”: 共现热力图证明了 RL 不仅仅是一个子领域,它与 LLMs (215篇共现), VLMs (152篇) 高度绑定,正在成为整个生成式人工智能的交叉式底层方法论。
  3. 高质量语料的基建价值: Paper Espresso 开源的 4 个 HF Datasets (包含清洗好的摘要、详细优缺点、标准化术语及打分),无疑是训练学术向垂直 RAG 问答模型或学术 Agent(如 ScholarCopilot)的顶级微调语料库。
  4. 数据抓取与 API 解耦设计: LiteLLM + Parquet 日志分割的架构对于有长期自动化运转需求的 AI Agent 系统来说非常有参考意义,保障了系统可以在多模型降价/迭代间丝滑切换,且中断恢复无数据污染。

Memory Intelligence Agent (MIA): 迈向可自主进化的深度研究智能体记忆架构

作者:Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
机构:华东师范大学、上海创新研究院、哈尔滨工业大学、厦门大学、上海人工智能实验室
领域:Large Language Models, AI Agents, Memory Systems, Reinforcement Learning

📄 查看 ArXiv 原文

一、 研究背景与痛点 (Background & Pain Points)

在以 Deep Research Agents (DRAs) 为代表的复杂多轮工具调用场景中,Agent 需要具备长周期的推理、多轮搜索以及纠错能力。为了避免在重复任务上“从零开始”,引入记忆系统(Memory Systems)至关重要。然而,面向长上下文的传统记忆系统(如 RAG, Mem0 等)在 DRA 场景下暴露出了严重的局限性:

二、 核心贡献 (Core Contributions)

为了解决上述瓶颈,本文提出了一种名为 Memory Intelligence Agent (MIA) 的创新框架。该框架将记忆机制与 Agent 的认知、执行进行了解耦与重构,其核心贡献包括:

  1. Manager-Planner-Executor 架构: 彻底解耦“历史记忆压缩”、“参数化规划”与“动态执行”。Manager 负责将臃肿的轨迹压缩为结构化 Workflow;Planner 充当“认知大脑”,利用非参数记忆进行反思与规划;Executor 作为“操作终端”,精准执行 Planner 的指令。
  2. 交替式强化学习(Alternating RL): 提出两阶段 GRPO(Group Relative Policy Optimization)训练范式,分别优化 Executor 的指令遵循/工具调用能力,以及 Planner 的规划/反思能力,实现双智能体的高效协同。
  3. 测试时学习(Test-Time Learning, TTL): 首创在推理阶段(Inference)进行 On-the-fly 的参数更新。允许 Planner 在不中断推理流程的情况下,实时吸收新知识,实现参数化记忆的动态演进。
  4. 无监督自进化评估机制: 针对开放世界中缺乏 Ground-truth 的痛点,设计了模拟学术界“Reviewer-AC”评审机制的多维度 LLM-as-a-Judge 架构,为无监督条件下的在线 RL 提供可靠的 Reward 信号。

三、 具体案例剖析 (Case Study: 医疗领域 Deep Research)

论文中展示了一个复杂的多跳医学文献调研任务。用户输入一张关于中医风湿病LLM框架的图片,并提问:“在这篇论文中,哪句话最好地总结了针对中医风湿病在数据获取、模型创建和操作增强方面的策略?”

MIA 的协同处理流程:

点评: 通过解耦,MIA 避免了让一个单体模型同时处理巨量历史 Prompt、复杂工具文档和当前问题,极大降低了认知负载(Cognitive Load)。

四、 方法论与技术实现 (Methodology & Implementation)

1. 混合维度记忆检索 (Hybrid Memory Retrieval)

Memory Manager 放弃了纯文本检索,采用三维度的 Scoring 系统来检索最相关的成功/失败轨迹(Workflow):

$$Score(m_i) = \lambda_s \widehat{Sim_i} + \lambda_v Val_i + \lambda_f Freq_i$$

其中,$Sim_i$ 为基于 Embedding 的语义相似度(包含图文双模态);$Val_i$ 为记忆的价值奖励(历史成功率);$Freq_i$ 为频率奖励(鼓励探索长尾的低频有效记忆)。

2. 两阶段交替式强化学习 (Two-Stage Alternating RL via GRPO)

为使模型获得原生能力,MIA 放弃了纯 Prompt 工程,转向 RL:

3. 测试时学习范式 (Test-Time Learning, TTL)

这是 MIA 最核心的自进化机制。在 Inference 阶段,对于每个 Batch 的测试数据,系统同时进行探索(Exploration)、非参数记忆提取和参数更新:

4. 开放世界无监督自进化 (Unsupervised Evolution)

为摆脱对 Ground-truth 的依赖,MIA 引入了类似顶会学术评审的 Reviewer-AC 架构作为 LLM Judger (基于 Qwen3-32B):

五、 实验设置与结论分析 (Experiments & Results)

实验设置:在 11 个高难度基准上进行评估,涵盖多模态(LiveVQA, FVQA, InfoSeek, MMSearch 等)与纯文本(HotpotQA, 2Wiki, GAIA 等)。对比模型包括闭源 SOTA(GPT-4o, GPT-5.4, Gemini-2.5-Pro)和多款前沿记忆框架(RAG, Mem0, A-Mem, ExpeL, Memento)。

核心结论:

六、 关键技术亮点与行业启发 (Technical Highlights & Takeaways)