大模型 Agent 与强化学习 (RL) 深度学术解读报告

One Model for All: Multi-Objective Controllable Language Models

万法归一:多目标可控的大语言模型 (MOC)

核心作者:Qiang He, Yucheng Yang, Tianyi Zhou, Meng Fang, Mykola Pechenizkiy, Setareh Maghsudi

机构团队:波鸿鲁尔大学 (Ruhr University Bochum), 埃因霍温理工大学 (TU/e), MBZUAI, 利物浦大学

📄 查看 ArXiv 原文

研究背景与痛点

在当前的大语言模型对齐范式中,RLHF (Reinforcement Learning from Human Feedback) 占据着统治地位。然而,常规的 RLHF 致力于将模型对齐到一个由全体标注数据求平均得到的“固定偏好 (fixed preference)”上。对于资深 LLM 从业者来说,这种 One-Size-Fits-All 的对齐策略在实际业务中会遇到明显的瓶颈:用户的诉求是高度多样化和情境驱动的。在某些上下文中,我们需要模型极度强调“有用性 (Helpfulness)”,哪怕言辞略显枯燥;而在另一些 C 端娱乐场景中,我们需要牺牲部分死板的正确性来换取极高的“幽默感 (Humor)”或“同理心 (Empathy)”。

为了实现个性化,业界的传统解决思路往往面临残酷的工程墙:

由此引出本文的灵魂拷问:能否只进行一次 PPO 训练,就获得一个单体大模型,使其在推理时只需接收一个连续的偏好向量(Preference Vector),就能在任意指定的帕累托前沿点上输出高质量响应?

核心贡献

本文提出了一种全新的对齐算法——多目标控制 (Multi-Objective Control, MOC),其核心贡献可以总结为以下三个维度:

具体案例剖析 (Case Study)

为了直观感受 MOC 模型接受连续偏好向量 condition 后的丝滑表现,我们来看作者在 Helpfulness vs. Humor (有用性与幽默感) 双目标博弈下的真实生成案例:

User Prompt: "How do I get close to a crocodile without it snapping at me?" (我该如何靠近鳄鱼而不被它咬?)

🎭 偏好注入 1:[Humor=0, Helpful=1] (追求绝对安全与实用)
MOC 输出: "你可以尝试非常缓慢和小心地靠近它,或者尝试通过扔食物或发出声音来分散它的注意力。此外,你也可以使用长杆来吓跑它。"
点评:非常直白、标准的求生/防护建议,完全聚焦在 Helpfulness,没有任何玩笑元素。

🎭 偏好注入 2:[Humor=0.5, Helpful=0.5] (实用与玩梗五五开)
MOC 输出: "你可以使用很多附魔,比如用‘再生’来抵御痛苦,用‘火焰诅咒’来驱赶别人。或者,穿上一些皮甲或戴个头盔……这可能无法直接对抗鳄鱼,但这肯定会给你的鳞片皮肤增加一些防护。"
点评:模型巧妙地识别出语境,并且切入了游戏玩家视角(Minecraft 的附魔和皮甲),既兼顾了“防具”这一实用概念,又充满了宅文化的幽默感。

🎭 偏好注入 3:[Humor=1, Helpful=0] (纯粹的幽默/脑洞大开)
MOC 输出: "我建议你戴一顶非常非常大的帽子。我觉得这一定能把鳄鱼吓跑。一顶大帽子足矣。"
点评:彻底放弃了科学建议,给出了充满喜剧荒诞感的无厘头画面。

在这个 Case 中,同一个模型仅仅因为外部 Prompt 头部的 `⟨R1⟩p_1 ⟨R2⟩p_2` 浮点数变化,就在生成风格上实现了平滑且高度准确的语义迁跃,体现了绝佳的 Controllability。

方法论与技术实现

MOC 的核心是对多目标强化学习中的梯度冲突问题进行了一次漂亮、可落地的数学降维打击。作者将“可控性”建模为带约束的策略优化问题:

1. Problem Formulation (问题重构)
设偏好向量为 $\mathbf{p} = [p_1, p_2, \cdots, p_N]$ 且 $\sum p_i = 1$。目标函数 $\mathbf{J}(\pi)$ 代表 $N$ 个 RLHF Reward (如 PPO objective)。我们的目标是最大化所有 Reward,但同时要求模型的实际 Reward 表现向量与给定的偏好向量 $\mathbf{p}$ 之间的距离(这里用 MSE 衡量)不能超过阈值 $\phi$:

$$ \max_{\theta} \mathbf{J}(\pi(\cdot; \theta, \mathbf{p})) = \max_{\theta} \left[ J^1, J^2, \cdots, J^N \right]^\top $$ $$ \text{s.t. } \text{MSE}\left(\mathbb{E}\mathbf{R}(x, y), \mathbf{p}\right) \le \phi $$

2. Relaxation to Bi-Objective (双目标松弛)
在大模型参数空间解上述高维硬约束是不现实的。作者将其松弛为一个双目标(Bi-objective)对齐问题:第一项目标是在偏好方向上的加权 Reward 总和;第二项目标是惩罚偏离度(采用 Hinge Loss):

$$ \max_{\theta} \left[ \mathbf{p}^\top \mathbf{J}(\pi(\cdot; \theta, \mathbf{p})), \quad -\text{ReLU}\left(\text{MSE}\left(\mathbb{E}\mathbf{R}(x,y), \mathbf{p}\right) - \phi\right) \right]^\top $$

对这两个目标进行动态加权标量化(Scalarization),即寻找权重 $c^{(1)}, c^{(2)}$ 求解最小范数问题(Min-Norm Problem),以保证两个目标共同下降(帕累托改进方向)。

3. The Surrogate Objective (极致提效的代理目标:Theorem 1)
传统的 Min-Norm 解法要求计算每一个目标的梯度 $\nabla_\theta \mathbf{J}$,在 LLM 中意味着 $N+1$ 次反向传播(Backprop),这会导致 OOM 并且时间极慢。本文最硬核的理论贡献是提出了一个 可计算的上界代理 (Surrogate Upper Bound)。基于 PPO 的策略比率与裁剪机制,作者证明了梯度组合的范数可以被以下表达式 bound 住:

利用前向传播得到的 PPO Advantage $\hat{A}_j$,只需优化:

$ \min_{c^{(1)}, c^{(2)}} \left\| c^{(1)} \sum_{j=1}^N p_j I(\hat{A}_j) - c^{(2)} \mathbf{1}_{\text{MSE}>\phi} \sum_{j=1}^N (R^j - p_j) I(\hat{A}_j) \right\|_2^2 $

在这个代理目标中,所有依赖大模型庞大参数梯度的项 $\nabla_\theta \pi$ 都被解耦消去了!这意味着,我们只需要通过一次纯前向传播 (Forward Pass) 算出 Advantage $\hat{A}_j$ 和 Indicator Function $I(\hat{A}_j)$,用极低算力的 Frank-Wolfe 算法解一个只包含两个变量的二次规划闭式解得到 $c^{(1)}, c^{(2)}$,最后再仅执行一次反向传播更新 LLM 即可。这一神来之笔,将 MOO 的计算复杂度直接降解为标准 PPO 级别。

实验设置与结论分析

作者在 Helpful Assistant 任务(Humor vs Helpful, Harmless vs Helpful)上对 Llama 2-7B, Llama 3-8B 和 Qwen 2.5 进行了测试。

关键技术亮点分析 (Takeaways for Practitioners)

作为资深算法从业者,阅读完该工作后,有三点极具启发的 Insight:

  1. 绕开计算壁垒的数学巧思是 RLHF 进步的利器: 长期以来 MOO 被大模型拒之门外就是因为“多次反向传播”的显存噩梦。MOC 利用 PPO 的 clipping 和 Advantage 结构,将参数空间(Parameter Space)的 Min-Norm 问题巧妙转换并投影到了奖励/优势空间(Advantage Space)去求解。这种“代理目标”的方法论极其优雅,值得所有在做复杂约束 RLHF 的同行借鉴。
  2. SFT Condition vs. RL Condition: 对比 RiC 这类利用 Reward-as-Context 做 Rejection Sampling 的方法,再次证明了:如果在 SFT 阶段缺乏探索和对超边际奖励的显式推导(Policy Improvement),模型只是在记忆训练集里的 Trade-off。要在帕累托曲面上拿到真正的 Pareto Optimal 解,RL 依然是无可替代的引擎。
  3. 从“开发者定义”走向“用户级实时可控”的微观个性化: 该方法将成为 Agent 系统的底层控制中枢极好的方案。前端只需一个自然语言意图理解模块将用户的 prompt 转化为 `[安全, 效率, 幽默]` 三维权重数组(如 [0.9, 0.1, 0.0]),MOC 即可在后端毫秒级响应这种精准控制,无需任何推理期干预 (Decoding-time Intervention) 或重加载模型,是 Scalable Customization (可扩展定制化) 的优秀落地范例。

Retrieval Augmented Conversational Recommendation with Reinforcement Learning

中文标题:基于强化学习的检索增强对话推荐系统

作者:Zhenrui Yue, Honglei Zhuang, Zhen Qin, Zhankui He, Huimin Zeng, Julian McAuley, Dong Wang

机构:UIUC, Google DeepMind, UCSD

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Motivation)

在大语言模型(LLM)的加持下,对话式推荐系统(Conversational Recommender Systems, CRS)的自然语言理解和意图捕获能力得到了显著增强。然而,当前的 LLM-based CRS 在实际落地中面临几个核心痛点:

🚀 核心贡献 (Core Contributions)

🔍 具体案例剖析 (Case Study & Prompting)

在 RAR 框架中,整个推荐过程表现为一个自然而信息量丰富的交互回路。以下展示了模型如何通过上下文检索并最终生成回复:

【User Context】:
用户:“I love the Gladiator movie, any recommendations?”
推荐系统:“You would love Goodfellas!”
用户:“Did they make a new Terminator? Na, I'm looking for something with the intensity of war, maybe bravery and loyalty.”

【Retriever Action】:
基于上述对话序列,LRURec(Retriever)从 30w 电影语料库中检索出 Top-$k$ 的候选电影(包含《拯救大兵瑞恩》、《勇敢的心》等),并将这些候选集的元数据(年份、导演、详细剧情等)提取出来作为候选上下文池(Candidate Set)。

【LLM Generator Prompt】:
将 `<Retrieved Candidates w/ Metadata>` 和 `<Conversation Context>` 拼接,通过指令要求 LLM 作为电影推荐专家,分析用户的“战争、勇敢、忠诚”等偏好,从候选池中挑选最契合的影片进行推荐排序。

【LLM Response】:
“Sure! I think you may enjoy Saving Private Ryan, Braveheart...” (通过引入了最新的语料元数据,LLM 不仅完美规避了幻觉,还能给出极具说服力的理由)。

🛠️ 方法论与技术实现 (Methodology)

RAR 的核心架构分为 Retriever(轻量级检索器)Generator(黑盒 LLM) 两部分,创新点在于引入了 Retriever Preference Optimization (检索器偏好优化)

1. Retriever: LRURec

采用基于状态空间模型(SSM)的 LRURec 作为基础 Retriever,其线性扫描特性 $h_t = Ah_{t-1} + Be_t$ 使得时序推荐的时间复杂度降至 $\mathcal{O}(\log(t))$。使用 Qwen-3 构建语料库的 Item Embedding。对于给定的历史 $t-1$ 个对话,Retriever 负责召回候选集 $C_t$。

2. Generator: Black-box LLM

使用冻结参数的黑盒 LLM(如 GPT-4o, Gemini, Qwen)。将对话历史与召回候选集的丰富元数据拼接后送入 LLM 进行精细化的重排与生成,记作:$\hat{I}_t = f_{\text{llm}}(\{s_k\}_{k=1}^{t-1}, C_t)$。

3. Retriever 偏好强化学习(RL on Retriever)

因为 Generator 是黑盒且两阶段系统不可微,RAR 通过 RL 将 LLM 给出的重排表现(如 NDCG 评分)作为 Reward,反向更新 Retriever 参数 $\theta$。候选集采样的似然度通过 Plackett-Luce 模型 定义(无放回序列采样概率):

$$P_\theta(C_t | \{I_\tau\}_{\tau=1}^{t-1}) = \prod_{i=1}^k \frac{\exp(s_{\sigma(i)})}{\sum_{j \in \mathcal{I} \setminus \{\sigma(1), \dots, \sigma(i-1)\}} \exp(s_j)}$$

成对偏好优化 (Online DPO):在每个时间步采样两个候选集,LLM 评价后 NDCG 较高的记为 $C_w$(Preferred),较低的记为 $C_l$。使用 DPO 损失进行优化:

$$\mathcal{L}_{\text{dpo}} = - \log \sigma\left( \beta \log \frac{\pi_\theta(C_w | \dots)}{\pi_{\text{ref}}(C_w | \dots)} - \beta \log \frac{\pi_\theta(C_l | \dots)}{\pi_{\text{ref}}(C_l | \dots)} \right)$$

组级优势优化 (Multi-sample GRPO):同样可以扩展到 GRPO,采样 $g$ 个候选集计算优势估计 $\hat{A}_i$ 来进行策略梯度更新。为了保持 Retriever 自身的分布稳定性,最终的 Loss 结合了传统的监督学习 NLL(Negative Log-Likelihood):

$$\mathcal{L} = \mathcal{L}_{\text{nll}} + \mathcal{L}_{\text{rl}}$$

📊 实验设置与结论分析 (Experiments & Results)

在三个主流 CRS 数据集(Inspired, Redial, Reddit)上进行了全面测试验证:

🌟 资深从业者技术亮点分析 (Key Takeaways for Practitioners)

站在工业界 LLM 应用落地的视角,本论文提供了一条极具操作性的“曲线救国”路径:

  1. 对齐轻量级组件而非 LLM(Align Retriever, Not Generator):工业界更新 LLM 参数(即使是 LoRA)成本极高且容易产生灾难性遗忘。RAR 聪明地将黑盒 LLM 作为评价面(Judge / Reward Model),将 RL 的优化对象转移到仅有少量层数、速度极快的 SSM Retriever(LRURec)上。这种“头重脚轻”的非对称架构极其适合生产环境部署。
  2. 突破性解决 RAG 系统的组件隔阂(Cross-module Alignment):传统的业务 RAG 常常是检索团队搞召回指标(MRR, Recall),大模型团队搞生成指标。RAR 的思想本质是用“最终业务漏斗表现”(即 LLM 最终给出的重排列表好坏)来反向穿透指导召回模型,利用强化学习优雅地打通了不可微流程。
  3. “胖元数据”(Fat Metadata)对 Embedding 的增益:论文花费精力构建了 30w 的多字段电影库。实操中表明,把丰富属性结构化后再拼成文本提取 Embedding,远比仅仅用 Title 或纯描述抽 Embedding 要健壮,为构建垂类问答的知识库指明了方向。
  4. GRPO 概念的跨界应用:在当前 DeepSeek-R1 掀起 GRPO 热潮的当下,本文不仅证明了 GRPO 在 RLHF 中的作用,更将其成功迁移到了信息检索(IR)领域的集合评估(Set Evaluation)中,极具启发性。

DEONTICBENCH: A Benchmark for Reasoning over Rules

DEONTICBENCH:基于规则推理的大语言模型神经符号基准测试

作者:Guangyao Dou, Luis Brena, Akhil Deo, William Jurayj, Jingyu Zhang, Nils Holzenberger, Benjamin Van Durme

机构:约翰霍普金斯大学 (Johns Hopkins University), 巴黎高等电信学校 (Télécom Paris)

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Pain Points)

随着大语言模型(LLMs)在医疗、法律和金融等高风险(High-stakes)领域的深入部署,模型输出的可靠性和可审计性变得至关重要。在这类场景中,模型不仅需要“显得聪明”,更必须严格遵守成文规则。这种能力被称为道义推理(Deontic Reasoning),即在明确的规则(Statutes/Policies)下推理实体的义务(Obligations)、许可(Permissions)和禁止(Prohibitions)。

当前LLM在此领域的痛点:

🚀 核心贡献 (Core Contributions)

本文提出了迄今为止最大、最严谨的基于真实高风险领域规则的可执行推理基准测试——DEONTICBENCH。其核心贡献包括:

🔍 具体案例剖析 (Case Study)

以基准中的 SARA Numeric(美国联邦税务推理) 为例,展现任务的复杂度和神经符号求解的过程:

[Input - 规则 Statutes] (节选)
Sec. 1(a). 对每个与其配偶联合申报的已婚个人及未亡配偶征税:... (v) 若超过$250,000,则基础税额$75,528.50,加上超过部分的39.6%。...

[Input - 案例事实 Case Facts]
Alice与Harold于1992年结婚。Harold于2016年去世。Alice在2017年全年维持着两人的住所,并与其儿子同住。Alice 2017年的总收入为 $236,422。Alice雇佣了Bob等6人从事农业劳动,每人支付 $5,012... Alice选择标准扣除额。

[Question]
Alice在2017年需要缴纳多少税款? (真实标签: $68,844)

[Output - LLM生成的 Prolog 代码]
% 事实抽取与编码
spouse('Alice','Harold'). died('Harold',2016). child('Alice','Son'). gross_income('Alice',2017,236422).
% 规则映射 (未亡配偶判定逻辑)
surviving_spouse(P,Year) :- spouse(P,Sp), died(Sp,DY), (DY is Year-1 ; DY is Year-2), maintains_home(P,Year)...
% 税率计算 (调用对应的税率bracket)
tax_from_brackets(surviving_spouse,TI,Tax) :- (TI =< 250000 -> Tax is 35928.50 + 0.36*(TI-140000) ; ...).

在这个Case中,LLM需要完成:1) 理解“未亡配偶”的法律定义并判断Alice是否符合(涉及年份计算);2) 提取正确的收入数值与雇员人数;3) 找到正确的Tax Bracket并生成正确的 Prolog 算术表达式。一旦生成完毕,交给求解器计算,消除了LLM在算术计算上的幻觉。

⚙️ 方法论与技术实现 (Methodology & Implementation)

1. 评估设置 (Evaluation Strategies)

论文对模型进行了三种设定的测试:

2. 局部后训练策略 (Post-training on Local Models)

为了探索如何增强模型输出 Prolog 的能力,作者在 Qwen2.5-32B-Instruct 上实施了完整的微调与强化学习流程:

首先进行 SFT(监督微调)DPO(直接偏好优化),随后采用 Dr. GRPO(Group Relative Policy Optimization的无偏变体)进行强化学习。其优化的裁剪目标函数为:

$$ \mathcal{J}_{\text{Dr. GRPO}}(\theta) = \mathbb{E}_{q \sim p_Q, \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \, \text{clip}(r_{i,t}(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_{i,t} \right) \right] $$

3. 谓词感知奖励函数 (Predicate-aware Reward Function)

对于代码生成的强化学习,Reward 往往极为稀疏(代码报错即为0分)。为此,作者设计了层级奖励机制:

  1. 正确执行并输出正确结果: 获得满分 $R = 1$。
  2. 部分分数(谓词重叠): 如果代码有语法错误无法执行,计算生成代码 $P$ 与真实参考代码 $P^*$ 提取出的“谓词签名”(函数名/参数个数)集合的 Jaccard 相似度,给予微小奖励($\delta = 0.2$):
    $$ R(q, o_i) = \frac{|S(P) \cap S(P^*)|}{|S(P) \cup S(P^*)|} \cdot \delta $$
  3. 其他情况: 超时、未找到代码块、答案错误等,记为 $R = 0$。

📊 实验设置与结论分析 (Experiments & Results)

实验评估了包括 GPT-4.1 (gpt-4-turbo), O3, GPT-5.1 (gpt-4o), GPT-5.2 (gpt-4o-mini, 论文中疑为笔误或内部代号指代), Kimi K2 Instruct, Claude 3.5 Sonnet, Gemini 2.5 Flash 以及 Qwen3 系列在内的前沿大模型。

1. 主实验结果:基于规则的推理依旧是巨大挑战

2. 错误树分析 (Failure Modes Analysis)

作者通过对比模型生成的 Prolog 和真实 Prolog,将错误归为四类:

3. 本地训练模型的强化学习收益有限

虽然通过 SFT 和 DPO/GRPO 训练,Qwen2.5-32B 在二元分类任务(如 SARA Binary 和 USCIS-AAO)上的 F1 分数从 ~10% 提升到了 ~45% 以上,但在涉及复杂算术与逻辑嵌套的 SARA Numeric 上,所有训练策略均未能使其突破 10% 的准确率。这表明,目前的RLHF策略无法有效治愈模型在复杂推理链路上的缺陷。

💡 关键技术亮点分析 (Technical Highlights & Takeaways)

作为资深LLM从业者,这篇论文带来的重要启发包括:

  1. “思维链幻觉”与神经符号架构的必要性: 论文揭示了纯粹的 CoT 可能会导致模型“基于错误的原因得出正确的答案”(尤其在二元判断中)。在医疗、审计等高风险业务中,走向 Autoformalization(自动形式化)——即让 LLM 充当“翻译器”,将自然语言转为 Prolog、PDDL 或 SQL,再由外部求解器进行确定性推理,是兼顾 LLM 的泛化性和传统系统 100% 准确性的最佳中间态方案。
  2. 代码强化学习的“奖励稀疏性”难题: 论文中尝试的 Dr. GRPO 训练虽然加入了谓词重叠(Predicate-overlap)的 Partial Credit,但对于数值逻辑任务依然失效。这提示我们在做 Reasoning/Code RL 时,仅靠简单的字符串匹配或执行结果反馈是不够的。未来需要研究编译错误反馈(Compiler Feedback)作为状态转移的强化学习,或者更细粒度的基于 AST(抽象语法树)的 Dense Reward。
  3. 评测范式的转移:构建小而精的“Hard Set”: 随着模型在常规 Benchmark 上迅速饱和(动辄 90%+),单纯的大规模刷榜失去了意义。本文采取的“两阶段困难集构建法”(先让多个前沿模型跑两遍,挑出都会错的,再进行人工清洗),代表了下一代高质量基准测试的演进方向。花小钱(少量精细化算力)办大事,更容易测出模型真实的推理天花板。

基于多目标对齐的结构化因果视频推理
Structured Causal Video Reasoning via Multi-Objective Alignment

作者:Zinuo Li, Yongxin Guo, Jun Liu 等

机构:Tencent Youtu Lab (腾讯优图实验室), 澳大利亚西澳大学, 香港中文大学(深圳)等

📄 查看 ArXiv 原文

🔍 研究背景与痛点

随着大语言模型(LLMs)在静态图像理解上的成功,视觉语言模型(LVLMs)的演进重心已转向具备极高时空冗余度的视频领域。目前社区普遍采用大模型中行之有效的思维链(Chain-of-Thought, CoT)范式来增强模型的视频推理能力。

然而,作者在实践中观察到了一个反直觉的现象:具备思考能力的 Thinking 模型在视频理解任务上的表现往往不如基础的 Instruction-tuned 模型。 其核心痛点在于:

💡 核心贡献

🎬 具体案例剖析 (Case Study)

为了直观展现结构化推理的优势,我们来看一个具体的时序定位(Temporal Grounding)案例:

User Query: "the man shovels the snow off the ground" (男人把地上的雪铲掉),这个场景发生在视频的什么时间段?
Ground Truth: 284s - 427s

[步骤 1: 生成结构化事实 <facts>]
[time1]: 0s - 39s, [person]: Woman... [human_action]: Shoveling snow...
[time2]: 39s - 100s, [person]: Man in beige jacket... [human_action]: Shoveling snow, clearing car hood...
...

[步骤 2: 因果推演 <thinking>]
1. Global Search & Localization (全局检索): 扫描事实描述,寻找关键词"shoveling snow off the ground"。直接命中 [time4] (271s-317s) 和 [time5]。
2. Causal Verification (因果验证):
- 前置条件 [Antecedent time3]: 男人在清理车盖上的雪,表明即将转移阵地。
- 视觉验证 [Visual Verification]: 男人将注意力转移到清理银色车周围地面上的雪——直接匹配!
- 后续结果 [Consequence time5]: 男人继续清理地面上的雪,确认了动作的连续性。
3. Final Alignment (最终对齐): 基于事实,确定连续铲雪区间为 271s 到 426s。

[步骤 3: 最终输出 <answer>]
271s - 426s

横向对比:
- Qwen3-VL-4B-Instruct (基座模型): 给出了错误区间 284.4 - 325.2s(未能完整捕获长时序片段)。
- Qwen3-VL-4B-Thinking (通用推理模型): 严重幻觉,回答 0s - 100s(前 100s 并非在清理“地面”的雪,发生了语义与视觉的错位)。
- Factum-4B (本文模型): 凭借结构化的底层事件抽取和严格的三段式推理验证,给出了极度接近 GT 的答案。

⚙️ 方法论与技术实现

由于联合优化“视觉事实提取”与“复杂逻辑推理”极易导致模型崩溃(幻觉事实或推理结构崩塌),作者将训练解耦为四个渐进阶段:

  1. Stage 1 (Facts Training): 指令微调,让模型学会生成高质量的结构化事实(人物、动作、场景等)。
  2. Stage 1.5 (Format Warm-Start): 格式热身,仅要求模型输出特定的 XML 标签结构 <thinking>...</thinking>,填充占位符,避免后续复杂推理时的格式幻觉。
  3. Stage 2 (Thinking Warm-Start): 引入 QA 数据,进行因果推理能力的 SFT 热身。
  4. Stage 3 (RL-based Post-training): 引入基于强化学习的多目标对齐。

🌟 核心算法:P-FAB (Pareto-Frontier guided Advantage Balancing)

在 RL 阶段(Stage 3),模型面临多个 Reward 的拉扯:格式合规(Format)、时序精确度(Linear IoU)、选择题准确率(MC Accuracy)以及防止思维链无限水字数的长度惩罚(Length)。

传统的 GRPO (Group Relative Policy Optimization) 采用加权标量 Reward:$R_{\text{final}} = \sum w_i r_i$。由于权重静态,当“增加生成长度能提高 IoU,但会遭受长度惩罚”时,标量求和会掩盖这种 Trade-off,导致具有相同平均 Reward 的候选轨迹获得相同的 Advantage,更新方向产生歧义。

P-FAB 将多维 Reward 视为独立的优化目标,利用 MGDA (Multiple Gradient Descent Algorithm) 寻找一个能同时提升所有目标(即帕累托改进)的公共下降方向。具体而言,对于 Prompt 组 $q$,其标准化的中心化 Reward 矩阵为 $\hat{\mathbf{D}}_q$,算法通过 Frank-Wolfe 算法 求解凸包内范数最小的权重组合 $\boldsymbol{\alpha}^*_q$:

$$ \boldsymbol{\alpha}^*_q = \arg \min_{\boldsymbol{\alpha} \in \Delta_M} \left\| \hat{\mathbf{D}}_q \boldsymbol{\alpha} \right\|^2 $$

s.t. $$ \Delta_M = \left\{ \boldsymbol{\alpha} \in \mathbb{R}^M \mid \sum \alpha_m = 1, \alpha_m \ge 0 \right\} $$

求解出的动态权重 $\boldsymbol{\alpha}^*_q$ 被重新乘回原始中心化 Reward 中,计算出最终的 Advantage $A_i$,再代入标准 GRPO 目标函数中进行策略截断更新。P-FAB 能够天然放大稀疏且难以满足的 Reward(例如严格的格式和 IoU),抑制容易获得的 Reward(如长度缩短)。

📊 实验设置与结论分析

基座模型: Qwen3-VL-4B-Instruct。
评测基准: 时序定位 (Charades-TimeLens, ActivityNet)、通用视频理解 (VideoMME, MLVU, ETBench, NExT-GQA)。

🚀 资深从业者视角:关键技术亮点分析

这篇论文的思路对于当前在“多模态大模型强化学习(VLM-RL)”方向摸爬滚打的团队非常有启发:

  1. 对单纯 V-CoT 乱象的降维打击: 社区目前流行把 Text-CoT 强行平移到视频上,导致模型对着几百帧视频疯狂“胡言乱语”。本文提出的 Structure-First 范式切中要害,借鉴人类认知心理学,把感知(Perception, 即提取 Facts)与认知(Cognition, 即因果推理)做了解耦与流程控制。这告诉我们:在视觉这种低信噪比模态里,“带约束的思考”远比“发散性思考”有效。
  2. 精妙的 4 阶段 Curriculum Learning: 从输出 JSON 事实 -> 空白 XML 占位符热身 -> QA SFT -> RL 对齐。这一工程管线极其踏实,解决了 VLM 在输出长格式约束文本时极其容易出现的模式崩塌(Mode Collapse)问题。特别是 Stage 1.5 的 Format Warm-start,是一个极具实战价值的 Trick。
  3. 解决 MORL 的泛化性解法 P-FAB: 在后训练阶段(Post-training),当长推理被惩罚,短回答又拿不到高 IoU 时,RL 很容易训飞。把 MGDA 引入 GRPO 计算 Advantage,用帕累托最优的思想自动调节 Reward 的梯度主导权,这是一个非常 elegant 的算法贡献。未来不仅在视频,对于其他既要求逻辑正确、又要求输出格式、还要求过程简洁的 Agentic LLM 任务,P-FAB 都具有极高的通用参考价值。

APPA: 针对大语言模型公平联邦RLHF的自适应偏好多元对齐

Authors: Mahmoud Srewa, Tianyu Zhao, & Salma Elmalaki

Institution: University of California, Irvine

📄 查看 ArXiv 原文

💡 研究背景与痛点 (Background & Pain Points)

大语言模型 (LLMs) 的真实世界效用高度依赖于其与人类价值观和偏好的对齐(Alignment)。然而,人类社会是多元的 (Pluralistic),不同地理、文化、人口统计学群体的偏好存在显著差异。传统的集中式 RLHF 通常将所有偏好数据聚合为单一的奖励模型,这不可避免地会导致“多数派偏差(Majority Bias)”,从而边缘化少数群体的偏好。

为了解决隐私和算力瓶颈,联邦人类反馈强化学习 (FedRLHF) 成为一种极具潜力的范式。在 FedRLHF 中,各群体在本地计算奖励或更新梯度,无需向中心服务器共享原始偏好数据。然而,在服务器端进行奖励聚合 (Reward Aggregation) 时,目前的方法面临着严峻的公平性-对齐度权衡(Fairness-Alignment Trade-off)痛点:

业界急需一种动态的聚合机制,既能优先提升“欠对齐(Under-aligned)”群体,又不会破坏已良好对齐群体的表现。

🚀 核心贡献 (Core Contributions)

本文提出了一种名为 APPA (Adaptive Preference Pluralistic Alignment) 的创新框架,专为公平的 FedRLHF 设计。其核心贡献包括:

🔍 具体案例剖析 (Case Study / Task Examples)

为了测试模型是否真正掌握了多元群体的偏好,论文设计了两种对齐任务,并定制了相应的 Prompt 模板进行 RLHF 训练。我们以“GLOBALQA(全球态度调查)”中的一个问题为例:

任务 1:分布偏好对齐 (DPA - Distributional Preference Alignment)

该任务要求模型不仅能预测哪个选项最受欢迎,还能输出整个群体对各个选项的概率分布。这直接考察模型对群体偏好强度的捕捉能力。

任务 2:序数偏好对齐 (OPA - Ordinal Preference Alignment)

该任务要求模型输出一个按照偏好从高到低排序的列表(Ranking)。

APPA 的作用体现: 如果使用传统的 SFT,模型通常只会学习到全球“多数派”的绝对偏好(例如,整体来看大多数人选A)。而在 APPA 驱动的 PPO 训练后,模型内部习得了一种均衡的 Policy 空间,在联邦奖励反馈中,尼日利亚节点、阿根廷节点和美国节点的奖励信号被动态重加权,使得模型在没有被显式输入 Persona (如 "You are an American") 的情况下,其无条件输出分布也能最大程度地同时兼顾各大洲群体的真实民意分布。

⚙️ 方法论与技术实现 (Methodology & Technical Details)

APPA 的核心在于如何在 PPO 的中心服务器端优雅地聚合来自异构群体 $g \in G_{\text{train}}$ 的反馈奖励 $r^t_{g,j}$。其算法可以拆解为以下几个关键机制:

1. 历史对齐度追踪 (Exponential Moving Average)

为了平滑单步奖励的波动,APPA 使用指数移动平均 (EMA) 维护每个群体的历史对齐得分 $h^t_g$:

$$ h^t_g = \lambda \cdot h^{t-1}_g + (1 - \lambda) \cdot \bar{r}^t_g $$

其中,$\bar{r}^t_g$ 是当前迭代 $t$ 中群体 $g$ 在 batch 里的平均奖励,平滑系数 $\lambda$ 设置为 0.8。

2. 自适应权重计算 (Reverse Softmax)

基于历史得分,框架通过“反向 Softmax”为表现越差($h^{t-1}_g$ 越低)的群体分配越高的权重 $\alpha^t_g$:

$$ \alpha^t_g = \frac{\exp((1 - h^{t-1}_g) / T)}{\sum_{g' \in G_{\text{train}}} \exp((1 - h^{t-1}_{g'}) / T)} $$

温度参数 $T=0.1$ 用于锐化分布,将优化注意力集中在滞后群体上,同时保证所有群体的 $\alpha^t_g > 0$(非零贡献)。

3. 公平性指数 (Fairness Index, FI) 监控

为了防止过度调整导致训练崩溃(例如各群体其实已经对齐得很好了),APPA 引入了基于变异系数 (Coefficient of Variation, CoV) 的公平性指数:

$$ FI = \frac{1}{|X^t|} \sum_{q_j \in X^t} \frac{1}{1 + \text{CoV}^2(q_j)} \quad , \quad \text{CoV}(q_j) = \frac{\sigma(\{r^t_{g,j}\}_{g \in G_{\text{train}}})}{\mu(\{r^t_{g,j}\}_{g \in G_{\text{train}}})} $$

$FI \in [0,1]$。$FI \to 1$ 表示各群体奖励高度一致(极度公平),$FI \to 0$ 表示差异巨大。

4. 阈值触发的奖励聚合规则 (Threshold-based Aggregation)

最终,中心服务器针对每个 Rollout 样本 $q_j$,结合预设阈值 $\tau = 0.99$ 计算标量聚合奖励用于 PPO 更新:

$$ \text{Agg}_{\alpha^t}(r^t_j) = \begin{cases} \frac{1}{|G_{\text{train}}|} \sum_{g} r^t_{g,j} & \text{if } FI \geq \tau \\ \log \left( \frac{1}{|G_{\text{train}}|} \sum_{g} \exp(\alpha^t_g \cdot r^t_{g,j}) \right) & \text{otherwise} \end{cases} $$

在不公平时($FI < \tau$),应用 Modified Log-Sum-Exp 聚合,在梯度反向传播时,低奖励群体会天然获得更大的有效梯度权重(Effective Weight);当达到公平阈值($FI \geq \tau$)时,退化为简单的均值聚合。该标量奖励直接替换 PPO 目标函数中的标准 Reward。

📊 实验设置与结论分析 (Experiments & Results)

实验配置:

核心结论亮点:

  1. 打破对齐-公平性的零和博弈: 在 GLOBALQA (DPA任务) 上,Gemma-2-2B 使用 APPA 后,最差群体对齐得分 (Min AS) 达到 0.843,平均得分 (Avg AS) 达到 0.861,公平指数 FI 高达 0.9994。相比之下,PPO-Average 的 Min AS 只有 0.812,而 PPO-Min 虽然 FI 很高,但 Avg AS 却显著低于 APPA。
  2. 高度鲁棒的多组群提升: 雷达图 (Spider Plot) 证明,PPO-APPA 在所有涉及的国家/ demographic 群体上均实现了正向提升,且多边形最接近完美的圆形(方差最小)。几乎没有哪个群体因为联邦学习的聚合而被“牺牲”。
  3. 缓解 SFT 的负向对齐: 实验观察到一个经典现象:在排序任务 (OPA) 中,少数派使用多数派标签进行 SFT 后,性能反而不如 Base 模型。APPA 结合 PPO 成功扭转了这一局面,在 Gemma/Llama 上均将 OPA 评分拉升到全局最高。

✨ 关键技术亮点分析 (Key Technical Highlights)