核心作者:Qiang He, Yucheng Yang, Tianyi Zhou, Meng Fang, Mykola Pechenizkiy, Setareh Maghsudi
机构团队:波鸿鲁尔大学 (Ruhr University Bochum), 埃因霍温理工大学 (TU/e), MBZUAI, 利物浦大学
📄 查看 ArXiv 原文在当前的大语言模型对齐范式中,RLHF (Reinforcement Learning from Human Feedback) 占据着统治地位。然而,常规的 RLHF 致力于将模型对齐到一个由全体标注数据求平均得到的“固定偏好 (fixed preference)”上。对于资深 LLM 从业者来说,这种 One-Size-Fits-All 的对齐策略在实际业务中会遇到明显的瓶颈:用户的诉求是高度多样化和情境驱动的。在某些上下文中,我们需要模型极度强调“有用性 (Helpfulness)”,哪怕言辞略显枯燥;而在另一些 C 端娱乐场景中,我们需要牺牲部分死板的正确性来换取极高的“幽默感 (Humor)”或“同理心 (Empathy)”。
为了实现个性化,业界的传统解决思路往往面临残酷的工程墙:
由此引出本文的灵魂拷问:能否只进行一次 PPO 训练,就获得一个单体大模型,使其在推理时只需接收一个连续的偏好向量(Preference Vector),就能在任意指定的帕累托前沿点上输出高质量响应?
本文提出了一种全新的对齐算法——多目标控制 (Multi-Objective Control, MOC),其核心贡献可以总结为以下三个维度:
为了直观感受 MOC 模型接受连续偏好向量 condition 后的丝滑表现,我们来看作者在 Helpfulness vs. Humor (有用性与幽默感) 双目标博弈下的真实生成案例:
User Prompt: "How do I get close to a crocodile without it snapping at me?" (我该如何靠近鳄鱼而不被它咬?)
🎭 偏好注入 1:[Humor=0, Helpful=1] (追求绝对安全与实用)
MOC 输出: "你可以尝试非常缓慢和小心地靠近它,或者尝试通过扔食物或发出声音来分散它的注意力。此外,你也可以使用长杆来吓跑它。"
点评:非常直白、标准的求生/防护建议,完全聚焦在 Helpfulness,没有任何玩笑元素。
🎭 偏好注入 2:[Humor=0.5, Helpful=0.5] (实用与玩梗五五开)
MOC 输出: "你可以使用很多附魔,比如用‘再生’来抵御痛苦,用‘火焰诅咒’来驱赶别人。或者,穿上一些皮甲或戴个头盔……这可能无法直接对抗鳄鱼,但这肯定会给你的鳞片皮肤增加一些防护。"
点评:模型巧妙地识别出语境,并且切入了游戏玩家视角(Minecraft 的附魔和皮甲),既兼顾了“防具”这一实用概念,又充满了宅文化的幽默感。
🎭 偏好注入 3:[Humor=1, Helpful=0] (纯粹的幽默/脑洞大开)
MOC 输出: "我建议你戴一顶非常非常大的帽子。我觉得这一定能把鳄鱼吓跑。一顶大帽子足矣。"
点评:彻底放弃了科学建议,给出了充满喜剧荒诞感的无厘头画面。
在这个 Case 中,同一个模型仅仅因为外部 Prompt 头部的 `⟨R1⟩p_1 ⟨R2⟩p_2` 浮点数变化,就在生成风格上实现了平滑且高度准确的语义迁跃,体现了绝佳的 Controllability。
MOC 的核心是对多目标强化学习中的梯度冲突问题进行了一次漂亮、可落地的数学降维打击。作者将“可控性”建模为带约束的策略优化问题:
1. Problem Formulation (问题重构)
设偏好向量为 $\mathbf{p} = [p_1, p_2, \cdots, p_N]$ 且 $\sum p_i = 1$。目标函数 $\mathbf{J}(\pi)$ 代表 $N$ 个 RLHF Reward (如 PPO objective)。我们的目标是最大化所有 Reward,但同时要求模型的实际 Reward 表现向量与给定的偏好向量 $\mathbf{p}$ 之间的距离(这里用 MSE 衡量)不能超过阈值 $\phi$:
2. Relaxation to Bi-Objective (双目标松弛)
在大模型参数空间解上述高维硬约束是不现实的。作者将其松弛为一个双目标(Bi-objective)对齐问题:第一项目标是在偏好方向上的加权 Reward 总和;第二项目标是惩罚偏离度(采用 Hinge Loss):
对这两个目标进行动态加权标量化(Scalarization),即寻找权重 $c^{(1)}, c^{(2)}$ 求解最小范数问题(Min-Norm Problem),以保证两个目标共同下降(帕累托改进方向)。
3. The Surrogate Objective (极致提效的代理目标:Theorem 1)
传统的 Min-Norm 解法要求计算每一个目标的梯度 $\nabla_\theta \mathbf{J}$,在 LLM 中意味着 $N+1$ 次反向传播(Backprop),这会导致 OOM 并且时间极慢。本文最硬核的理论贡献是提出了一个 可计算的上界代理 (Surrogate Upper Bound)。基于 PPO 的策略比率与裁剪机制,作者证明了梯度组合的范数可以被以下表达式 bound 住:
在这个代理目标中,所有依赖大模型庞大参数梯度的项 $\nabla_\theta \pi$ 都被解耦消去了!这意味着,我们只需要通过一次纯前向传播 (Forward Pass) 算出 Advantage $\hat{A}_j$ 和 Indicator Function $I(\hat{A}_j)$,用极低算力的 Frank-Wolfe 算法解一个只包含两个变量的二次规划闭式解得到 $c^{(1)}, c^{(2)}$,最后再仅执行一次反向传播更新 LLM 即可。这一神来之笔,将 MOO 的计算复杂度直接降解为标准 PPO 级别。
作者在 Helpful Assistant 任务(Humor vs Helpful, Harmless vs Helpful)上对 Llama 2-7B, Llama 3-8B 和 Qwen 2.5 进行了测试。
作为资深算法从业者,阅读完该工作后,有三点极具启发的 Insight:
中文标题:基于强化学习的检索增强对话推荐系统
作者:Zhenrui Yue, Honglei Zhuang, Zhen Qin, Zhankui He, Huimin Zeng, Julian McAuley, Dong Wang
机构:UIUC, Google DeepMind, UCSD
在大语言模型(LLM)的加持下,对话式推荐系统(Conversational Recommender Systems, CRS)的自然语言理解和意图捕获能力得到了显著增强。然而,当前的 LLM-based CRS 在实际落地中面临几个核心痛点:
在 RAR 框架中,整个推荐过程表现为一个自然而信息量丰富的交互回路。以下展示了模型如何通过上下文检索并最终生成回复:
【User Context】:
用户:“I love the Gladiator movie, any recommendations?”
推荐系统:“You would love Goodfellas!”
用户:“Did they make a new Terminator? Na, I'm looking for something with the intensity of war, maybe bravery and loyalty.”
【Retriever Action】:
基于上述对话序列,LRURec(Retriever)从 30w 电影语料库中检索出 Top-$k$ 的候选电影(包含《拯救大兵瑞恩》、《勇敢的心》等),并将这些候选集的元数据(年份、导演、详细剧情等)提取出来作为候选上下文池(Candidate Set)。
【LLM Generator Prompt】:
将 `<Retrieved Candidates w/ Metadata>` 和 `<Conversation Context>` 拼接,通过指令要求 LLM 作为电影推荐专家,分析用户的“战争、勇敢、忠诚”等偏好,从候选池中挑选最契合的影片进行推荐排序。
【LLM Response】:
“Sure! I think you may enjoy Saving Private Ryan, Braveheart...” (通过引入了最新的语料元数据,LLM 不仅完美规避了幻觉,还能给出极具说服力的理由)。
RAR 的核心架构分为 Retriever(轻量级检索器) 和 Generator(黑盒 LLM) 两部分,创新点在于引入了 Retriever Preference Optimization (检索器偏好优化)。
采用基于状态空间模型(SSM)的 LRURec 作为基础 Retriever,其线性扫描特性 $h_t = Ah_{t-1} + Be_t$ 使得时序推荐的时间复杂度降至 $\mathcal{O}(\log(t))$。使用 Qwen-3 构建语料库的 Item Embedding。对于给定的历史 $t-1$ 个对话,Retriever 负责召回候选集 $C_t$。
使用冻结参数的黑盒 LLM(如 GPT-4o, Gemini, Qwen)。将对话历史与召回候选集的丰富元数据拼接后送入 LLM 进行精细化的重排与生成,记作:$\hat{I}_t = f_{\text{llm}}(\{s_k\}_{k=1}^{t-1}, C_t)$。
因为 Generator 是黑盒且两阶段系统不可微,RAR 通过 RL 将 LLM 给出的重排表现(如 NDCG 评分)作为 Reward,反向更新 Retriever 参数 $\theta$。候选集采样的似然度通过 Plackett-Luce 模型 定义(无放回序列采样概率):
$$P_\theta(C_t | \{I_\tau\}_{\tau=1}^{t-1}) = \prod_{i=1}^k \frac{\exp(s_{\sigma(i)})}{\sum_{j \in \mathcal{I} \setminus \{\sigma(1), \dots, \sigma(i-1)\}} \exp(s_j)}$$
成对偏好优化 (Online DPO):在每个时间步采样两个候选集,LLM 评价后 NDCG 较高的记为 $C_w$(Preferred),较低的记为 $C_l$。使用 DPO 损失进行优化:
$$\mathcal{L}_{\text{dpo}} = - \log \sigma\left( \beta \log \frac{\pi_\theta(C_w | \dots)}{\pi_{\text{ref}}(C_w | \dots)} - \beta \log \frac{\pi_\theta(C_l | \dots)}{\pi_{\text{ref}}(C_l | \dots)} \right)$$
组级优势优化 (Multi-sample GRPO):同样可以扩展到 GRPO,采样 $g$ 个候选集计算优势估计 $\hat{A}_i$ 来进行策略梯度更新。为了保持 Retriever 自身的分布稳定性,最终的 Loss 结合了传统的监督学习 NLL(Negative Log-Likelihood):
$$\mathcal{L} = \mathcal{L}_{\text{nll}} + \mathcal{L}_{\text{rl}}$$
在三个主流 CRS 数据集(Inspired, Redial, Reddit)上进行了全面测试验证:
站在工业界 LLM 应用落地的视角,本论文提供了一条极具操作性的“曲线救国”路径:
作者:Guangyao Dou, Luis Brena, Akhil Deo, William Jurayj, Jingyu Zhang, Nils Holzenberger, Benjamin Van Durme
机构:约翰霍普金斯大学 (Johns Hopkins University), 巴黎高等电信学校 (Télécom Paris)
随着大语言模型(LLMs)在医疗、法律和金融等高风险(High-stakes)领域的深入部署,模型输出的可靠性和可审计性变得至关重要。在这类场景中,模型不仅需要“显得聪明”,更必须严格遵守成文规则。这种能力被称为道义推理(Deontic Reasoning),即在明确的规则(Statutes/Policies)下推理实体的义务(Obligations)、许可(Permissions)和禁止(Prohibitions)。
当前LLM在此领域的痛点:
本文提出了迄今为止最大、最严谨的基于真实高风险领域规则的可执行推理基准测试——DEONTICBENCH。其核心贡献包括:
以基准中的 SARA Numeric(美国联邦税务推理) 为例,展现任务的复杂度和神经符号求解的过程:
[Input - 规则 Statutes] (节选)
Sec. 1(a). 对每个与其配偶联合申报的已婚个人及未亡配偶征税:... (v) 若超过$250,000,则基础税额$75,528.50,加上超过部分的39.6%。...
[Input - 案例事实 Case Facts]
Alice与Harold于1992年结婚。Harold于2016年去世。Alice在2017年全年维持着两人的住所,并与其儿子同住。Alice 2017年的总收入为 $236,422。Alice雇佣了Bob等6人从事农业劳动,每人支付 $5,012... Alice选择标准扣除额。
[Question]
Alice在2017年需要缴纳多少税款? (真实标签: $68,844)
[Output - LLM生成的 Prolog 代码]
% 事实抽取与编码
spouse('Alice','Harold'). died('Harold',2016). child('Alice','Son'). gross_income('Alice',2017,236422).
% 规则映射 (未亡配偶判定逻辑)
surviving_spouse(P,Year) :- spouse(P,Sp), died(Sp,DY), (DY is Year-1 ; DY is Year-2), maintains_home(P,Year)...
% 税率计算 (调用对应的税率bracket)
tax_from_brackets(surviving_spouse,TI,Tax) :- (TI =< 250000 -> Tax is 35928.50 + 0.36*(TI-140000) ; ...).
在这个Case中,LLM需要完成:1) 理解“未亡配偶”的法律定义并判断Alice是否符合(涉及年份计算);2) 提取正确的收入数值与雇员人数;3) 找到正确的Tax Bracket并生成正确的 Prolog 算术表达式。一旦生成完毕,交给求解器计算,消除了LLM在算术计算上的幻觉。
论文对模型进行了三种设定的测试:
为了探索如何增强模型输出 Prolog 的能力,作者在 Qwen2.5-32B-Instruct 上实施了完整的微调与强化学习流程:
首先进行 SFT(监督微调) 和 DPO(直接偏好优化),随后采用 Dr. GRPO(Group Relative Policy Optimization的无偏变体)进行强化学习。其优化的裁剪目标函数为:
$$ \mathcal{J}_{\text{Dr. GRPO}}(\theta) = \mathbb{E}_{q \sim p_Q, \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \, \text{clip}(r_{i,t}(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_{i,t} \right) \right] $$
对于代码生成的强化学习,Reward 往往极为稀疏(代码报错即为0分)。为此,作者设计了层级奖励机制:
实验评估了包括 GPT-4.1 (gpt-4-turbo), O3, GPT-5.1 (gpt-4o), GPT-5.2 (gpt-4o-mini, 论文中疑为笔误或内部代号指代), Kimi K2 Instruct, Claude 3.5 Sonnet, Gemini 2.5 Flash 以及 Qwen3 系列在内的前沿大模型。
作者通过对比模型生成的 Prolog 和真实 Prolog,将错误归为四类:
虽然通过 SFT 和 DPO/GRPO 训练,Qwen2.5-32B 在二元分类任务(如 SARA Binary 和 USCIS-AAO)上的 F1 分数从 ~10% 提升到了 ~45% 以上,但在涉及复杂算术与逻辑嵌套的 SARA Numeric 上,所有训练策略均未能使其突破 10% 的准确率。这表明,目前的RLHF策略无法有效治愈模型在复杂推理链路上的缺陷。
作为资深LLM从业者,这篇论文带来的重要启发包括:
作者:Zinuo Li, Yongxin Guo, Jun Liu 等
机构:Tencent Youtu Lab (腾讯优图实验室), 澳大利亚西澳大学, 香港中文大学(深圳)等
随着大语言模型(LLMs)在静态图像理解上的成功,视觉语言模型(LVLMs)的演进重心已转向具备极高时空冗余度的视频领域。目前社区普遍采用大模型中行之有效的思维链(Chain-of-Thought, CoT)范式来增强模型的视频推理能力。
然而,作者在实践中观察到了一个反直觉的现象:具备思考能力的 Thinking 模型在视频理解任务上的表现往往不如基础的 Instruction-tuned 模型。 其核心痛点在于:
为了直观展现结构化推理的优势,我们来看一个具体的时序定位(Temporal Grounding)案例:
User Query: "the man shovels the snow off the ground" (男人把地上的雪铲掉),这个场景发生在视频的什么时间段?
Ground Truth: 284s - 427s
横向对比:
- Qwen3-VL-4B-Instruct (基座模型): 给出了错误区间 284.4 - 325.2s(未能完整捕获长时序片段)。
- Qwen3-VL-4B-Thinking (通用推理模型): 严重幻觉,回答 0s - 100s(前 100s 并非在清理“地面”的雪,发生了语义与视觉的错位)。
- Factum-4B (本文模型): 凭借结构化的底层事件抽取和严格的三段式推理验证,给出了极度接近 GT 的答案。
由于联合优化“视觉事实提取”与“复杂逻辑推理”极易导致模型崩溃(幻觉事实或推理结构崩塌),作者将训练解耦为四个渐进阶段:
<thinking>...</thinking>,填充占位符,避免后续复杂推理时的格式幻觉。在 RL 阶段(Stage 3),模型面临多个 Reward 的拉扯:格式合规(Format)、时序精确度(Linear IoU)、选择题准确率(MC Accuracy)以及防止思维链无限水字数的长度惩罚(Length)。
传统的 GRPO (Group Relative Policy Optimization) 采用加权标量 Reward:$R_{\text{final}} = \sum w_i r_i$。由于权重静态,当“增加生成长度能提高 IoU,但会遭受长度惩罚”时,标量求和会掩盖这种 Trade-off,导致具有相同平均 Reward 的候选轨迹获得相同的 Advantage,更新方向产生歧义。
P-FAB 将多维 Reward 视为独立的优化目标,利用 MGDA (Multiple Gradient Descent Algorithm) 寻找一个能同时提升所有目标(即帕累托改进)的公共下降方向。具体而言,对于 Prompt 组 $q$,其标准化的中心化 Reward 矩阵为 $\hat{\mathbf{D}}_q$,算法通过 Frank-Wolfe 算法 求解凸包内范数最小的权重组合 $\boldsymbol{\alpha}^*_q$:
$$ \boldsymbol{\alpha}^*_q = \arg \min_{\boldsymbol{\alpha} \in \Delta_M} \left\| \hat{\mathbf{D}}_q \boldsymbol{\alpha} \right\|^2 $$
s.t. $$ \Delta_M = \left\{ \boldsymbol{\alpha} \in \mathbb{R}^M \mid \sum \alpha_m = 1, \alpha_m \ge 0 \right\} $$
求解出的动态权重 $\boldsymbol{\alpha}^*_q$ 被重新乘回原始中心化 Reward 中,计算出最终的 Advantage $A_i$,再代入标准 GRPO 目标函数中进行策略截断更新。P-FAB 能够天然放大稀疏且难以满足的 Reward(例如严格的格式和 IoU),抑制容易获得的 Reward(如长度缩短)。
基座模型: Qwen3-VL-4B-Instruct。
评测基准: 时序定位 (Charades-TimeLens, ActivityNet)、通用视频理解 (VideoMME, MLVU, ETBench, NExT-GQA)。
这篇论文的思路对于当前在“多模态大模型强化学习(VLM-RL)”方向摸爬滚打的团队非常有启发:
Authors: Mahmoud Srewa, Tianyu Zhao, & Salma Elmalaki
Institution: University of California, Irvine
📄 查看 ArXiv 原文大语言模型 (LLMs) 的真实世界效用高度依赖于其与人类价值观和偏好的对齐(Alignment)。然而,人类社会是多元的 (Pluralistic),不同地理、文化、人口统计学群体的偏好存在显著差异。传统的集中式 RLHF 通常将所有偏好数据聚合为单一的奖励模型,这不可避免地会导致“多数派偏差(Majority Bias)”,从而边缘化少数群体的偏好。
为了解决隐私和算力瓶颈,联邦人类反馈强化学习 (FedRLHF) 成为一种极具潜力的范式。在 FedRLHF 中,各群体在本地计算奖励或更新梯度,无需向中心服务器共享原始偏好数据。然而,在服务器端进行奖励聚合 (Reward Aggregation) 时,目前的方法面临着严峻的公平性-对齐度权衡(Fairness-Alignment Trade-off)痛点:
业界急需一种动态的聚合机制,既能优先提升“欠对齐(Under-aligned)”群体,又不会破坏已良好对齐群体的表现。
本文提出了一种名为 APPA (Adaptive Preference Pluralistic Alignment) 的创新框架,专为公平的 FedRLHF 设计。其核心贡献包括:
为了测试模型是否真正掌握了多元群体的偏好,论文设计了两种对齐任务,并定制了相应的 Prompt 模板进行 RLHF 训练。我们以“GLOBALQA(全球态度调查)”中的一个问题为例:
该任务要求模型不仅能预测哪个选项最受欢迎,还能输出整个群体对各个选项的概率分布。这直接考察模型对群体偏好强度的捕捉能力。
0.65, 0.20, 0.10, 0.05 (逗号分隔的概率值)该任务要求模型输出一个按照偏好从高到低排序的列表(Ranking)。
B, C, A, DAPPA 的作用体现: 如果使用传统的 SFT,模型通常只会学习到全球“多数派”的绝对偏好(例如,整体来看大多数人选A)。而在 APPA 驱动的 PPO 训练后,模型内部习得了一种均衡的 Policy 空间,在联邦奖励反馈中,尼日利亚节点、阿根廷节点和美国节点的奖励信号被动态重加权,使得模型在没有被显式输入 Persona (如 "You are an American") 的情况下,其无条件输出分布也能最大程度地同时兼顾各大洲群体的真实民意分布。
APPA 的核心在于如何在 PPO 的中心服务器端优雅地聚合来自异构群体 $g \in G_{\text{train}}$ 的反馈奖励 $r^t_{g,j}$。其算法可以拆解为以下几个关键机制:
为了平滑单步奖励的波动,APPA 使用指数移动平均 (EMA) 维护每个群体的历史对齐得分 $h^t_g$:
$$ h^t_g = \lambda \cdot h^{t-1}_g + (1 - \lambda) \cdot \bar{r}^t_g $$
其中,$\bar{r}^t_g$ 是当前迭代 $t$ 中群体 $g$ 在 batch 里的平均奖励,平滑系数 $\lambda$ 设置为 0.8。
基于历史得分,框架通过“反向 Softmax”为表现越差($h^{t-1}_g$ 越低)的群体分配越高的权重 $\alpha^t_g$:
$$ \alpha^t_g = \frac{\exp((1 - h^{t-1}_g) / T)}{\sum_{g' \in G_{\text{train}}} \exp((1 - h^{t-1}_{g'}) / T)} $$
温度参数 $T=0.1$ 用于锐化分布,将优化注意力集中在滞后群体上,同时保证所有群体的 $\alpha^t_g > 0$(非零贡献)。
为了防止过度调整导致训练崩溃(例如各群体其实已经对齐得很好了),APPA 引入了基于变异系数 (Coefficient of Variation, CoV) 的公平性指数:
$$ FI = \frac{1}{|X^t|} \sum_{q_j \in X^t} \frac{1}{1 + \text{CoV}^2(q_j)} \quad , \quad \text{CoV}(q_j) = \frac{\sigma(\{r^t_{g,j}\}_{g \in G_{\text{train}}})}{\mu(\{r^t_{g,j}\}_{g \in G_{\text{train}}})} $$
$FI \in [0,1]$。$FI \to 1$ 表示各群体奖励高度一致(极度公平),$FI \to 0$ 表示差异巨大。
最终,中心服务器针对每个 Rollout 样本 $q_j$,结合预设阈值 $\tau = 0.99$ 计算标量聚合奖励用于 PPO 更新:
$$ \text{Agg}_{\alpha^t}(r^t_j) = \begin{cases} \frac{1}{|G_{\text{train}}|} \sum_{g} r^t_{g,j} & \text{if } FI \geq \tau \\ \log \left( \frac{1}{|G_{\text{train}}|} \sum_{g} \exp(\alpha^t_g \cdot r^t_{g,j}) \right) & \text{otherwise} \end{cases} $$
在不公平时($FI < \tau$),应用 Modified Log-Sum-Exp 聚合,在梯度反向传播时,低奖励群体会天然获得更大的有效梯度权重(Effective Weight);当达到公平阈值($FI \geq \tau$)时,退化为简单的均值聚合。该标量奖励直接替换 PPO 目标函数中的标准 Reward。
实验配置:
核心结论亮点: