作者:Zijian Guo, İlker Işık, H. M. Sabbir Ahmad, Wenchao Li
机构:波士顿大学 (Boston University)
在强化学习(RL)领域,让智能体执行具备长期时序逻辑约束的复杂任务一直是一个核心挑战(例如:“按特定顺序到达多个目标区域,同时始终避开危险区域”)。为了描述这类任务,当前主要有两种路线:
核心痛点:尽管基于规范引导的强化学习(Specification-Guided RL)日益受到关注,但该领域缺乏一个标准化的、用于评估模型泛化能力的 Benchmark。现有的方法大多在孤立的、单一的环境中进行评估,缺乏对未知规范(Unseen Specifications)、环境动态变化、不同机器人本体(Embodiments)以及多智能体协同等维度的系统性测试,严重阻碍了该方向算法的横向对比与演进。
本文提出了 SpecRLBench,这是第一个专门为评估基于 LTL 形式化规范的 RL 泛化能力而设计的综合性基准测试集。其核心贡献包括:
为验证智能体是否真正理解了 LTL 的逻辑组合,SpecRLBench 提供了具有复杂时序深度的规范示例。例如在 Zone 环境(多颜色区域导航)中:
现象剖析:从论文给出的轨迹可视化可以看出,面对复杂的 Reach-Avoid 任务 $\neg(g \lor y) \cup (m \land (\neg g \cup b))$,部分 Baseline (如 LTL2Action) 的智能体不仅走出了低效的轨迹,甚至直接穿过了绿色 ($g$) 和黄色 ($y$) 的违规区域;而显式建模安全约束的 GenZ-LTL 则能规划出一条完全合规且更为紧凑的路径。
SpecRLBench 将基于规范的强化学习建模为带有标签函数(Labeling Function)的马尔可夫决策过程 (MDP):$\mathcal{M} := (\mathcal{S}, \mathcal{A}, P, r, \gamma, d_0)$。
1. LTL 语义与标签系统:
环境实现了一个底层的标签映射 $L: \mathcal{S} \rightarrow 2^{AP}$,在每个时间步计算并返回当前状态满足的原子命题集合(Atomic Propositions, AP)。例如,在机械臂任务中,AP 包含 `grippers_green`(夹爪碰到绿区)或 `arm_blue`(机械臂本体碰到蓝区),支持不同细粒度的时序约束检测。
2. 观测空间解耦设计:
为了不绑定特定的网络架构,基准测试的 Observation 被结构化为两部分:
3. 奖励机制的开放性:
SpecRLBench 在默认配置下提供 0 奖励,旨在测试算法本身的 内在奖励塑造(Reward Shaping)能力 或 目标达成率验证。环境返回 Ground-truth 命题赋值,用户可以根据自身算法灵活构建基于自动机 (Automaton) 的奖励函数机制。
作者评测了五个代表性的基于 LTL 的前沿强化学习基线模型:LTL2Action, GCRL-LTL, DeepLTL, GenZ-LTL, RAD-Embeddings。评测指标包括成功率 $\eta_s$、违规率 $\eta_v$(违反安全约束)、平均步数 $\mu$ 等。
作者:Nirmit Joshi, Roey Magen, Nathan Srebro, Nikolaos Tsilivis, Gal Vardi
机构:TTI-Chicago (芝加哥丰田计算技术研究所), Weizmann Institute of Science (魏茨曼科学研究所), NYU (纽约大学)
📄 查看 ArXiv 原文在当前大语言模型(LLM)的后训练(Post-training)阶段,无论是监督微调(SFT)还是基于RL的对齐(如DeepSeek-R1、OpenAI o1),思维链(Chain-of-Thought, CoT)都扮演着不可或缺的角色。从计算复杂度的角度来看,前人研究(Malach 2023, Joshi et al. 2025)已经证明了一个残酷的现实:对于某些需要多步推理的复杂任务,仅通过最终答案进行端到端学习(E2E Learning)在计算上是不可解的(Intractable);但如果提供单一且逻辑一致的CoT轨迹,学习就会变得多项式级高效(Tractable)。
然而,真实的工业界SFT数据并非来自单一的“思考者”:
核心痛点:当训练数据中混合了多个正确但不一致的CoT轨迹时,学习效率是否还能保持高效?这种非一致性带来的究竟是纯粹的统计噪声,还是会直接破坏学习的计算可解性?
本文从理论计算学习(Computational Learning Theory)的视角,严谨地探讨了从多个思考者处学习CoT的复杂度边界,得出了以下极具启发性的结论:
为了直观说明多位思考者带来的影响,论文在第11章深入分析了一个经典问题:带噪奇偶校验(Learning Noisy Parities)。
本文在理论证明和算法设计上非常精妙。首先,为了证明Hardness,作者展示了如何将底层的加密算法逻辑“分叉(Forks)”。
作者将密码学中的硬问题(如Regev加密算法的解密函数)用深度为2的阈值电路表示。关键在于,同一个解密函数可以被“两种”完全不同的电路编码。作者构造了这样一种“分叉”:
因此,如果你只能被动地接收混合数据,你永远无法从任何单一思考者那里拼凑出完整的解密逻辑。
面对混合CoT的困难,作者给出了一个计算高效的解决方案。其实质是将多思考者学习转化为一个集成学习(Ensemble Learning)问题,使用AdaBoost范式:
假设存在一个易处理的单思考者基分类器查找器(Tractable CONSISTENT Oracle):
CONSISTENT算法,找到一个在这些CoT轨迹上一致的弱分类器 $\hat{f}_k$。只要批量够小,单思考者必然能提供一个比随机猜略好(误差 $\epsilon_k \le 0.25$)的弱分类器。通过 $\tilde{O}(\log m)$ 轮次的主动查询,该算法不仅打破了多思考者带来的密码学困难,还能在总计算量和样本量上保持高效。
虽然这是一篇偏理论的Learning Theory文章,但作者在第11.3节通过训练真实的自回归Transformer模型(基于Next-token prediction)对理论进行了验证。
这篇文章为当前火热的 Reasoning Models (如 OpenAI o1, DeepSeek-R1) 的数据飞轮和SFT策略提供了坚实的理论指导:
Authors: Parsa Ashrafi Fashi, Utkarsh Saxena, Mehdi Rezagholizadeh, Aref Jafari, Akash Haridas, et al.
Institution: AMD
Links: 📄 查看 ArXiv 原文
在当前的大模型架构演进中,结合了高效序列建模模块(如状态空间模型 SSMs、线性注意力)与标准 Transformer 注意力机制的混合架构(Hybrid Architectures)正成为突破长上下文计算瓶颈(Attention的 $O(N^2)$ 复杂度及庞大的 KV Cache)的希望。著名的代表包括 Jamba、MiniMax-01 和 Qwen3-Next。
然而,从零开始预训练(Pre-train from scratch)一个全新的混合架构模型成本极其高昂。为此,社区探索了模型升级(Model Upcycling)技术,即复用已有的纯 Transformer 预训练权重,将其架构转换为混合模型并进行轻量化微调(如 MambaInLlama、Zebra-Llama)。但当前的 Upcycling 方案存在一个致命痛点:
针对这一痛点,AMD团队提出了 HyLo (HYbrid LOng-context) 训练配方,将现有的 Transformer 权重“变废为宝”,在几乎不损失短上下文精度的前提下,将其升级为具备超长上下文处理能力的混合大模型。
MLA (Multi-Head Latent Attention) + 线性模块 (Mamba-2 / GDN) 混合架构的完整方案,不仅兼容 Llama 家族,还在 Qwen 架构上验证了泛化性。vLLM 推理栈,KV Cache 内存占用缩减 >90%。在 Llama-3.2-3B 规模下,实现最高 2M Token(200万上下文)的高效 Prefill 与 Decode,而基座模型在 64K 时即 OOM。在实际部署(vLLM)与长上下文 Benchmark (RULER) 测试中,HyLo 展现了极强的工程与算法收益:
🔥 案例对比:Llama-3.2-3B 基座 vs. HyLo-Llama-6MLA22M2
HyLo 的训练范式分为三个核心模块:结构初始化、两阶段轻量级微调,以及面向 64K 的显存优化蒸馏技术。
要复用预训练模型权重,必须妥善地将 Attention 参数过渡给混合模块。对于 MLA,HyLo 采用了 SVD(奇异值分解)方法。以 Query 投影矩阵 $\mathbf{W}^Q \in \mathbb{R}^{(H\cdot d_h) \times d}$ 为例,对其进行 SVD 分解:
$$ \mathbf{W}^Q = \mathbf{U}_Q \mathbf{\Sigma}_Q \mathbf{V}_Q^\top $$
从而得到低秩投影 $\mathbf{W}^{QA} \leftarrow \mathbf{\Sigma}_Q[: r_q] \mathbf{V}_Q[: r_q, :]^\top$ 及 $\mathbf{W}^{QB}$。对于线性模块 GDN (Gated DeltaNet),保留了原 Transformer 的 MLP 和 RMSNorm,并对 K/V 权重进行分组查询扩展 (GQA Expansion) 和维度截断,以适应线性RNN的隐层维度。
Stage I: Enhanced-ILD (增强型中间层蒸馏)
不仅对齐教师与学生的隐藏状态 $h_\ell$,还引入了额外的 Token-Mixer 输出对齐 $a_\ell$(即对齐 Transformer 注意力输出与 MLA/Mamba/GDN 的输出),损失函数如下:
$$ \mathcal{L}_{\text{ILD}} = \sum_{\ell=1}^L \left( \left\| h_\ell^{(s)} - h_\ell^{(t)} \right\|_2 + \left\| a_\ell^{(s)} - a_\ell^{(t)} \right\|_2 \right) $$
实验证明,这一改进在 GSM8K 等推理任务上能带来稳定的精度提升。
Stage II: 长上下文 SFT 蒸馏
将通过 Stage I 的混合层组装后,将上下文长度从 2K 扩展到 8K 甚至 64K。采用输出级 KL 散度蒸馏(Teacher-guided SFT)。
在 $T=65,536, V=128,256$ 时,单个 Logit 张量在 bf16 下就高达 16GB,标准蒸馏会立刻引爆显存。HyLo 团队祭出了组合拳:
in-place 回写,省去了反向传播的 Activation 存储。Logit 矩阵的情况下直接使用 LM Head 权重计算隐层 KL 散度。HyLo-Llama-14MLA14GDN (3B) 在 64K 长度下达到了 52.0%,相比基线提升巨大。1. 打破了 Upcycling "只顾头不顾尾" 的怪圈: 以往的模型缝合技术由于显存墙的存在,大多只能验证 2K/4K 的文本生成效果,而丧失了基座大模型最核心的资产之一——长上下文能力。HyLo 是业内少数硬碰硬解决 64K 蒸馏 OOM 的工作。
2. 极具落地价值的系统工程优化(Systems-Level Co-design): 论文没有停留在“纸面架构”阶段,针对 MLA 的特殊 RoPE 处理、变长 KV Cache 以及 Mamba 的定长状态,作者对 vLLM 推理引擎调度器和 CUDA Kernel 进行了深度改造,这为业界落地混合架构 LLM 提供了极具参考价值的实践路线。
3. Logit-Free 蒸馏的启发: 通过直接操作隐层 $H$ 和头部投影权重 $W_{lm}$ 并在 Triton 层面上做 in-place 显存复用,成功去掉了最占显存的 $T \times V$ 瓶颈。这种 Fused Hidden-State KL 对于任何需要在极大 Vocab Size 或 Sequence Length 下做 Knowledge Distillation 的任务,都是一把利器。
作者:Aaryan Shah, Andrew Hines, Alexia Downs, Denis Bajet, et al.
机构:Canvas Medical, Stanford University 等
在医疗垂直大模型应用(尤其是环境音频转病历、Ambient Clinical AI)的研发落地中,**模型评估(Eval)**是最大的瓶颈之一。行业痛点如下:
本文提出并验证了一种特定病例、由医生主导编写并可由大模型执行的评估标准框架(Case-Specific Rubrics),成功将高昂的临床人工评审转化为低成本、可重复的自动化评估流水线:
论文中定义每一个评估场景为结构化的病例表征 $C = (T, N, L)$:
在这个输入下,系统生成了多个版本的病历更新。针对此Case,人工或LLM需要产出一组特定的评价指标(Rubric)。例如某条指标可能是:“Reward for documenting the weight gain of 5 lbs and linking it to the current medication change.”。随后由一个LLM Scoring Agent逐条评估AI生成的病历是否满足该Case独有的各项指标并打分。

1. Rubric 的数学定义:
对于每个病例 $C$,评估标准 $R$ 被定义为一组带权重的标准集合:
$$R = \{(c_i, w_i) | i = 1, \dots, k\}$$
其中 $c_i$ 是具体的临床记录要求(自然语言表述,通常以"Reward for"开头),$w_i > 0$ 表示其临床重要性的权重数字。
对于一条生成的病历笔记 $n$,其基于标准 $R$ 的归一化评分计算公式为:
$$S(n, R) = \frac{\sum_i w_i \cdot s_i(c_i)}{\sum_i w_i} \times 100$$
其中 $s_i(c_i) \in [0, 1]$ 是LLM-based Scoring Agent评估该条指标满足程度所给出的分数。
2. 严格的临床验证拦截 (Validation Criterion):
为了确保医生写的Rubric不是“自嗨”,论文设计了严格的校验。医生必须先直觉盲评选出一篇最差笔记($n_{\text{worst}}$)和一篇最好笔记($n_{\text{best}}$)。只有当基于该Rubric通过LLM Agent进行三次独立打分时,满足以下条件,该Rubric才被接受为“有效”:
$$\max_j S(n_{\text{worst}}, R, j) < \min_j S(n_{\text{best}}, R, j)$$
这保证了自动打分的区分度底线——哪怕对最好笔记的最苛刻打分,也要高于对最差笔记的最宽松打分。
3. 混合评估模型 (Hybrid Evaluation Model):
作者提出了将Author(谁写Rubric)和Scorer(谁去拿Rubric给结果打分)解耦的混合范式。最终推荐方案是:保留少量“Clinician author + LLM scorer”作为高质量的基准和Ground Truth,引入海量“LLM author + LLM scorer”作为低成本高频回归测试的主力。
研究基于 Canvas Medical 的真实系统 Hyperscribe,对 823个病例生成了涵盖7个不同迭代版本(包含基础模型切换、JSON Schema优化、Prompt精简等)的大量AI输出结果,并进行了超过21.6万次打分。
对资深LLM应用开发者来说,本论文具有非常强烈的指导意义:
Authors: Aaron J. Li, Nicolas Sanchez, Hao Huang, Ruijiang Dong, Jaskaran Bains, Katrin Jaradeh, Zhen Xiang, Bo Li, Feng Liu, Aaron Kornblith, and Bin Yu
Institutions: UC Berkeley, Univ. of Melbourne, UCSF, Univ. of Georgia, UIUC
随着大语言模型 (LLMs) 在真实世界的广泛部署,社区对模型安全性的关注日益提升。当前的重点主要集中在 Red-teaming(红队测试),即通过对抗性条件来暴露模型的极端脆弱性(如越狱、提示注入等),作者将其称为 AI Safety I(灾难性或最坏情况风险)。然而,在日常的高风险使用场景(如医疗、法律、教育)中,绝大多数用户交互是非对抗性的,模型输出对用户提问时的日常词汇变化、格式、情绪甚至信息遗漏极度敏感,这一维度的可靠性评估(作者称为 AI Safety II)却显著缺位。
在医疗诊断领域,目前的基准测试(如 MedQA, MedXpertQA)存在严重局限:它们多采用“考试风格”的单选题格式,信息完备且有唯一标准答案;而真实的患者询问往往充满噪音、信息不全、结构混乱,并且在临床实践中往往存在多个高度可能的鉴别诊断 (Differential Diagnosis)。单选基准掩盖了真实诊断的不确定性,无法准确衡量模型在实际落地中的 Utility (效用) 和 Stability (稳定性)。
为了直观展示现实 Prompt 的脆弱性以及 Prompt Neutralization 的作用,请看以下对比案例:
🚨 原始用户输入 (Raw Patient Prompt):
"Hi Over the past 2 days I have had a sore jaw on the right side only. Doesn t feel sore on the outside of my face, but extremely tender on the tendon that attaches jaw together. Inside of cheek also appears swollen. Right side of tongue feels strange, and slightly sore to swallow also. I m 40 but my wisdom teeth never came in, could this be a cause?"
[包含的扰动因子]: 缺乏客观数据 (Lack of Objective Results)、包含特定猜测 (Specific Guess - 智齿)、格式松散、主观描述等。
🛡️ 中和后的提示 (Neutralized Prompt):
"A 40-year-old patient reports a 2-day history of right-sided jaw soreness, localized to the tendon attaching the jaw, without external facial soreness. The inside of the right cheek appears swollen. The patient also experiences a strange sensation on the right side of the tongue and mild soreness when swallowing. The patient notes that wisdom teeth never erupted. What is the most likely diagnosis?"
[变化]: 使用第三人称临床叙述,剔除了日常寒暄,提取并标准化了症状 (S) 与 人口统计学特征,直接发问“最可能的诊断是什么?”。
在这个案例中,直接用 Raw Prompt 去推,模型容易受患者“自我猜测(智齿)”的诱导(Sycophancy 倾向)或输出冗长无重点的回答;而用 Neutralized Prompt 则会使得输出的鉴别诊断 (Differential list) 更加收敛、符合真实医生的习惯,但也可能因为过滤掉了隐性情绪和迫切度而遗漏一些防御性的 Safety-critical 诊断。
研究方法紧密围绕 CUE 准则展开:
因为医疗场景不该只有一个 ground truth,作者设计了三个子集构成的 Reference:
利用 GPT-5.2 等多个强模型集成 (Majority Vote) 生成这三个集合。模型预测的诊断列表记为 $D(x)$。基于此定义了结构化评估指标:
此外还引入了语义指标:Evidence grounding rate (论据支撑率) 和 Indirect inference rate (患者未说明情况的过度推断率)。
为了可控地衡量“非对抗性差异”如何影响模型,引入了一个中和管道。首先 Semantic Extractor 解析人口统计学信息和主客观病史;然后 Detector + Neutralizer 重写 Prompt,剔除非核心的内容/格式/语气干扰因子(如去除主观情绪、第一人称视角、模糊格式);最后通过 Semantic Verifier 保证临床事实 (Clinical representations $x^*$) 的无损传递。
在 HCM-Dx 数据集上,对 GPT-4.1-mini, GPT-5-mini, Gemini-3-flash, DeepSeek-Reasoner, Claude-4.5-Haiku 进行了评测。核心发现如下:
核心结论: 证明了在无对抗恶意的前提下,日常交互方式的微小改变能引发模型在“精简性 (Selectivity)” 与 “详尽性 (Comprehensiveness)” 之间的剧烈权衡。没有任何一种 Prompt 能够实现绝对的“统治”,选择哪一个工作点(Operating Point)取决于具体的风险容忍度和部署上下文。