大模型 Agent 与强化学习 (RL) 深度学术解读报告

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Squeez:面向代码智能体的任务条件工具输出剪枝

作者:Ádám Kovács

机构:KR Labs

链接:📄 查看 ArXiv 原文 | 💻 GitHub 仓库

🔍 研究背景与痛点 (Background & Pain Points)

当前主流的 Coding Agents(如 SWE-agent, Claude Code 等)在执行代码修复和问题诊断任务时,严重依赖不断与工具链交互。这通常会产生大量且冗长的工具观察结果 (Tool Observations),包括 grep 搜索结果、长文件读取、复杂的堆栈跟踪、构建日志 (build logs) 等。在这些动辄上万 token 的混合格式输出中,真正对 Agent 下一步决策有用的“信噪比”极低

这种现象带来两个核心痛点:

🌟 核心贡献 (Core Contributions)

本文没有去卷更大参数量的 Agent 底座,而是务实地提出了一个专用于 Agent Pipeline 中的前置过滤模块——Squeez。其核心贡献如下:

💡 具体案例剖析 (Case Study)

为了直观感受 Squeez 是如何工作的,我们来看一个从 kubectl 容器日志中提取关键信息的绝佳案例:

📥 输入 (Input):

  • Query: "Find the block showing the OOMKilled reason and exit code for the analytics-worker container." (找出 analytics-worker 容器由于 OOMKilled 被杀死的具体原因块和退出码)
  • Tool Output: 长达 250 行的 kubectl 原始输出。

📤 Squeez-2B 提取的片段:

26: Reason: OOMKilled
27: Exit Code: 137

分析: 原本让 LLM 吞下 250 行的无用状态和重启信息,现在只留下了精准的 2 行关键证据。这极大减轻了后续 Agent 分析时的上下文负担。

此外,在对比基线模型时,Squeez-2B 展现出了强大的领域特化优势 (参考 Table 5 案例):

⚙️ 方法论与技术实现 (Methodology)

1. 任务的数学化定义:

输入是一个元组 $(q, o)$,其中 $q$ 是具体的工具导向查询 (tool-aware extraction query),$o$ 是原始的一段工具观察结果。模型的输出目标 $Y$ 是基于原文本的连续切片 (contiguous spans) 集合:

$$ Y = \{(s_1, e_1), \dots, (s_k, e_k)\} $$

这里的核心要求是Verbatim Extraction(逐字提取),不允许模型进行抽象总结或重写,因为代码 Debug 过程中重写常常会丢失关键的符号、变量名甚至造成幻觉错误。

2. 两阶段教师标注流水线 (Two-stage Teacher-Labeling Pipeline):

作者使用了强大的 openai/gpt-oss-120b 作为 Teacher 模型构建监督数据:

3. 模型选择与微调细节:

采用 Qwen 3.5 2B,因为其在推理、代码能力上表现优异,且体积小到足够无缝嵌入现有业务系统。使用了 LoRA 进行了 3 个 epoch 的微调(rank 未特别指出,通常为 8 或 16),最重要的是将 max sequence length 设置高达 20,000,以确保能吞咽大体量的单一观察结果。学习率 $2 \times 10^{-4}$,Batch Size 为 8(单张 A100 80GB 即可跑满)。最终在部署时 LoRA 参数合并回底座,使用 vLLM 进行极速推理。

📊 实验设置与结论分析 (Experiments & Results)

在经过手动校验的精质 618 样本的测试集上,指标主要考察高 Compression(压缩比) 下的 Recall(召回率)。为什么是 Recall?因为对于 Agent 来说,在剪去 90% 废话的同时,宁愿多留一行多余代码,也绝不能丢掉包含 Bug 诱因的那行 traceback

💡 关键技术亮点分析 (Key Highlights)

对我们 LLM 落地从业者的启发,我认为主要有以下三点:

  1. Small Models for Dirty Work(让小模型做脏活累活):在 Agent 环路中,不要总是让 70B 或 API 模型既做逻辑推理又做数据清洗。像这种 Context Pruning 任务,完全可以低成本剥离,由专精微调的 2B-7B 模型以“高速过滤阀”的角色前置完成。极大节省 Token Cost 和请求延迟。
  2. Verbatim(逐字)哲学在代码场景的重要性: 摘要式模型(Abstractive Summarization)在编程任务中是毒药。代码上下文必须 100% 忠实原文。使用 <relevant_lines> 标签和严格行号映射的微调方式,强行约束模型进行抽取式问答(Extractive QA),是避免幻觉的最佳工程实践。
  3. 负样本的引入是神来之笔: Agent 常常面临搜索无果的工具调用。本文刻意构造了 575 个负样本并将其纳入训练集,直接赋予了模型学会说“这里没有你要的东西”(返回空)的能力,解决了此前大模型喜欢用连篇废话强行解释的通病。

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

基于上下文-价值观-行动架构的价值观驱动型LLM智能体

作者:TianZe Zhang, Sirui Sun, Yuhang Xie, Xin Zhang, Zhiqiang Wu, Guojie Song

机构:北京大学(通用人工智能全国重点实验室、元培学院、心理与认知科学学院等)、北大-武汉人工智能研究院

📄 查看 ArXiv 原文

📍 研究背景与痛点 (Background & Pain Points)

在构建类人智能体(Human-like Agents)时,现有的基于大语言模型(LLM)的方法普遍存在严重的**行为僵化(Behavioral Rigidity)**和**刻板印象(Stereotyping)**问题。然而,这一致命缺陷往往被当前业界流行的“LLM-as-a-judge”评估范式所掩盖。

🚀 核心贡献 (Core Contributions)

为了从根本上解决LLM智能体由于模型内生偏见导致的极化和僵化问题,本文提出了Context-Value-Action (CVA) 架构,并在真实人类行为数据集上进行了大规模验证。

🔍 具体案例剖析 (Case Study: The Illusion of LLM Reasoning)

为了直观展示提示词驱动的LLM在模拟人类时的“僵化”现象,作者给出了一个极具代表性的引例(Lead-in Case Study)。

场景设定: 角色扮演一名居住在城市的IT工程师。价值观设定:高自我决定论(Self-direction: 0.9),中等享乐主义(Hedonism: 0.4 到 0.6 不等)。

上下文 (Context): “你刚结束了漫长的一天debug工作。你一整天都坐着没动,午餐吃了薯片,晚餐吃了一个巨大的汉堡。你感到头昏脑涨且压力很大。请选择你今晚的活动:1) 去健身房 2) 吃夜宵 3) 回家睡觉 4) 去酒吧和朋友聚会。”

基线模型(GPT-4o)的行动: 选择:去健身房。 理由:虽然我很累且头昏脑涨,但这正是我要拿上健身包的原因。坐了一整天吃垃圾食品已经让我处于自动驾驶模式——我不想以这种方式结束这一天。快速的锻炼能让我重新获得控制感...

深度分析: 在真实世界中,即使是高度“自我决定”的人,在极度疲惫的工作后,往往也会被激活“享乐/休息”的价值观而选择回家睡觉。但GPT-4o的表现却极其刻板。实验表明,只要把Hedonism设定在 $\le 0.5$,GPT-4o选择“去健身房”的概率几乎是100%;即便Hedonism提高到0.6,选择去健身的概率依然高达93%。模型过度锚定了“IT精英”和“高Self-direction”的标签,给出了极其卷且不符合人类疲劳状态下动态妥协的“夸张/漫画式”行为(Caricatured behaviors)。

⚙️ 方法论与技术实现 (Methodology & Architecture)

CVA架构将行为生成转化为一个条件概率分布问题 $P(A|C, V)$,其中 $A$ 为行动,$C$ 为上下文,$V$ 为施瓦茨10维动态价值观激活向量。整个架构分为两个核心阶段:

1. 价值观-行动映射校准 (Value-Action Mapping Calibration, VMC)

为了纠正基础模型内生的“漫画化”价值观扭曲($V \rightarrow V'$),作者摒弃了纯Prompt的玩法,采用两阶段对齐:

2. 价值观驱动推理 (Value-Driven Reasoning, VDR)

为了解决自验证(Self-verification)带来的偏见循环,CVA引入了一个独立训练的判别式 Value-Guided Verifier。其网络结构包含:

推理阶段 (Generate-then-Select): 模型先基于 $(C, V)$ 生成 $N$ 个候选行动(本研究设为5),然后通过训练好的 Verifier 对其打分并选取最大化一致性得分的行动。

📊 实验设置与结论分析 (Experiments & Results)

利用自动化心理测量工具(GPV)从智能体的生成日志中逆向推导出人群的价值观分布,并与CVABench中真实人类群体的 Ground Truth 进行对比。

💡 关键技术亮点分析 (Key Insights & Interpretability)

CVA架构不仅提升了性能,更为LLM智能体的心理学可解释性提供了极佳的范例:

  1. 词汇-价值观投影(Word-to-Value Projection Analysis): 通过提取 Verifier 内部的 TF-IDF 加权交叉注意力机制的权重,可以清晰地看到哪些具体词汇触发了哪些价值观的激活。例如,“creativity(创造力)”在模型内部强烈激活了“Achievement(成就)”维度,而“confused(困惑的)”激活了“Conformity(从众)”维度。
  2. 自动涌现的潜在心理拓扑结构(Recovery of Circumplex Structure): 这是本文最惊艳的技术亮点之一。Schwartz价值观理论在心理学中是一个环形结构(Circumplex),相邻的价值观是兼容的(如普遍主义和仁慈),对立面的价值观是冲突的。研究者利用PCA将 Verifier 学到的高维Embedding映射到2D平面,并计算循环反转得分(Circular Inversion Score, CIS)。结果发现,Verifier在未接触结构化规则的情况下,仅靠观测人类行为与标签的对齐,就自动恢复出了高达0.75拟合度的理论环形拓扑结构。
  3. “分离裁判”是打碎偏见回音壁的关键: 传统Role-play和CoT高度依赖LLM的内部隐式知识。在面对人类社会复杂的心理维度时,LLM往往通过其RLHF阶段被注入的“对齐税(安全、政治正确或过度礼貌)”来简化人类的多样性。CVA强制外挂经过人类真实轨迹监督的 Verifier 作为裁判,彻底改变了概率采样空间。

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

DARE:扩散大语言模型对齐与强化学习执行框架

👨‍🔬 作者:Jingyi Yang, Yuxian Jiang, XuHao Hu, Shuang Cheng, Biqing Qi, Jing Shao

🏛️ 机构:上海人工智能实验室,复旦大学,浙江大学

📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Pain Points)

近年来,扩散大语言模型(dLLMs,如 LLaDA、Dream、SDAR)正作为自回归(Autoregressive, AR)模型的有力替代方案异军突起。它们将传统的“严格从左到右逐Token生成”替换为了“迭代去噪与并行生成”机制,从而支持灵活的Token顺序、双向条件依赖和并行解码。

然而,随着模型架构的成熟,当前 dLLM 领域的主要瓶颈已经转移到了后训练(Post-training)和评估基础设施上。对于资深从业者而言,当前开源生态存在以下致命痛点:

💡 核心贡献 (Core Contributions)

为解决上述痛点,研究团队提出了 DARE (dLLMs Alignment and Reinforcement Executor)。这是一个构建在 verl(分布式训练)和 OpenCompass(评估)之上的统一执行框架,专为 dLLMs 的后训练设计:

🛠️ 具体案例剖析 (Case Study: Algorithm Behaviors on Downstream Tasks)

DARE 框架通过统一的执行环境,首次向业界揭示了不同 dLLM RL 算法在真实下游任务上的真实表现差异,打破了以往“各说各话”的局面。以下是基于 LLaDA-8B-InstructDream-7B-Instruct 的具体评测案例分析:

*结论:DARE 让“没有免费的午餐”在 dLLM 领域变得可视化。它让研究人员明白,当前并不存在通用最优的 dLLM RL 算法,从而指明了寻找兼顾“有效性”与“稳定性”算法的后续研究方向。

⚙️ 方法论与技术实现 (Methodology & Implementation)

1. 统一的执行器抽象 (Worker, Dataflow, Workflow)

DARE 的核心设计理念是将算法特化逻辑共享训练流解耦:

在底层数学表达上,框架同时原生支持 MDLMs 和 BDLMs 的目标函数:
对于掩码扩散模型(MDLMs),其负证据下界(NELBO)损失为: $$ \mathcal{L}_\theta = \mathbb{E}_{\mathbf{x}_0 \sim p_{\text{data}}, \mathbf{x}_t \sim q(\mathbf{x}_t|\mathbf{x}_0), t \sim \mathcal{U}(0,1]} \left[ -\frac{1}{t} \sum_{\ell=1}^L \mathbb{I}[x_t^\ell = \text{}] \log p_\theta(x_0^\ell | \mathbf{x}_t) \right] $$ 对于块扩散模型(BDLMs,具有半自回归特性),其 Block-wise NELBO 损失为: $$ \mathcal{L}_\theta = \mathbb{E}_{\mathbf{x}_0 \sim p_{\text{data}}, b \sim \mathcal{U}[1,B], t \sim \mathcal{U}(0,1]} \left[ -\frac{1}{t} \sum_{\ell=1}^{L'} \mathbb{I}[x_t^{b,\ell} = \text{}] \log p_\theta(x_0^{b,\ell} | \mathbf{x}_t^b, \mathbf{x}^{

2. 模型感知的加速后端 (Decoupled Acceleration Backends)

DARE 最具工程价值的设计在于:它没有采用单一通用的加速后端,而是彻底解耦了 Rollout 与 Actor Training 的底层算子实现,因为这两者的系统瓶颈在 dLLM 中完全不同。

📊 实验设置与结论分析 (Experiments & Conclusion)

DARE 将 OpenCompass 原生集成入 Pipeline 中。研究团队在通用问答(MMLU)、数学(GSM8K, MATH)、代码(HumanEval, MBPP)和规划任务(Countdown, Sudoku)上进行了系统的测评验证。

核心结论:

  1. 基础设施的统一极大促进了研究效率: 研究者不再需要为每个新算法写一套分布式训练和推理逻辑,DARE 充当了通用底座。
  2. 加速方案具有决定性意义: 仅依靠算法级优化不足以支撑 dLLM RL 的规模化探索,DARE 提供的模型感知异步加速(如 MDLM 4x 加速,BDLM 14x 加速)是进行大模型规模 Post-training 的必要条件。
  3. 当前算法尚不完美: 通过统一基准发现,虽然基于 DPO/GRPO 变体的方法(Coupled-GRPO, CJ-GRPO)在 dLLM 上展现出强大能力,但基于 ELBO 严谨推导的算法常常受困于估算方差带来的不稳定性。这也指明了后续研究(如引入更好的方差缩减控制变量、新的似然代理函数等)的方向。

🌟 关键技术亮点分析 (Key Technical Highlights)

Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

Paper Circle:一个开源的多智能体学术研究发现与深度分析框架

作者:Komal Kumar, Aman Chadha, Salman Khan, Fahad Shahbaz Khan, Hisham Cholakkal

机构:MBZUAI(穆罕默德·本·扎耶德人工智能大学), AWS Generative AI Innovation Center

📄 查看 ArXiv 原文

💡 研究背景与痛点

近年来,科学文献的增长速度呈指数级爆发,科研人员在追踪最新进展、深入理解文献以及组织文献综述时面临巨大挑战。传统的检索引擎或学术推荐系统往往只提供基于浅层关键词的匹配,难以针对复杂查询提供具有深度逻辑和上下文脉络的综述式导读。

伴随大语言模型(LLMs)的演进,学术界开始涌现出一批所谓的“AI 科学家(AI Scientists)”(如 O-Researcher、DORA AI 等),它们试图模拟从生成假设、做实验到写论文的全流程。然而,纯自动化的端到端代理系统在现实中往往不切实际:一方面,黑盒生成的幻觉问题无法从根本上消除;另一方面,科研往往高度依赖人工在循环中(Human-in-the-loop)的批判性思维,而不是单纯寻求一个全自动生成的终态结果。

此外,现有的文献多智能体系统(如 PaperQA, SciSage)在功能矩阵上也存在明显短板:要么缺乏多源数据聚合能力,要么无法生成结构化的知识图谱支持复杂查询溯源,抑或是无法进行可复现的、确定性的流程输出。

🚀 核心贡献

本文提出了 Paper Circle,这是一个开源的、多智能体协同的学术检索与分析工作台。它的核心理念并非“替代人类做科研”,而是扮演一个强大的“科研副驾(Force Multiplier)”,增强人类对海量文献的处理能力。其核心贡献包括:

🔍 具体案例剖析 (Case Study)

为了直观感受 Paper Circle 的能力,我们来看一个典型的基于图谱的分析问答场景:

用户提问:"What is manifold-constrained hyper-connections and what is Hyper-Connections?" (什么是流形约束超连接?什么是超连接?)

智能体执行逻辑:

  1. 概念摄取与建图: 系统在此前已将特定论文进行了结构化解析。Concept Extractor 从文本中抽取了相关概念及其定义;Linkage Agent 将文中的“Figure 1”和“Figure 5”与该核心概念进行了边链接(Edge Linking)。
  2. 图感知检索与扩展(GraphRetriever): 系统不只是做单纯的 Vector 检索,而是首先检索到相关概念节点,然后通过 1-hop 邻居图遍历找回上下文和关联图表描述。
  3. 回复生成与溯源: 最终生成的回答明确指出:“Hyper-Connections (HC) 扩展了传统的残差连接机制,通过扩大残差流的宽度并多样化连接模式,提供性能增益但可能导致训练不稳定。而 Manifold-Constrained HC 则是通过在流形约束下改善这种不稳定性……”。
  4. 证据对齐(Grounding): 最关键的是,在 UI 的回答下方,系统精准挂载了 "Figures: Figure 1, Figure 5" 及其在原论文中的对应上下文链接。这种高度可解释的输出,极大降低了研究人员陷入 LLM 幻觉的风险。

⚙️ 方法论与技术实现

系统底层基于 Hugging Face 的轻量级 smolagents 框架构建,以 CodeAgent 作为核心编排器,通过编写 Python 代码来调度多个具备特定工具箱的 ToolCallingAgent,这保障了高度的动作可追溯性和逻辑严谨性。

1. 文献发现发现引擎的多维打分与重排

检索系统的关键在于提供高质量的候选集。每个检索到的候选论文会经过一个复合打分函数:

$$combined(p) = w_s \cdot similarity + w_r \cdot recency + w_n \cdot novelty + w_b \cdot bm25$$

其中,相似度由 Query 和文档(标题+摘要)的 TF-IDF 向量余弦相似度计算得出。新颖性分数(Novelty)则是计算文档向量偏离语料库平均质心的距离,以此召回容易被忽略的长尾文献。在排序后,系统支持调用 Cross-Encoder 进行精准重排(Reranker)。

为避免同质化推荐,系统引入了最大边际相关性(MMR)来兼顾相关性和多样性:

$$MMR = \arg \max_{p \in R \setminus S} \left[ \lambda \cdot sim(p, q) - (1 - \lambda) \cdot \max_{s \in S} sim(p, s) \right]$$

2. 将 PDF 转化为“心智图(MindGraph)”

在 Analysis 管线中,系统舍弃了暴力的字符级切块,转而使用 PyMuPDFSemanticChunker 提取具有语义结构的文档对象(包含层级章节、图注、表格、公式)。图谱构建(GraphBuilder)由四个专业 Agent 接力完成:

3. Coverage Verification(覆盖率核查引擎)

这是保证系统稳健性的一个重要防御层设计。它会在提取后执行逆向扫描,统计“有多少章节没有映射到任何概念?”或“哪些核心图表没有被任何节点连接?”从而给出置信度报告,避免信息“静默遗漏(Silent Omission)”。

📊 实验设置与结论分析

作者不仅评估了检索有效性,还针对不同的模型和消融策略进行了深入测试:

🌟 关键技术亮点分析 (从业者视角)

站在 LLM 落地从业者的视角,这篇工作具备几个极高的工程参考价值:

  1. 强管控式的“Code Agent”取代“JSON Schema 调用”: Paper Circle 的底座采用了近期备受推崇的基于代码生成的编排器。相较于传统基于 JSON 格式化函数回调的机制,让 LLM 直接编写 Python 脚本来并行调用多个底层检索和抽取工具,具有更强的复杂逻辑表达能力和鲁棒性。
  2. State 化管理与确定性原则: 现在的多智能体框架极易陷入黑盒链式调用的陷阱。系统将状态机(PipelineState)解耦并在每一步强制序列化(如 `papers.json`, `links.json`)。这一工程设计极大降低了科研系统的试错成本,保障了强烈的审计和可复现诉求。
  3. 打破 Token Chunking 的壁垒: 大量现存的 RAG 系统在处理长文档 PDF 时因粗暴切块而丢失跨模态上下文。本文将文档拆解成包含结构树、段落属性和跨模态对象(公式/图表)的实体网络,并在问答(QA)环节采用 Graph-aware RAG(即查找到 Node 后沿图谱展开 1-hop 补充上下文),代表了长文本 RAG 进入 Graph RAG 范式的成熟落地应用案例。

REAM: Merging Improves Pruning of Experts in LLMs

REAM:合并技术如何改善大语言模型中专家的剪枝效果

作者机构:Saurav Jha, Maryam Hashemzadeh, Ali Saheb Pasand 等 (Mila, 蒙特利尔理工大学, 麦吉尔大学, 三星AI中心)

论文链接:📄 查看 ArXiv 原文

🔍 研究背景与痛点 (Background & Problems)

稀疏混合专家(Sparse Mixture-of-Experts, SMoE)架构是当前大规模语言模型(LLMs)走向万亿参数时代的主流选择。MoE 通过动态路由(Routing)机制在增加模型参数容量的同时,维持了合理的单 Token 激活计算量(FLOPs)。然而,对于显存受限或边缘部署的真实场景而言,虽然推理 FLOPs 没涨,但所有的 Experts 参数都必须常驻显存,这对系统的 Memory footprint 提出了极大的挑战。

当前的静态 MoE 压缩技术主要分为两派:

作者认为,Pruning 虽然在实践中常优于单纯的 Merging(如 REAP 证明),但丢弃专家内的有价值知识终究不是最优解。如何“既要剪枝的高效和无损,又要合并的知识保留”?这就是本文的切入点。

💡 核心贡献 (Key Contributions)

本文提出了一种统一的专家压缩框架 REAM (Router-weighted Expert Activation Merging),它有效融合了剪枝与合并的优势:

🛠 具体案例剖析 (Case Study: 揭秘校准数据的致命 Trade-off)

对于无需微调的静态模型压缩(One-shot transformation),校准集(Calibration Dataset)的选取如同决定模型生死的“指挥棒”。文中深刻揭示了在生成任务(GEN)和判别任务(MC)之间存在由校准集引发的强烈 Trade-off:

洞察:代码和数学专家在激活模式上通常呈现高度的长尾特化(Spike activations),如果只用通用文本去计算 Saliency,这类特化专家会被视为“无用冗余”遭到无情合并或剪枝。REAM 的 Pseudo-pruning 能够在较合理的校准域下,将这些特化专家作为 Singleton 孤立保留下来,从而在 Qwen3-Coder-Next 等硬核模型上实现了25%压缩几乎零掉点的神级表现。

⚙️ 方法论与技术实现 (Methodology)

REAM 框架主要包含以下几个核心数学构造与执行流程:

1. 门控专家相似度计算 (Gated Expert Similarity)
传统 Merging 只计算原输出的相似度,REAM 结合了门控的置信度。定义专家相似度度量公式如下: $$ \delta_{\text{REAM}}(i, j) = \delta_g(i, j) + \tilde{\delta}_E(i, j) $$ 其中 $\delta_g$ 是 Router logits 的余弦相似度,$\tilde{\delta}_E$ 是经过 Softmax Router 分数调制的专家输出相似度: $$ \tilde{\delta}_E(i, j) = \frac{1}{|X|} \sum_{x \in X} \text{sim}(\sigma(x)_i E_i(x), \sigma(x)_j E_j(x)) $$ 这种做法使得那些产生相似 RAW 特征但应用于不同 Token 分布的专家,不会被简单粗暴地合并。

2. 伪剪枝 (Pseudo-pruning) 聚类
给定校准数据 $X$ 计算出基于 Router 权重的显著性得分 $S^{\text{reap}}_i$。保留前 $N'$ 个最显著的专家作为聚类中心集合 $C_\ell = \{c_1, \dots, c_{N'}\}$(按重要度降序)。对于剩余边缘专家,按贪心策略将它们分配给距离最近的中心,且限制每个中心最大吸收数量 $C$。最终结果是少部分中心吸收了大量废弃专家,而大量高排位专家不受污染(见架构图 a)。

3. 联合对齐合并 (Activation and weight permutation alignment)
当专家 $j$ 要合并进中心专家 $c_i$ 时,需要重排神经元。REAM 构建了混合分配成本矩阵: $$ \mathcal{C}_{\langle c_i,j \rangle} = \mathcal{C}_{\text{act}} + \mathcal{C}_{\text{wt}} \in \mathbb{R}^{d \times d} $$ 该方法强制要求匹配的神经元对齐既要在数据激活空间一致,又要保证其静态权重不要差异过大,有效起到了正则化(Regularization)作用。

4. 序贯层叠合并 (Sequential Merging)
如上图(b)所示,在完成第 $\ell$ 层合并后,模型会基于当前被修改后的 $\ell$ 层输出,重新对下一层执行一次前向计算获取最新激活数据,消除“陈旧激活(Stale Activations)”导致的级联崩坏。

📊 实验设置与结论分析 (Experiments & Analysis)

模型阵容: 挑选了业界一流的最新 MoE:Qwen3-30B-A3B-Instruct(128专家)、Qwen3-Coder-Next(80B,512专家)、GLM-4.5-Air(106B,128专家)。
评测基准: 8项多选题(MC:MMLU、HellaSwag等)+ 6项生成题(GEN:IFEval、HumanEval、GSM8K等)。

🌟 关键技术亮点分析 (Technical Highlights)