中文标题:工具注意力就是你所需要的:动态工具门控与延迟Schema加载,消除可扩展Agent工作流中的MCP/Tools税
作者:Anuj Sadani, Deepak Kumar (Infrrd.ai)
发布信息:April 2026 (arXiv preprint)
随着 Anthropic 推出 Model Context Protocol (MCP),LLM Agent 拥有了连接数百个外部工具的标准接口(如数据库查询、GitHub操作、Slack通信等)。然而,MCP 的设计继承了 Chat-Completions API 的无状态特性(Stateless),这引发了一个行业级的痛点——Tools Tax(工具税)。
现有的缓解方案(如静态裁剪、CLI式的延迟发现)要么牺牲了灵活性,要么破坏了系统可用性。业界亟需一种“Drop-in”的中间件方案,在不改变协议语义的前提下从根源上消除 Tools Tax。
为了直观理解 Tool Attention 的工作流,我们来看一个涉及“搜索Slack并在Jira建表”的典型多步 Agent 任务:
[背景假设] Agent 连接了 120 个工具(GitHub, Slack, 数据库, Jira 等)。
all-MiniLM-L6-v2 将用户的意图进行 Embedding,计算与各工具摘要的余弦相似度 (ISO Score)。slack_search 和 jira_create_issue 两个工具相关,且当前 Agent 已通过鉴权(状态门控通过)。中间件仅从注册表中拉取这两个工具的完整 JSON Schema(数百 Token)注入 Prompt 尾部。github_issue 工具,中间件会在 after_model Hook 中直接拦截并返回结构化错误:"tool_not_available: 'github_issue'. Available this turn: [...]",强制模型在下一轮修正,从而保证了极其激进的剪裁也不会导致任务彻底崩溃。
Tool Attention 的核心思想是将 Transformer 中让 Token 动态选择上下文的“自注意力机制”类比到工具层,让每轮对话动态加载与之相关的工具。它包含三个核心组件:
使用轻量级的 Sentence-level Encoder $\phi$ 将用户查询 $q$ 和工具摘要 $s_i$ 映射为高维向量,计算余弦相似度:
$$ \text{ISO}(q, t_i) = \frac{e_q^\top e_{t_i}}{\|e_q\|_2 \|e_{t_i}\|_2} $$
其理论基础在于 Total Attention Energy (TAE):如果工具在推理时不会产生高 TAE,那么将其从 Prompt 中剔除也不会改变 Agent 的输出 logit。ISO 相当于极低成本的预期 TAE 代理指标。
单纯的语义检索不够安全。作者引入了状态执行校验:
$$ g(t_i; q, \text{state}_t) = \mathbf{1}[\text{ISO}(q, t_i) \geq \theta] \cdot \mathbf{1}[\text{state}_t \models \text{pre}_i] $$
其中 $\text{pre}_i$ 是前置条件(如 requires_auth 或 only_after_search)。只有语义得分高于阈值 $\theta$ 且满足系统状态的工具才能进入候选集 $\mathcal{A}_t$(取 Top-k)。
这种设计完美契合了 Prompt Caching 范式:Phase 1 保持静态命中率,Phase 2 体积极小。
作者构建了一个基于 120 个工具的 MCP 仿真基准(包含 GitHub, DB, Jira 等常用企业工具库,单轮 Full-Schema 约 4.7万 Token)。
before_model 和 after_model 钩子无缝切入,不仅适配所有现有的 MCP Server,还能与未来底层的 MOQT 传输层缓存协议形成互补。作者:Ye Yu, Heming Liu, Haibo Jin, Xiaopeng Yuan, Peng Kuang, Haohan Wang
机构:伊利诺伊大学厄巴纳-香槟分校 (UIUC)
基于大语言模型(LLM)的多智能体系统(MAS)在解决复杂推理任务(如数学、编程)方面展现了极大的潜力。其成功归因于两个核心:智能体的角色分配与系统结构,以及智能体间的通信机制(Inter-agent Communication)。然而,当前的 MAS 在通信层面临着显著的瓶颈:
本文提出了一种全新的多智能体训练框架 DiffMAS (Differentiable Multi-Agent System),将基于 KV Cache 的隐式通信作为一种可学习的跨智能体接口进行端到端优化。主要贡献如下:
为了直观展现 DiffMAS 与无训练隐式通信(LatentMAS)的区别,作者在 AIME24 数据集上提供了一个真实的 Case Study(计算最小球体半径平方的问题)。
输入问题片段:Let $B$ be the set of rectangular boxes with surface area 54 and volume 23. Let $r$ be the radius of the smallest sphere that can contain each of the rectangular boxes... The value of $r^2$ can be written as $p/q$ ... Find $p+q$.
❌ LatentMAS (无训练直接拼接 KV Cache) 的输出:
模型开始尝试计算四面体,胡乱设定边长,逻辑迅速崩溃...
"Okay, let's try to solve this problem step by step... So, we have a tetrahedron ABCD with specific edge lengths. The question is about finding the equal distance from an interior point I to each of the tetrahedron's faces..."
【随后出现乱码和重复模式(Chaotic Decoding)】
"V = sqrt( —CM— / 2 2 2 2 2 2 2 2 2 2 2 2 2 2... query query enjoys eventually enjoys query transformations"
分析:由于预训练 Transformer 没有见过由其他 Agent 强行注入的外部 KV 状态,这种 Distribution Mismatch 破坏了其注意力模式,导致推理想象力漂移和解码崩溃。
✅ DiffMAS (端到端优化的隐式通信) 的输出:
模型清晰地理解了任务,并将上游 Agent 传递的隐式上下文准确解码为解题逻辑...
"Okay, let's try to solve this problem step by step. The question is about finding the square of the radius of the smallest sphere... First, I need to recall that the smallest sphere that can contain a rectangular box would have a diameter equal to the space diagonal of the box. So, the radius $r$ is $\frac{\sqrt{x^2+y^2+z^2}}{2}$..."
【通过一系列稳定的求解步骤】
"...r^2 = 657 / 64. Simplify the Fraction... p = 657 and q = 64, giving p + q = 721. Final Answer: 721 (✓ 正确)"
分析:通过端到端训练,DiffMAS 使得下游 Agent 学会了如何“阅读”上游 Agent 编码在 KV Cache 中的非结构化推理表征,不仅保留了全息信息,还保证了解码阶段极高的稳定性(更低的 Perplexity 波动)。

DiffMAS 的核心理念是将通信机制构建为网络前向计算图中的一段可导路径。系统包含 $K$ 个顺序执行的 Agent(如 Planner, Critic, Refiner, Solver)。
通信媒介被定义为一个隐式轨迹序列 $Z$(具体的物理实现为 KV Cache Block)。在第 $j$ 阶段(即第 $j$ 个 Agent 运行时),它会接收前面的全局轨迹 $Z_{1:N_{j-1}}$,并自回归地生成 $T$ 个新的 Latent Block:
$$Z_{1:N_j} = A^{(j)}_\theta(Z_{1:N_{j-1}}; x, p_j)$$
其中 $A^{(j)}_\theta$ 代表当前智能体的计算操作,$x$ 为输入,$p_j$ 是该角色的特定 Prompt。这种方式将整个多智能体交互抽象为一个极深但连贯的可微计算网络。
经过 $K$ 阶段交互后,最后一个 Decoder 输出最终预测分布:
$$p_\theta(y|x, \{p_j\}_{j=1}^K) = \text{Dec}_\theta(x, p_K, Z_{1:N_K})$$
训练采用典型的负对数似然损失 $\mathcal{L}(\theta) = -\log p_\theta(y^\star | \cdot)$。这里最关键的一步是,因为所有中间状态都是连续向量(KV Cache),损失的梯度 $\frac{\partial \mathcal{L}}{\partial Z}$ 能够毫无障碍地跨越 Agent 边界,回传至前置的每一个生成步。 实验中通过共享的预训练 Transformer 配合阶段特定的 LoRA 权重来实现这一过程,仅更新少量参数即可(Parameter-Efficient)。
论文在理论部分指出了基于“拼接 KV Cache”架构的重要属性。假设存在一种基于固定大小 Carrier 向量 $h_j$ 不断更新的通信系统(类似传统 RNN 传隐状态),那么梯度反向传播时将遭遇 Jacobian 矩阵的连乘衰减:
$$\left\| \frac{\partial \mathcal{L}}{\partial h_j} \right\|_2 \le \rho^{K-j} \left\| \frac{\partial \mathcal{L}}{\partial h_K} \right\|_2$$
而在 DiffMAS 中,采用的是 KV Cache 追加式拼接(Concatenation):$Z_{1:N_j} = [Z_{1:N_{j-1}}; Z^{(j)}_{1:T}]$。根据微积分链式法则和分块矩阵属性,其关于任意中间阶段 $j$ 输出的偏导满足:
$$\left\| \frac{\partial \mathcal{L}}{\partial Z^{(j)}_{1:T}} \right\|_2 \le \left\| \frac{\partial \mathcal{L}}{\partial Z_{1:N_K}} \right\|_2$$
这从理论上(Proposition 3.1)证明了:基于串联的接口不会引入随网络深度指数衰减的梯度乘数。这使得即使是很早阶段(如 Planner)的 Agent,也能接收到高质量的反馈梯度,从而学会如何正确地为下游编码信息。
实验设置:使用了 Qwen3-4B/8B/14B、Ministral3-8B 和 DeepSeek-R1-Distill-Qwen-32B 多种规模模型。任务涵盖 AIME24/25, GPQA-Diamond, HumanEval+, MBPP+ 等重推理测试。训练数据使用了极小规模的高质量 Trace(例如数学仅用 210 条 Hendrycks Math 样本,代码仅用 50 条 HumanEval 样本),侧重测试“极少量数据是否足以学会通信协议”。
对于 LLM/AI Agent 从业者而言,这篇论文带来的重要启示在于:
Authors: Yuanjie Lyu, Chengyu Wang, Haonan Zheng, Yuanhao Yue, Junbing Yan, Ming Wang, Jun Huang
Institution: Alibaba Group
📄 查看 ArXiv 原文在现代工业级应用中,具有多步推理和工具调用能力的智能体(Agents)模型正变得越来越重要。当前业界主要依赖于闭源超大模型(如 GPT-4、Claude 或千亿级参数模型如 Qwen3-235B)来充当智能体大脑。然而,对于动辄服务数百万用户的高频工业场景(如订票、内部数据检索查询等),使用极高参数量的模型会带来不可接受的成本与延迟问题。
为了解决高昂的 API 成本,开源社区急需具备强大 Agentic 能力的小参数语言模型。尽管针对小模型的强化学习(RL)是目前的主流技术路径,但现存一大痛点:合成数据容易很快趋于同质化(overly homogeneous),导致 RL 训练的收益边际锐减,模型极易触达性能天花板。一旦场景变得稍加复杂,或者遇到用户的模糊与对抗性指令,小模型的 Agentic 能力就会暴露出严重短板。
论文在附录详细展示了 Agentic 数据飞轮自动生成的一个带有对抗性(Adversarial)和复杂校验的高质量训练样本,借此培养模型应对真实异常场景的能力:
期望的执行路径(Compliant Path):模型不会被用户的谎言(“学术办公室确认了”)欺骗,它会先调用 get_academic_record 发现成绩不合格。根据政策,即便教练施加“越狱/社交工程”式的压力,Agent 也会果断执行 refuse nomination。同时,Agent 分清了权限解耦,合法调用了 update_bio 完成资料更新。
点评:这种样本通过“行为树扩展”自动产生,极大地锻炼了小模型在复杂规则、混淆信息下的工具调用严谨性。
论文的训练基础为 Qwen-3,采用了 GRPO(Group Relative Policy Optimization)风格的多轮强化学习。在训练过程中,同步驱动两大“数据飞轮”以突破能力天花板:
主要针对数学或逻辑推理等具有唯一确定答案的任务。飞轮机制包含:
不同于纯推理任务,基于工具调用的真实场景(如订票系统、OA系统)更加充满变数。数据飞轮通过 4 个阶段运行:
实验配置:模拟环境、工具调用以及强化学习 Reward 回报模型全部由本地部署的 Qwen3-235B 担任,使得过程无需调用昂贵的商业 API。训练总合成数据约 100K,策略优化采用 GRPO,分别评估了航空/通信/零售(TAU-2)以及综合工具基准(BFCL-V4)。
核心结果分析:
从资深 LLM 开发者的视角来看,这篇工作的核心价值在于提出了一套具有高度工业落地可行性的“课程学习”式数据生成管线(Curriculum Generation Pipeline):
作者:Qijun Han, Haoqin Tu, Zijun Wang, et al.
机构:UC Santa Cruz, CMU, UNC-Chapel Hill, Salesforce, UC Berkeley
随着多模态大语言模型(MLLMs)的飞速发展,基于屏幕截图和键鼠控制的图形用户界面(GUI)智能体(如 Claude Computer Use, 各种OSAgent)正在成为Agent赛道的核心高地。然而,尽管底层模型能力不断飙升,当下的GUI智能体在实际桌面端长流程任务中依然面临两个“顽疾级”的工程痛点:
done() 结束任务。缺乏严格对齐“UI可见证据”(Visual Evidence)的终止机制,这是导致失败的头号杀手。针对上述痛点,本文作者团队(加州大学圣克鲁兹分校联合CMU、Salesforce等)提出了一个优雅且工程实用度极高的模块化框架——VLAA-GUI,并达成了突破性成果:
为了直观感受 VLAA-GUI 中模块间的化学反应,论文提供了一个在 OSWorld 中操作 LibreOffice Impress(PPT软件)的精彩 Case:
任务:“幻灯片页码太淡看不清,请把幻灯片页码颜色改成红色。”
done() 指令。此时 Completeness Verifier(完整性验证器) 介入,发现两个致命疑点:1. 屏幕截图显示文件仍未保存(无侧边提示/标题栏星号);2. 回归普通视图后,有部分页码仍然是灰色。Verifier 强硬拒绝了完成申请。done()。此时 Verifier 再次驳回:“颜色对了,但你依然没保存!”Ctrl+S,保存成功。Verifier 在截图上确认了无异常,放行 done(),任务真正成功拿分。点评:没有 Verifier,Agent 在第一步就挂了(得0分);没有 Searcher,Agent 卡在第二个母版找不到死磕到底。这套组合拳极大地提升了容错率和长尾任务的处理能力。
VLAA-GUI 放弃了复杂的长期记忆(Memory)或层次化任务分解规划,而是信奉“端到端强化监管”。核心架构由 1 个主理人(Manager Agent),2 个强制拦截模块,以及 3 个按需调用工具组成。
基于核心理念:“没有可验证证据绝不宣布成功”。这采用了双保险机制:
done,就会触发一个低 Temperature (0.2)、高度保守的独立 MLLM 裁判。它会根据当前截图 $o_t$、轨迹 $b_t$ 执行极其严苛的规则检查(例如要求看到“保存成功”的toast、文件扩展名的变化等)。不满足条件则强制退回并附上理由。定义局部动作重复计数器 $n_t^a$ 和画面重合度计数器 $n_t^o$:
$$ n_t^{a} = \bigl|\{i \in [t\!\-\!1,\, t] : a_i = a_t \;\land\; o_{i+1} \approx o_i\}\bigr|, \quad n_t^{o} = \bigl|\{i \in [t\!\-\!2,\, t] : o_i \approx o_t\}\bigr| $$提供三层逐步升级(Escalation)的打破僵局机制:
SWITCH 信号,则硬编码将当前动作拉黑,强迫 Manager 另寻他路。以往为了让Agent搜教程,往往会让Agent去操作浏览器(打开网页、点搜索框、看内容),极度浪费步骤(Action steps)且经常失败。VLAA-GUI 创造性地提供了工具 search(query),将问题直接扔给具备 Search Grounding 的强大 LLM(如 Gemini 3 Pro)。该 LLM 直接在后台检索并总结成一段“步骤攻略”纯文本返回。直接将知识注入 Prompt,实现了用纯文本对抗视觉交互的不确定性。此外,系统还接入了用于编程逻辑的 Coding Agent 和用于UI元素坐标翻译的 Grounding Agent。
团队在两大标杆桌面评测基准 OSWorld-Verified (Ubuntu) 和 WindowsAgentArena (Windows) 上进行了横向评测,覆盖五大主流闭源模型(Claude 3.5 Opus/Sonnet, Gemini 1.5 Pro/Flash 系列)。
作为资深从业者,VLAA-GUI 给我们带来的最大工程启发在于“防御性Agent工程”(Defensive Agent Engineering)的范式转变:
👨🔬 作者:Yongcan Yu, Lingxiao He, Jian Liang, Kuangpu Guo, Meng Wang, Qianlong Xie, Xingxing Wang, Ran He
🏢 机构:中国科学院自动化研究所 (NLPR & MAIS, CAS)、中国科学院大学、美团、中国科学技术大学
近年来,结合可验证奖励的强化学习(RLVR)在提升大语言模型(LLMs)的数学和代码推理能力上取得了巨大成功。然而,RLVR 严重依赖于外部的 ground-truth 标签或规则验证器(Rule-based Verifiers),这在遇到分布偏移(Distribution Shift)或开放式问题时难以适用。
为解决这一限制,测试时强化学习(Test-Time Reinforcement Learning, TTRL)应运而生。TTRL 结合了测试时扩展(Test-Time Scaling)和无监督强化学习:给定一个测试问题,模型先采样生成多个回答,通过多数投票(Majority Voting)得出“伪标签(Pseudo-label)”,然后利用 GRPO 等算法在测试阶段直接优化模型参数。
核心痛点:由于 TTRL 完全运行在无监督范式下,奖励信号完全由模型自身输出推导而来,这使得它极易受到虚假奖励信号(Spurious Reward Signals)的干扰。作者深入挖掘后发现了两个致命的机制缺陷:
本论文通过严谨的实证分析(Case Study of Phenomenon)揭示了 TTRL 失败的根本原因,这对所有从事 LLM Post-training 的从业者都极具启发性:
为了彻底解决上述痛点,作者提出了 DDRL,整个 Pipeline 包含三个关键且优雅的组件:
为了去除“中频模糊区”的干扰,DDRL 放弃了将所有 Rollout 用于训练的做法,转而针对每个 Prompt 固定选取 $K$ 个样本构成训练 Batch:
彻底抛弃 GRPO 中的相对优势归一化,切断“低共识导致高奖励”的放大链条。DDRL 为 rollout $y_i$ 分配固定且仅依赖于标签匹配度的 Advantage:
$A_i = \mathbb{I}(y = y^*) - \mathbb{I}(y \neq y^*)$
正样本固定为 +1,负样本固定为 -1。通过将优势幅度与组内统计特征解耦,消除无监督伪标签场景下特有的放大效应,使优化过程更加平稳可靠。
由于 On-policy RL(尤其是基于伪标签的 RL)具有随机性,作者发现在 RL 阶段后期,模型已经学到了高共识行为,此时用轻量级的监督微调(SFT)进行“知识蒸馏”比继续硬跑 RL 效率高得多。步骤如下:
实验设置:在三个数学推理基准(MATH-500、AMC、AIME 2024)上,评测了 Qwen2.5-Math-1.5B (垂类模型)、Qwen2.5-Base-3B (基座模型) 和 LLaMA-3.1-8B-Instruct (指令微调模型)。
主要结论: