作者:Yifan Du, Zikang Liu, Jinbiao Peng, Jie Wu, Junyi Li, Jinyang Li, Wayne Xin Zhao, Ji-Rong Wen
机构:中国人民大学高瓴人工智能学院(Gaoling School of Artificial Intelligence, Renmin University of China)、香港城市大学(City University of Hong Kong)
深度搜索智能体(Deep Search Agents)在解决复杂真实世界信息获取问题上取得了巨大成功。传统的纯文本搜索智能体主要依赖文本进行长视界(Long-horizon)的迭代推理与证据收集。近年来,随着多模态大语言模型(MLLMs)的发展,搜索智能体开始被赋予视觉工具(如图像搜索),以应对多模态查询。
然而,面向多模态的深度搜索在落地中面临着一个极其严峻的挑战——上下文爆炸(Context Explosion)与信息丢失(Information Loss)的困境:
简而言之:现有的多模态 Agent 在处理积累的多模态上下文时,要么被“撑死”(Token爆炸),要么被“饿死”(丢弃了需要细粒度理解的图片)。
为了解决上述矛盾,本文提出了一种全新的基于文件的长视界多模态深度搜索框架 LMM-Searcher,并在合成数据上进行了 Agentic Training。核心贡献如下:
论文在 VisBrowse-Bench 上展示了一个长达 15 轮的精彩交互轨迹,极其直观地展现了 LMM-Searcher 的视觉感知、反思与长视界多跳规划能力。
案例点评:这个例子完美体现了“轻量级上下文 + 按需重度感知”。如果在中间搜索维基百科或搜图阶段就把所有无关图片都塞入 Context,不仅会干扰注意力,更会导致 Token 枯竭。通过 UID 代理和 fetch-image,模型实现了真正的 Agentic Multimodal Search。
这是整篇论文最核心的工程抽象。作者提出将推理(Reasoning)与感知(Perception)解耦:
google_search, visual_search 等。scrape_website, 以及核心的视觉激活工具 fetch_image(将 UID 对应的图像真正喂给模型)。zoom_in 等,用于基于当前视觉资产 $i_{\text{in}}$ 生成新的焦点图像 $i_{\text{new}}$,并同步更新其 UID 进入上下文。为了让模型学会这套复杂的交互逻辑,作者设计了自动化数据合成管道:
多模态搜索的一个痛点是模型容易退化,导致纯文本的深度搜索能力受损。作者巧妙地借用了模型融合技术(Task Arithmetic / Spherical Linear Interpolation 等类似思想)。设训练好的多模态模型为 $\Theta_V$,具有强大文本深度搜索能力的纯语言模型(如 MiroThinker-1.7-mini)为 $\Theta_T$,它们共享相同的语言基座,最终权重为: $$ \Theta_{\text{final}} = \alpha \cdot \Theta_V + (1 - \alpha) \cdot \Theta_T $$ 实验中设定 $\alpha = 0.8$,既保留了多模态工具能力,又继承了语言模型的鲁棒推理能力。
评测基准: MM-BrowseComp (MMBC)、MMSearch-Plus、MMSearch、VisBrowse。
对比基线: Direct Answer (无工具)、Agent Workflow (提供工具但未微调的基座模型)、现有开源多模态搜索 Agent (如 WebWatcher, REDSearcher-MM 等)。
fetch-image 后,高度依赖网页视觉信息的 VisBrowse 基准暴跌近 10 个点(58.0 $\rightarrow$ 48.5),证明了按需加载机制不可或缺。作者:Alkis Sygkounas, Amy Loutfi, Andreas Persson
机构:Machine Perception and Interaction Lab, Örebro University, Sweden
📄 查看 ArXiv 原文强化学习(Reinforcement Learning, RL)算法的核心在于其学习更新规则(Learning Update Rules)。这些规则决定了经验数据如何转化为模型参数更新,并直接塑造了智能体的学习行为。传统上,如 Q-learning、TD-error、Policy Gradients(PG)等经典机制,完全依赖于领域专家的手工设计并保持固定。近年来,虽然自动化机器学习(AutoML)已涉足 RL 的网络架构搜索(NAS)、超参数优化(HPO)和奖励函数发现,但“更新规则”本身一直极少成为自动化设计的对象。
探索 RL 更新规则空间的痛点在于:
本文提出了一种全新的基于大语言模型(LLM)的进化搜索框架,用于直接在“可执行的代码层面”发现全新的强化学习算法。具体贡献如下:
通过本文的进化框架,LLM 在被封锁了几乎所有传统 RL 技能树的前提下,进化出了两个极具启发性的“异类”算法。以下对这两个新算法的机制进行拆解:
核心机制:彻底抛弃价值函数、Q值和策略梯度。该算法在内部训练一个 Latent Dynamics Model (隐空间动力学模型),并在每一步更新中:
点评:这种利用基于模型(Model-based)进行隐空间局部规划(Planning),而后使用监督蒸馏更新策略,并完全摒弃Critic的结构,在现有成熟算法体系中极为少见。
核心机制:在无 Critic 的前提下,依靠微观的前向观测空间展开(Differentiable Short-horizon Rollouts)来传递梯度。
【LLM的Prompt输入约束】:在 Appendix C 中可以看到,系统极其霸道地要求 LLM:"Invent a new algorithm that is NOT based on: Bellman recursion or temporal-difference targets... Q-learning, actor-critic, or policy-gradient methods... The algorithm should not rely on explicit advantage estimates, critic targets..."。正是这种置之死地而后生的 Prompt 设计,激发出 LLM 丰富的泛化组合能力,拼搭出了上述新颖的 Planning 机制。
论文将算法发现定义为一个寻找最优化损失函数 $\mathcal{L}_f(\theta, \xi_t; \mathcal{D}_t)$ 的过程,其中 $\theta$ 为固定架构的策略参数,$\xi_t$ 为新算法引入的辅助网络参数。更新映射被定义为离散代码。
由于代码更新的离散性,只能通过“训练-验证”循环评价。对于特定环境 $i$,通过多次独立随机种子训练获取验证集最大回报均值,再结合环境上下界 $(L_i, U_i)$ 进行归一化:
$\tilde{F}_i(f) = \text{clip}\left(\frac{\text{MTS}_i(f) - L_i}{U_i - L_i}, 0, 1\right)$
最终适应度 $F(f)$ 为多个测试环境分数的平均值。新的候选变异如果 $F(f) \ge \bar{F}^{(g)}_k$ (大于当前岛屿种群平均分)才会被接受入队。
为防止代码空间生成大量微小且无效的“废话”变异导致种群坍塌,作者设计了结合 Levenshtein 编辑距离(代码差异度)和适应度的亲本选择机制。生成新算子 $f'$:
$f' \sim q_{\phi}(f_1, f_2, \text{op}, \mathcal{R}, \mathcal{E})$
选择亲本 $f_2$ 时的概率分布包含代码差异惩罚:
$P(f_2|f_1) \propto \exp(\tau S(f_2|f_1))$ 且 $S(f_2|f_1) = \alpha F(f_2) + (1-\alpha) d_{lev}(f_1, f_2)$
LLM 根据 prompt 执行:Macro mutation(宏观重写某一大模块) 和 Structural crossover(分析双亲优劣并巧妙融合)。
每一个进化出的算法 $\hat{f}$,我们让 LLM 基于代码内容为其相关的标量超参数(如 $\beta_j$)输出一个理论合理的界限区间 $\mathcal{B}_{\hat{f}} = \prod [l_j, u_j]$。随后对这些区间进行均匀采样,并在独立环境中评价从而确立该架构的最佳参数基线 $\beta^*$,这极大缓解了RL算法对超参敏感受到的误判。
实验设置:
核心结果:
中文标题:边想边做:通过感知模式的推测性工具执行加速LLM智能体
英文标题:Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution
作者信息:Yifan Sui, Han Zhao, Rui Ma, Zhiyuan He, Hao Wang, Jianxun Li, Yuqing Yang
机构信息:上海交通大学 (SJTU), 微软亚洲研究院 (Microsoft Research), 史蒂文斯理工学院 (Stevens Institute of Technology)
当前,LLM 的范式正在从单纯的文本生成转向自主任务求解(Autonomous Agents),例如 Deep Research 和 SWE-agent。现代 LLM Agent 的执行引擎深度依赖于 Iterative LLM-Tool Loop(即 ReAct 循环):LLM 推理 -> 等待并执行工具 -> LLM 基于结果继续推理。这种架构引入了极其严重的延迟瓶颈。
为了打破“思考-等待-执行”的串行枷锁,本文提出了 PASTE (Pattern-Aware Speculative Tool Execution) 框架。其核心思想是:利用瞬时闲置资源,在 LLM 生成 Token 的同时,推测性地(Speculative)提前执行下一步极大概率会用到的工具,实现“边想边做”。
论文通过对真实 Benchmark(DeepResearch、SWE-Bench 等)的观察,发现 Agent 行为在宏观上是不可预测的,但在微观执行链路上呈现极强的规律性:
Search,在 51% 的情况下紧接着会调用 Web_fetch 访问前几条 URL。
Web_fetch 所需的 URL 参数,绝大部分是前一个 Search 返回的 JSON 串中的 SearchRes["list"][0]["url"] 字段。PASTE 捕获到这一点后,甚至不等 LLM 开始思考,就可以直接利用正则或路径映射提取 URL 并后台静默开始下载网页。
file_editor (写入代码) 操作后,会立即跟随一个终端工具调用(如 pytest)。
file_editor 的文件名通常来源于此前的 grep 工具搜索结果。PASTE 识别到编辑完成后,可立刻在沙盒环境后台预跑测试。
论文将真实网络建模为有向图 $\mathcal{G} = (\mathcal{V}, \mathcal{E})$。目标是稳定合成格式为 $(q, y, \tau^*)$ 的数据集,其中包含极长时序 $\tau^* = [a_1, o_1, \dots, a_T, o_T]$。
通过“逆向工程”获取推理图:
搜索返回的 HTML/网页文本($o_t$)往往包含天量噪声,这会导致生成高质量金标准轨迹(Teacher 模型)变得困难。作者设计了精妙的动态上下文去噪机制:
$\mathcal{H}_t = \{q, (r_1, a_1, s_1), \dots, (r_{t-2}, a_{t-2}, s_{t-2}), \mathbf{(r_{t-1}, a_{t-1}, o_{t-1})}\}$
$\mathcal{H}_t^{train} = \{q, (r_1, a_1, o_1), \dots, (r_{t-1}, a_{t-1}, \mathbf{o_{t-1}})\}$
本质原理: 这是一种典型的 Knowledge Distillation 变体,强迫 Student 参数化隐式内化(internalize)去噪逻辑,在面对真实世界杂乱无章的网页响应时,能学会“大海捞针”。
Qwen3-30B-A3B-Thinking(激活3B参数)模型初始化。仅仅使用 11.7k (10.3k英文 + 1.4k中文) 的合成数据,并只进行了单次 SFT(无RL、无启发式过滤优化)。上下文窗口设为 256k。1. Data Quality 大于一切复杂的 RL 管线: 过去半年,行业普遍认为只有引入复杂的在环境中的强化学习(RL),智能体才能学会长程搜索。OpenSeeker 用区区 11.7k 数据外加最基础的 SFT 证明了:只要合成数据在逻辑拓扑(Web Graph)上是严密的,并且强迫了模型去做多跳推理,SFT 依然能击穿 SOTA 的上限。
2. 巧妙的 Asymmetric Context Training 机制: 这是在 Agent SFT 数据构造中非常值得借鉴的一招。过长的 Raw HTML 会导致 Teacher 模型在合成数据时产生大量 Hallucination 和迷失(Lost in the middle)。本文将 Teacher 侧的 Context 做 Summarize,保证金标准决策的稳健;而在给 Student 训练时还原 Raw 噪音。这一“降维打击”完美弥合了生成高质量数据与训练鲁棒模型之间的矛盾。
3. 基于图结构的“逆向工程”: 取代了“喂给LLM一篇文档让其出题”的传统 QA 构建范式。利用真实网络的拓扑结构做基石,直接从物理结构上杜绝了问题可以通过“单步检索”完成的可能,这为未来更复杂的 Agent 环境(如操作系统环境、复杂数据库环境)的数据构建指明了道路。
作者:Alexander Erlei, Lukas Meub
机构:Georg-August-Universität Göttingen (哥廷根大学)
领域:多智能体交互、机制设计、计算经济学
随着生成式人工智能(Generative AI)的演进,人类正越来越多地将复杂的经济决策委托给自主的AI Agent(例如自动化交易、医疗问询助理、法律顾问等)。然而,许多关键的经济领域存在严重的信息不对称(Information Asymmetry),构成了所谓的“信任品市场”(Credence Goods Markets,或称专家服务市场)。在这种市场中,供应商(专家)比消费者更了解后者的真实需求,从而具有强烈的动机通过“过度治疗(Overtreatment)”、“治疗不足(Undertreatment)”或“过度收费(Overcharging)”来剥削消费者。
业界痛点: 传统的行为经济学实验表明,人类在这种市场中往往表现出极高的低效性,但人类能够依靠内在的“社会偏好(如互惠、初始信任)”建立一定程度的合作。对于当前前沿的LLM智能体,业界尚存巨大疑问: 1. LLM智能体能否在没有人类干预的情况下,解决信息不对称带来的信任危机? 2. 经典的经济学机制设计(如责任制、声誉机制、信息可验证性)对AI Agent是否依然有效? 3. 缺乏内建“人类道德感”的开箱即用型大模型,在追求利益最大化时,是否会导致市场的彻底崩溃?
论文通过操控System Prompt中的目标函数(Objective Functions)来赋予Agent不同的社会偏好,这直接决定了Agent的欺诈倾向:
研究基于标准信任品问题(Credence Goods Problem)建立模型。市场中包含专家(Expert)与消费者(Consumer)。消费者有 $h=0.5$ 的概率遇到“大问题”,$1-h=0.5$ 的概率遇到“小问题”。不进入市场则获得外部收益 $\sigma = 1.6$。进入市场解决问题获得收益 $V=10$,未解决则收益为 $0$ 且需付钱。
专家可准确诊断问题,并选择:高成本治疗(HCT,成本 $\bar{c}=6$)或低成本治疗(LCT,成本 $\underline{c}=2$)。专家事先发布价格矩阵 $P = (\bar{p}, \underline{p})$。
理论预测(标准博弈论):
在无制度(No Institution)下,自利专家必定选择LCT并收取 $\bar{p}$。消费者预期被骗,其期望收益为:
$$ \pi^c_{ni} = (1-h)(V-\bar{p}) - h\bar{p} $$
消费者要求 $\pi^c_{ni} \ge 1.6$,因此专家将降价竞争至 $\bar{p}=3$。但实验发现LLM并不完全遵循此均衡。
技术实现细节:
Expected Parrot 框架实现异步并发交互。实验采用了 $3 \times 2 \times 4$ 的被试间设计:3种制度(无、可验证、责任制) × 2种声誉机制(有声誉、无声誉,仅在16轮重复博弈中测试) × 4种偏好目标(无提示、自利、厌恶不公、追求效率)。进行了 600 次单次市场模拟和数百次 16轮重复市场模拟。
核心结论:
对于致力于开发多智能体系统(MAS)和AI Agent落地(尤其是金融、电商、法律和医疗AI助理)的从业者,本文提供了极为深刻的Insight: