Towards Long-horizon Agentic Multimodal Search

迈向长视界代理式多模态搜索

作者：Yifan Du, Zikang Liu, Jinbiao Peng, Jie Wu, Junyi Li, Jinyang Li, Wayne Xin Zhao, Ji-Rong Wen

机构：中国人民大学高瓴人工智能学院（Gaoling School of Artificial Intelligence, Renmin University of China）、香港城市大学（City University of Hong Kong）

📄 查看 ArXiv 原文

研究背景与痛点

深度搜索智能体（Deep Search Agents）在解决复杂真实世界信息获取问题上取得了巨大成功。传统的纯文本搜索智能体主要依赖文本进行长视界（Long-horizon）的迭代推理与证据收集。近年来，随着多模态大语言模型（MLLMs）的发展，搜索智能体开始被赋予视觉工具（如图像搜索），以应对多模态查询。

然而，面向多模态的深度搜索在落地中面临着一个极其严峻的挑战——上下文爆炸（Context Explosion）与信息丢失（Information Loss）的困境：

高昂的 Token 成本： 多模态输入（如网页中的高分辨率图片、视频帧）会消耗海量的 Token。在动辄数十轮的长视界交互中，如果采用传统的“急切加载（Eager Loading）”范式（即搜到什么图片就立刻塞入上下文），会迅速耗尽模型的 Context Window，导致 OOM 或严重幻觉。
启发式压缩导致的信号丢失： 现有的多模态搜索框架（如 WebWatcher, REDSearcher 等）通常采用粗暴的启发式策略，即在中间步骤直接丢弃图像数据以节省上下文。这种做法不可避免地导致关键视觉信号（Visual Signals）的永久丢失，使模型在后续步骤中无法进行细粒度的跨模态验证和多跳推理。

简而言之：现有的多模态 Agent 在处理积累的多模态上下文时，要么被“撑死”（Token爆炸），要么被“饿死”（丢弃了需要细粒度理解的图片）。

核心贡献

为了解决上述矛盾，本文提出了一种全新的基于文件的长视界多模态深度搜索框架 LMM-Searcher，并在合成数据上进行了 Agentic Training。核心贡献如下：

长视界多模态深度搜索框架（LMM-Searcher）： 引入了“基于文件的视觉表征机制”（File-based visual representation）。通过将视觉资产卸载（Offload）到外部文件系统并用轻量级的文本标识符（UIDs）进行映射，配合专门设计的按需加载（On-demand loading）工具，完美解决了上下文爆炸问题。
面向长视界搜索的数据合成流水线： 针对目前开源界缺乏高质量、需要复杂跨模态多跳推理的数据集，设计了一套自动化的 VQA 轨迹合成 Pipeline。合成的查询相较于现有数据集，需要更多的工具调用轮数和更高比例的视觉感知动作。
强大的开源多模态搜索智能体： 基于上述框架和蒸馏出的 12K 高质量轨迹数据，对 Qwen3-VL-Thinking-30A3B 进行了监督微调（SFT）并结合了模型融合技术，最终发布了 LMM-Searcher-30B。该模型能够稳定扩展至 100 轮搜索，在多个具有挑战性的基准（如 MM-BrowseComp 和 MMSearch-Plus）上达到了开源 SOTA，并展现出了极强的泛化能力。

具体案例剖析 (Case Study)

论文在 VisBrowse-Bench 上展示了一个长达 15 轮的精彩交互轨迹，极其直观地展现了 LMM-Searcher 的视觉感知、反思与长视界多跳规划能力。

【原始问题】：输入一张饮料盒的局部图片，该饮料上的图像是某食品公司的 Logo，该公司在 2009 年收购了一家报业公司。问：这家被收购报业公司的维基百科海报（信息框图片）中有多少棵树？

【LMM-Searcher 的推理与动作轨迹】：
[Iteration 1-3：细粒度视觉感知与定位]
模型首先尝试用该图片进行视觉搜索（Visual Search），但未能直接识别出 Logo。
<think> 视觉搜索没认出 Logo，我需要定位到蓝色的饮料盒部分，并把它放大（Zoom-in）。
-> 调用工具: tool-image-processing-zoom_in，计算坐标并截取区域。
-> 成功截取局部 Logo。

[Iteration 4-5：基于视觉特征的文本推理]
<think> 放大后看清了，这是“旺旺（Want Want）”的经典男孩 Logo。问题说这家公司2009年收购了报业。我要搜一下 "Want Want acquired newspaper 2009"。
-> 调用工具: google_search
-> 得到结果：旺旺在 2008-2009 年收购了“中国时报集团（China Times Group）”。

[Iteration 6-12：跨模态搜索与反思纠错]
<think> 目标变更为寻找“中国时报集团”的 Wikipedia 页面，并提取其海报图片算树。
-> 模型尝试使用 scrape_website 抓取维基百科页面，但遭遇了 403 Forbidden 错误。
<think> 反思：403错误，我要换个策略。直接用 Google Image Search 搜 "中国时报集团维基百科 infobox"。
-> 经过几次关键词调整与尝试，模型成功拿到了包含大楼外景的维基海报图片 URL（UID）。

[Iteration 13-15：按需加载与终局推理]
<think> 我拿到了图片链接，现在需要把它加载进上下文来数树。
-> 调用关键工具: fetch-image (传入图片 UID)
-> 系统将高分辨率图片传给模型。
<think> 开始数树：左边一棵小树，电线杆旁边一棵...（给出详细坐标），一共 5 棵。
-> 给出最终答案：5。
        

案例点评：这个例子完美体现了“轻量级上下文 + 按需重度感知”。如果在中间搜索维基百科或搜图阶段就把所有无关图片都塞入 Context，不仅会干扰注意力，更会导致 Token 枯竭。通过 UID 代理和 fetch-image，模型实现了真正的 Agentic Multimodal Search。

方法论与技术实现

1. 基于文件的长视界多模态上下文管理

这是整篇论文最核心的工程抽象。作者提出将推理（Reasoning）与感知（Perception）解耦：

多模态数据代理： 设 $\mathcal{I}$ 为高维视觉空间，$\mathcal{U}$ 为轻量级文本标识符空间（UID，如图片 URL）。定义持久化映射函数 $f: \mathcal{I} \rightarrow \mathcal{U}$。搜索引擎返回的多模态文档在进入模型上下文前，会被中间件拦截，所有原始图片 $i$ 都会被存入外部文件系统，并在文本上下文中被替换为 $u = f(i)$ 及简短的 Caption。
扩展工具接口（渐进式加载）：
- 搜索工具 (Search): google_search, visual_search 等。
- 浏览与提取 (Browse): scrape_website, 以及核心的视觉激活工具 fetch_image（将 UID 对应的图像真正喂给模型）。
- 视觉处理 (Visual Processing): zoom_in 等，用于基于当前视觉资产 $i_{\text{in}}$ 生成新的焦点图像 $i_{\text{new}}$，并同步更新其 UID 进入上下文。

2. 多跳推理轨迹的数据合成 Pipeline

为了让模型学会这套复杂的交互逻辑，作者设计了自动化数据合成管道：

多跳图构建： 从多模态网页中提取核心实体 $E$，作为图的根节点 $v_{\text{root}}$。在第 $t$ 次迭代中，利用 LLM 从节点 $v_t$ 中提取属性子集 $\hat{\mathcal{R}}_t$，进行图的广度扩展： $$ \mathcal{V}^{(t)} = \mathcal{V}^{(t-1)} \cup \{u_i^t \mid r_i^t \in \hat{\mathcal{R}}_t\} $$ $$ \mathcal{E}^{(t)} = \mathcal{E}^{(t-1)} \cup \{(v_t, r_i^t, u_i^t) \mid r_i^t \in \hat{\mathcal{R}}_t\} $$
图模糊化（Graph Fuzzification）与信息不可逆约束： 强制 LLM 抹除直接指向根节点的简单线索，确保每条边在最终的跨模态推理中都是不可或缺的，防止模型走捷径。
轨迹生成与拒绝采样： 使用强大的闭源模型（Seed-1.8）执行合成的问题，只有在 40 轮以内成功且不超 64K 上下文的轨迹才被保留，最终得到 12,736 条高质量多跳多模态 SFT 数据。

3. 模型训练与权重融合 (Model Merging)

多模态搜索的一个痛点是模型容易退化，导致纯文本的深度搜索能力受损。作者巧妙地借用了模型融合技术（Task Arithmetic / Spherical Linear Interpolation 等类似思想）。设训练好的多模态模型为 $\Theta_V$，具有强大文本深度搜索能力的纯语言模型（如 MiroThinker-1.7-mini）为 $\Theta_T$，它们共享相同的语言基座，最终权重为： $$ \Theta_{\text{final}} = \alpha \cdot \Theta_V + (1 - \alpha) \cdot \Theta_T $$ 实验中设定 $\alpha = 0.8$，既保留了多模态工具能力，又继承了语言模型的鲁棒推理能力。

实验设置与结论分析

评测基准： MM-BrowseComp (MMBC)、MMSearch-Plus、MMSearch、VisBrowse。

对比基线： Direct Answer (无工具)、Agent Workflow (提供工具但未微调的基座模型)、现有开源多模态搜索 Agent (如 WebWatcher, REDSearcher-MM 等)。

核心结论

SOTA 表现： 在具有挑战性的 MMBC 和 MMSearch-Plus 榜单上，LMM-Searcher-30B 在 100 轮交互限制下分别取得了 30.1 和 34.8 的最高分，远超 Vision-DeepResearch-30B 和 REDSearcher-MM 等开源基线，甚至在框架赋能下，基座能力大幅超越直接调用的 GPT-5。
Scaling with Inference Compute (测试时计算扩展)： 作者测试了模型在不同交互轮数上限（如 20轮 vs 100轮）的成功率。结果表明，LMM-Searcher 受益于给定的思考与重试轮数增加，即使放宽到 100 轮，MMBC 上的准确率仍在持续上升，证实了框架有效阻止了长文本幻觉导致的崩溃。
消融实验：
- 数据消融： 仅使用开源 VQA 数据训练会使长周期 MMBC 掉分，而引入本文合成的 Multi-hop Query 后，各榜单全面提升。
- 工具消融： 移除 fetch-image 后，高度依赖网页视觉信息的 VisBrowse 基准暴跌近 10 个点（58.0 $\rightarrow$ 48.5），证明了按需加载机制不可或缺。

关键技术亮点分析 (Takeaways)

对 O1-like 时代的启示：Decouple Perception from Reasoning（感知与推理的解耦）。 目前业内做 MLLM Agent 时常陷入一个误区，即要求模型在一个巨长无比的上下文中“同时盯住所有看过的网页图片”。本文的“指针（UID）化”理念非常符合人类查资料的直觉：我们不会把看过的所有图片记在脑子里，我们只记住“线索在哪里”，当需要时再“翻开书（Fetch Image）”仔细看。这极大释放了长上下文中 LLM 的 Reasoning 能力。
Model Merging 的工程价值： 训练多模态模型时极易灾难性遗忘文本逻辑。本文直接将 MLLM 的 Text Backbone 参数与同源且经过 Text-based Deep Search 优化的 LLM 参数进行线性插值融合，是一种低成本且高效的保留“基础通用搜索素养”的工程 trick，值得业界效仿。
信息不可逆的多跳构造逻辑： 在用大模型合成数据时，往往会出现“泄露（Shortcut）”问题。本文引入“不可逆属性抽取（Information irreversibility）”约束，强制模型只能按照图的拓扑结构一步步搜索，无法根据终点问题直接 Google 出答案，这是保证合成数据高质量的关键。

Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models

基于大语言模型的强化学习算法进化发现

作者：Alkis Sygkounas, Amy Loutfi, Andreas Persson

机构：Machine Perception and Interaction Lab, Örebro University, Sweden

📄 查看 ArXiv 原文

背景与痛点 (Background & Problems)

强化学习（Reinforcement Learning, RL）算法的核心在于其学习更新规则（Learning Update Rules）。这些规则决定了经验数据如何转化为模型参数更新，并直接塑造了智能体的学习行为。传统上，如 Q-learning、TD-error、Policy Gradients（PG）等经典机制，完全依赖于领域专家的手工设计并保持固定。近年来，虽然自动化机器学习（AutoML）已涉足 RL 的网络架构搜索（NAS）、超参数优化（HPO）和奖励函数发现，但“更新规则”本身一直极少成为自动化设计的对象。

探索 RL 更新规则空间的痛点在于：

搜索空间高度离散且不可微：更新规则通常是一整套完整的、紧密耦合的代码逻辑程序，而非连续的可微模块（如神经网络参数）。
对代码变动极度敏感：基于程序的微小变异往往会破坏数据流和张量维度约束，导致程序崩溃或产生无效的训练行为（即“大部分变异都是非法的”）。
局部梯度优化失效：超参数对算法极其挑剔，导致我们无法通过梯度或者微小的局部扰动来有效评价一个新规则的潜力，必须通过完整的“端到端训练”进行评估验证。

核心贡献 (Core Contributions)

本文提出了一种全新的基于大语言模型（LLM）的进化搜索框架，用于直接在“可执行的代码层面”发现全新的强化学习算法。具体贡献如下：

RL更新规则级别的进化搜索框架：不搜架构、不搜超参数，而是直接将“更新规则（Update Rule）”定义为可执行的 PyTorch Python 代码，把训练逻辑本身作为进化对象。
结构感知与反直觉约束（Constraint-driven Innovation）：扩展了原有的 REvolve 进化框架。一方面利用 LLM 作为强大的生成交叉与变异算子；另一方面，在 Prompt 中显式禁止 LLM 使用标准 RL 机制（如 Actor-Critic 结构、TD 误差、Value Bootstrapping 等），倒逼模型走出舒适区，发现非标准（nonstandard）的全新范式。
引入 LLM 引导的后进化超参数优化（LLM-HPO）：为了避免固定超参数埋没潜力新算法，论文利用 LLM 为新发现的算法输出合理的超参数搜索空间，进行离线自动微调。
发现两种前所未见的高性能新算法：在 Gymnasium 环境测试中，找到了 CG-FPD 和 DF-CWP-CP 两个完全摒弃了 Value Function 和 Bellman 方程的全新算法，它们不仅有效，还在复杂连续控制环境上可匹敌主流的 PPO 和 SAC 基线。

具体案例剖析 (Case Study: Evolved Novel Algorithms)

通过本文的进化框架，LLM 在被封锁了几乎所有传统 RL 技能树的前提下，进化出了两个极具启发性的“异类”算法。以下对这两个新算法的机制进行拆解：

1. CG-FPD (Confidence-Guided Forward Policy Distillation)

核心机制：彻底抛弃价值函数、Q值和策略梯度。该算法在内部训练一个 Latent Dynamics Model (隐空间动力学模型)，并在每一步更新中：

生成教师信号：利用交叉熵方法（CEM）在隐空间中前向“想象”多步短视距（Short-horizon）轨迹，利用预测的即时奖励和终止状态概率为轨迹打分，最终提炼出一个高分动作作为 Teacher Signal。
策略蒸馏更新：Policy Network 不参与强化学习意义上的参数更新，仅仅通过有监督学习（Supervised Learning/Distillation）去拟合上面那个 Teacher 给出的第一步动作。

点评：这种利用基于模型（Model-based）进行隐空间局部规划（Planning），而后使用监督蒸馏更新策略，并完全摒弃Critic的结构，在现有成熟算法体系中极为少见。

2. DF-CWP-CP (Differentiable Forward Confidence-Weighted Planning with Controllability Prior)

核心机制：在无 Critic 的前提下，依靠微观的前向观测空间展开（Differentiable Short-horizon Rollouts）来传递梯度。

置信度与可控性门控：并行学习前向动力学、Reward 预测和对应的**预测置信度（Confidence）**。如果系统对未来的“想象”置信度低，算法会抑制该轨迹的权重，阻止 Policy 利用模型的误差。
Latent Flow 正则化：维护了快（Fast）、慢（Slow）两套 EMA 策略参数，通过对比当前潜空间动作变化与 EMA 历史的差异，提供类似表征学习的稳定性锚点，避免了长视野规划的坍塌。

【LLM的Prompt输入约束】：在 Appendix C 中可以看到，系统极其霸道地要求 LLM："Invent a new algorithm that is NOT based on: Bellman recursion or temporal-difference targets... Q-learning, actor-critic, or policy-gradient methods... The algorithm should not rely on explicit advantage estimates, critic targets..."。正是这种置之死地而后生的 Prompt 设计，激发出 LLM 丰富的泛化组合能力，拼搭出了上述新颖的 Planning 机制。

方法论与技术实现 (Methodology)

论文将算法发现定义为一个寻找最优化损失函数 $\mathcal{L}_f(\theta, \xi_t; \mathcal{D}_t)$ 的过程，其中 $\theta$ 为固定架构的策略参数，$\xi_t$ 为新算法引入的辅助网络参数。更新映射被定义为离散代码。

1. 适应度评估 (Fitness Evaluation)

由于代码更新的离散性，只能通过“训练-验证”循环评价。对于特定环境 $i$，通过多次独立随机种子训练获取验证集最大回报均值，再结合环境上下界 $(L_i, U_i)$ 进行归一化：

$\tilde{F}_i(f) = \text{clip}\left(\frac{\text{MTS}_i(f) - L_i}{U_i - L_i}, 0, 1\right)$

最终适应度 $F(f)$ 为多个测试环境分数的平均值。新的候选变异如果 $F(f) \ge \bar{F}^{(g)}_k$ （大于当前岛屿种群平均分）才会被接受入队。

2. LLM引导的多样性变异算子 (Variation Operators)

为防止代码空间生成大量微小且无效的“废话”变异导致种群坍塌，作者设计了结合 Levenshtein 编辑距离（代码差异度）和适应度的亲本选择机制。生成新算子 $f'$：

$f' \sim q_{\phi}(f_1, f_2, \text{op}, \mathcal{R}, \mathcal{E})$

选择亲本 $f_2$ 时的概率分布包含代码差异惩罚：

$P(f_2|f_1) \propto \exp(\tau S(f_2|f_1))$ 且 $S(f_2|f_1) = \alpha F(f_2) + (1-\alpha) d_{lev}(f_1, f_2)$

LLM 根据 prompt 执行：Macro mutation（宏观重写某一大模块） 和 Structural crossover（分析双亲优劣并巧妙融合）。

3. 后进化超参数优化 (Post-Evolution: LLM-HPO)

每一个进化出的算法 $\hat{f}$，我们让 LLM 基于代码内容为其相关的标量超参数（如 $\beta_j$）输出一个理论合理的界限区间 $\mathcal{B}_{\hat{f}} = \prod [l_j, u_j]$。随后对这些区间进行均匀采样，并在独立环境中评价从而确立该架构的最佳参数基线 $\beta^*$，这极大缓解了RL算法对超参敏感受到的误判。

实验设置与结论分析 (Experiments & Results)

实验设置：

进化引擎基座： 测试了 GPT-5.2（论文中虚拟的新一代模型，推测代指最新顶级模型）以及 Claude 4.5 Opus。
训练评测环境： Gymnasium Benchmark，包含 CartPole, MountainCar, Acrobot（离散稀疏）以及 LunarLander, HalfCheetah（连续/稠密奖励）。为验证泛化性，进化后用 Walker2d, Reacher 等 5 个全新环境进行 zero-shot 算法测试。
公平衡量： 所有的网络（包含 PPO, SAC等 Baseline）全部强制统一采用两层 256×256 MLP + Adam 优化器。

核心结果：

不同LLM的表现差异： GPT-5.2 在 10 代的进化中实现了适应度的持续单调提升，并最终收敛在 0.65 左右。而 Claude 4.5 Opus 表现不佳（约 0.45 左右），无法提出具有高度竞争力的候选。这表明该任务极度依赖顶尖大模型在代码逻辑自洽及创新组合上的深度涌现能力。
跨环境的强泛化能力 (Table 1)： 进化出的 CG-FPD 和 DF-CWP-CP 算法在它们未见过的测试集（如 Walker2d, Swimmer）上依然表现出色，CG-FPD 甚至在部分任务上的极限分数可以媲美甚至超越 SAC 和 PPO。这说明 LLM 没有去 Hack 奖励标量，而是真实地发现了一种具有泛化性的强化学习“通理（General heuristics）”。
消融实验： 当强制引入传统的 Value Bootstrap (利用TD估算长期价值) 到新算法 CG-FPD 规划中时，其性能方差下降变稳，但其峰值性能反而衰退（例如 LunarLander从 241 下降到 194）。这反面证实了：LLM 创构的这套纯规划+蒸馏（Critic-free）体系是一个自洽的、不需要传统 Value 函数就能打出高上限的逻辑闭环。

关键技术亮点分析 (Key Highlights)

LLM as Algorithm Discoverer (LLM作为科研者)： 长期以来我们利用 LLM 生成代码辅助人类，或者将其用作 Policy（如内化世界模型）。这篇论文将视点拔高，让 LLM 当了一回“强化学习框架的设计师”。不仅要写出能跑的复杂 PyTorch 计算图代码，还必须在数学机理上具备收敛性。这验证了现代前沿模型能够驾驭高度抽象的算法抽象设计。
基于限制的创新 (Innovation through Constraints)： 本文最精彩的一笔在于它的 System Prompt。传统的 Auto-RL 会顺着已有的 Actor-Critic 范式修修补补。作者直接“封死”了主流路线，迫使 LLM 调动预训练权重里边缘的知识（如交叉熵优化 CEM、策略流 EMA 锚定），拼图式地创造出非传统的高效解。
“代码编辑距离”克服种群坍塌： 在让大语言模型进行进化生成时，“模式崩塌（mode collapse，总是生成微小修改版本）”是最大的挑战。引入 Levenshtein 距离作为选择指标，是一种非常工程且优雅的控制多样性的手段，保证了算法结构库的不断拓扑演进。

论文基本信息

中文标题：边想边做：通过感知模式的推测性工具执行加速LLM智能体

英文标题：Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution

作者信息：Yifan Sui, Han Zhao, Rui Ma, Zhiyuan He, Hao Wang, Jianxun Li, Yuqing Yang

机构信息：上海交通大学 (SJTU), 微软亚洲研究院 (Microsoft Research), 史蒂文斯理工学院 (Stevens Institute of Technology)

📄 查看 ArXiv 原文

研究背景与痛点

当前，LLM 的范式正在从单纯的文本生成转向自主任务求解（Autonomous Agents），例如 Deep Research 和 SWE-agent。现代 LLM Agent 的执行引擎深度依赖于 Iterative LLM-Tool Loop（即 ReAct 循环）：LLM 推理 -> 等待并执行工具 -> LLM 基于结果继续推理。这种架构引入了极其严重的延迟瓶颈。

痛点一：严格串行导致的系统空转。 工具执行占据了总请求时间的 35% 到 61%。在工具执行期间（如爬取网页、编译代码、执行测试），昂贵的 LLM 显存资源被长期挂起占用，导致极低的系统吞吐和漫长的端到端（E2E）延迟。
痛点二：动态 DAG 导致传统预取失效。 现有的 Serverless/Microservice 加速方案（如 ORION, SpecFaaS）依赖静态的执行图 (DAG) 进行提前调度。但 Agent 的工作流是根据实时 Prompt 和工具返回值 在线生成的 (Online-generated control flow)，传统的静态分析和预取技术完全无法在 Agent Serving 场景下生效。

核心贡献

为了打破“思考-等待-执行”的串行枷锁，本文提出了 PASTE (Pattern-Aware Speculative Tool Execution) 框架。其核心思想是：利用瞬时闲置资源，在 LLM 生成 Token 的同时，推测性地（Speculative）提前执行下一步极大概率会用到的工具，实现“边想边做”。

Agent 延迟特征化刻画： 深入分析了各类前沿 Agent 负载，证明了 LLM 与 Tool 间的串行依赖是主要延迟瓶颈。
模式驱动的预测 (Pattern-Driven Speculation)： 提出了将控制流与数据流解耦的抽象模式，能够基于隐式的参数推导规则，在 LLM 输出前准确预测下一个要调用的工具及其参数。
资源感知的编排调度 (Resource-Aware Orchestration)： 设计了一个动态调度器，利用集群中的冗余算力执行推测性工具，并通过提权和抢占机制确保不干扰原生执行路径。

具体案例剖析 (Case Study)

论文通过对真实 Benchmark（DeepResearch、SWE-Bench 等）的观察，发现 Agent 行为在宏观上是不可预测的，但在微观执行链路上呈现极强的规律性：

Deep Research (搜索-访问模式):
控制流： Agent 首先调用 Search，在 51% 的情况下紧接着会调用 Web_fetch 访问前几条 URL。
数据流： Web_fetch 所需的 URL 参数，绝大部分是前一个 Search 返回的 JSON 串中的 SearchRes["list"][0]["url"] 字段。PASTE 捕获到这一点后，甚至不等 LLM 开始思考，就可以直接利用正则或路径映射提取 URL 并后台静默开始下载网页。
Coding (编辑-验证模式):
控制流： 在改 Bug 场景中，55% 的成功 file_editor (写入代码) 操作后，会立即跟随一个终端工具调用（如 pytest）。
数据流： file_editor 的文件名通常来源于此前的 grep 工具搜索结果。PASTE 识别到编辑完成后，可立刻在沙盒环境后台预跑测试。
隐藏并发 (Latent Parallelism): 遇到错误时，LLM 通常会串行打开多个相关代码文件。PASTE 可以推测性地将其并行化读取。

⚙️ 方法论与技术实现

论文将真实网络建模为有向图 $\mathcal{G} = (\mathcal{V}, \mathcal{E})$。目标是稳定合成格式为 $(q, y, \tau^*)$ 的数据集，其中包含极长时序 $\tau^* = [a_1, o_1, \dots, a_T, o_T]$。

1. Fact-Grounded Scalable Controllable QA Synthesis (图驱动问答合成)

通过“逆向工程”获取推理图：

Graph Expansion (图扩展) & Entity Extraction (实体抽取): 从随机种子节点游走获取子图 $\mathcal{G}_{sub}$，并通过 LLM 提炼包含核心逻辑链路的紧凑实体子图 $\mathcal{G}_{entity}$。
Question Generation & Obfuscation (问题生成与混淆): 限制生成的问题必须遍历多条边；并通过 $\tilde{e} = \Phi(e)$ 将具体实体转为模糊描述，强迫多步搜索。
Dual-Criteria Verification (双重校验): 通过 Rejection Sampling 保证质量。1) Difficulty：如果无工具闭卷能答对，则丢弃；2) Solvability：如果给定完整子图内容仍答错（逻辑断裂），则丢弃。

2. Denoised Trajectory Synthesis (去噪轨迹合成与不对称训练)

搜索返回的 HTML/网页文本（$o_t$）往往包含天量噪声，这会导致生成高质量金标准轨迹（Teacher 模型）变得困难。作者设计了精妙的动态上下文去噪机制：

数据生成期（Teacher scaffold）： 采用“Summarized History + Raw Recent”策略。对于过去的观察 $o_{t-1}$，使用一个独立的 Summarizer 将其浓缩为 $s_{t-1}$。Teacher 看到的历史是：
$\mathcal{H}_t = \{q, (r_1, a_1, s_1), \dots, (r_{t-2}, a_{t-2}, s_{t-2}), \mathbf{(r_{t-1}, a_{t-1}, o_{t-1})}\}$
这种干净的上下文保证了 Teacher 能够不被噪声带偏，生成高质量的 Reasoning ($r_t$) 和 Action ($a_t$)。
不对称模型训练期（Student training）： 在最终的训练数据集中，剥离掉所有 summaries，强迫 Student 在未压缩的原始高噪声上下文中预测目标行为：
$\mathcal{H}_t^{train} = \{q, (r_1, a_1, o_1), \dots, (r_{t-1}, a_{t-1}, \mathbf{o_{t-1}})\}$

本质原理： 这是一种典型的 Knowledge Distillation 变体，强迫 Student 参数化隐式内化（internalize）去噪逻辑，在面对真实世界杂乱无章的网页响应时，能学会“大海捞针”。

📊 实验设置与结论分析

实验设置： 基于 Qwen3-30B-A3B-Thinking（激活3B参数）模型初始化。仅仅使用 11.7k (10.3k英文 + 1.4k中文) 的合成数据，并只进行了单次 SFT（无RL、无启发式过滤优化）。上下文窗口设为 256k。
核心评测指标对比： 在 BrowseComp, BrowseComp-ZH, xbench-DeepSearch, WideSearch 等四项深度搜索基准中进行测试。
- 开源同级最强： 在所有的 30B 级别模型（如 DeepDive-32B, WebSailor-V2, WebLeaper）中，OpenSeeker 取得了压倒性优势（例如 BrowseComp 上得分 29.5，远超第二名 WebLeaper 的 27.7）。
- 击败工业重型 RL 模型： 在难度极大的 BrowseComp-ZH 榜单中，OpenSeeker 取得了 48.4% 的准确率，甚至超越了经过 CPT + SFT + RL 的闭源/企业级系统阿里 Tongyi DeepResearch (46.7%)。
数据难度与质量佐证： 虽然中文合成数据集只有 1.4k，但该数据集内的轨迹平均包含 46.35 次 Tool calls 和 76.1k 的上下文长度（对比 BrowseComp-ZH 基准只有 26.98 次），证明合成数据极具挑战性且高度拟真。

✨ 关键技术亮点分析 (从业者 Insight)

1. Data Quality 大于一切复杂的 RL 管线： 过去半年，行业普遍认为只有引入复杂的在环境中的强化学习（RL），智能体才能学会长程搜索。OpenSeeker 用区区 11.7k 数据外加最基础的 SFT 证明了：只要合成数据在逻辑拓扑（Web Graph）上是严密的，并且强迫了模型去做多跳推理，SFT 依然能击穿 SOTA 的上限。

2. 巧妙的 Asymmetric Context Training 机制： 这是在 Agent SFT 数据构造中非常值得借鉴的一招。过长的 Raw HTML 会导致 Teacher 模型在合成数据时产生大量 Hallucination 和迷失（Lost in the middle）。本文将 Teacher 侧的 Context 做 Summarize，保证金标准决策的稳健；而在给 Student 训练时还原 Raw 噪音。这一“降维打击”完美弥合了生成高质量数据与训练鲁棒模型之间的矛盾。

3. 基于图结构的“逆向工程”： 取代了“喂给LLM一篇文档让其出题”的传统 QA 构建范式。利用真实网络的拓扑结构做基石，直接从物理结构上杜绝了问题可以通过“单步检索”完成的可能，这为未来更复杂的 Agent 环境（如操作系统环境、复杂数据库环境）的数据构建指明了道路。

LLM-Agent Interactions on Markets with Information Asymmetries
LLM智能体在信息不对称市场中的交互机制研究

作者：Alexander Erlei, Lukas Meub

机构：Georg-August-Universität Göttingen (哥廷根大学)

领域：多智能体交互、机制设计、计算经济学

📄 查看 ArXiv 原文

🎯 研究背景与痛点

随着生成式人工智能（Generative AI）的演进，人类正越来越多地将复杂的经济决策委托给自主的AI Agent（例如自动化交易、医疗问询助理、法律顾问等）。然而，许多关键的经济领域存在严重的信息不对称（Information Asymmetry），构成了所谓的“信任品市场”（Credence Goods Markets，或称专家服务市场）。在这种市场中，供应商（专家）比消费者更了解后者的真实需求，从而具有强烈的动机通过“过度治疗（Overtreatment）”、“治疗不足（Undertreatment）”或“过度收费（Overcharging）”来剥削消费者。

业界痛点： 传统的行为经济学实验表明，人类在这种市场中往往表现出极高的低效性，但人类能够依靠内在的“社会偏好（如互惠、初始信任）”建立一定程度的合作。对于当前前沿的LLM智能体，业界尚存巨大疑问： 1. LLM智能体能否在没有人类干预的情况下，解决信息不对称带来的信任危机？ 2. 经典的经济学机制设计（如责任制、声誉机制、信息可验证性）对AI Agent是否依然有效？ 3. 缺乏内建“人类道德感”的开箱即用型大模型，在追求利益最大化时，是否会导致市场的彻底崩溃？

🚀 核心贡献

构建了首个LLM信任品市场博弈模拟框架： 基于经典经济学实验范式，模拟了由GPT-5.1驱动的4名“专家Agent”与4名“消费者Agent”之间的复杂市场博弈（包含单次博弈与16轮重复博弈）。
系统验证了“制度”与“对齐”在Agent经济中的效用边界： 研究引入了不同的市场制度（自由市场、可验证性、责任制）和不同的社会偏好Prompt（默认、绝对自利、厌恶不公、追求效率），揭示了Prompt层面的偏好对齐比外部制度设计对市场效率的影响大得多。
发现了LLM Agent经济学行为的“非标特征”： 与人类实验数据及标准博弈论预测相比，LLM表现出极高的市场集中度（易形成垄断）、更两极分化的欺诈模式，且LLM消费者对绝对价格高度敏感，却无法像人类或理论模型那样通过“加价率（Markups）”来反推专家的动机。

🔍 具体案例剖析 (Case Studies)

论文通过操控System Prompt中的目标函数（Objective Functions）来赋予Agent不同的社会偏好，这直接决定了Agent的欺诈倾向：

Self-interested (自利型) Prompt: "Your only objective is to maximize your own payoff in this 1 round..."
表现： 在没有“责任制”约束时，自利型专家会系统性地设定低价来吸引消费者，但在诊断后，无论消费者是“大病”还是“小病”，几乎 100% 采取“小治疗（成本低）+ 报大病价格”的欺诈策略（Undertreatment & Overcharging）。消费者Agent虽然一直被骗，但只要表面标价足够低，依然会持续入场，导致市场陷入“低价低质”的剥削陷阱。
Efficiency-loving (追求效率型) Prompt: "Your only objective is to maximize the total payoff of yourself and Player B..."
表现： 这类专家绝不欺诈。有趣的是，为了最大化总体福利，它们设定的价格低到甚至无法覆盖自己的成本（导致自身收益为负）。它们优先保证消费者的参与度，这说明LLM在理解“全局最优”时，可能缺乏对个体生存底线的考量。
制度失效的案例（Verifiability 可验证性）： 经典经济学理论认为，如果治疗方案是可验证的，专家可以通过对所有方案设定相同的利润空间（Equal Markups）来向消费者发出“我不受利益驱动”的诚实信号。但在实验中，LLM消费者Agent完全没有理解这种Markup信号逻辑，它们只看绝对价格。因此，可验证性制度未能像在人类社会中那样有效提升市场效率。

🛠 方法论与技术实现

研究基于标准信任品问题（Credence Goods Problem）建立模型。市场中包含专家（Expert）与消费者（Consumer）。消费者有 $h=0.5$ 的概率遇到“大问题”，$1-h=0.5$ 的概率遇到“小问题”。不进入市场则获得外部收益 $\sigma = 1.6$。进入市场解决问题获得收益 $V=10$，未解决则收益为 $0$ 且需付钱。

专家可准确诊断问题，并选择：高成本治疗（HCT，成本 $\bar{c}=6$）或低成本治疗（LCT，成本 $\underline{c}=2$）。专家事先发布价格矩阵 $P = (\bar{p}, \underline{p})$。

理论预测（标准博弈论）：
在无制度（No Institution）下，自利专家必定选择LCT并收取 $\bar{p}$。消费者预期被骗，其期望收益为：
$$ \pi^c_{ni} = (1-h)(V-\bar{p}) - h\bar{p} $$
消费者要求 $\pi^c_{ni} \ge 1.6$，因此专家将降价竞争至 $\bar{p}=3$。但实验发现LLM并不完全遵循此均衡。

技术实现细节：

驱动模型： GPT-5.1 (注: 按论文原文标注) ，通过 OpenAI API 结合 Expected Parrot 框架实现异步并发交互。
思维链注入： 加入了 CoT Prompt "pretend like you are a participant of your specific role... Find a strategy to play this game yourself and plan ahead" 激发模型的战略规划能力。
上下文管理： 每一轮博弈后，Agent的上下文中会动态追加个人历史记录（包含了历史报价、吸引的消费者数量、实际收益等），以此模拟强化学习与市场反馈过程。温度参数（Temperature）统一设置为 $1$，以保持行为的多样性。

📊 实验设置与结论分析

实验采用了 $3 \times 2 \times 4$ 的被试间设计：3种制度（无、可验证、责任制） × 2种声誉机制（有声誉、无声誉，仅在16轮重复博弈中测试） × 4种偏好目标（无提示、自利、厌恶不公、追求效率）。进行了 600 次单次市场模拟和数百次 16轮重复市场模拟。

核心结论：

单次博弈极易崩溃： 在没有强制责任（Liability）的情况下，LLM的报价通常导致消费者的期望收益为负，市场直接崩溃（无人交易）。唯有“追求效率型”Agent能维持市场运转。
重复博弈中的“同流合污”： 在 16 轮博弈中，专家Agent学会了通过降价来吸引消费者（解决了参与度问题）。但是，欺诈行为（Fraud）变得根深蒂固。因为LLM消费者没有利用“用脚投票”去惩罚欺诈者，只要价格降到一定阈值，消费者就甘愿被剥削。
声誉机制的模棱两可： 在人类市场中，可以追溯特定商家的“声誉”能大幅减少欺诈。但在LLM群体中，声誉机制显著降低了消费者的总收益（因为专家不再需要通过极低价格来补偿消费者的不确定性），且对减少欺诈的效果不明确甚至在某些场景下增加了过度治疗。
与人类基准（Dulleck et al., 2011）对比： LLM市场的交易活跃度远高于人类，但市场集中度极高（经常出现一家独大的垄断专家）。同时，人类的欺诈行为是渐进式的，而LLM的欺诈行为极其两极分化（接近100%欺诈或100%诚实）。

💡 关键技术亮点与从业者启示

对于致力于开发多智能体系统（MAS）和AI Agent落地（尤其是金融、电商、法律和医疗AI助理）的从业者，本文提供了极为深刻的Insight：

“对齐”大于“机制”： 当你在设计一个AI代理市场时，与其花费大量精力去设计复杂的经济学防作弊规则（如可验证性证明），不如直接在系统层面对Agent进行强大的“社会偏好对齐”（如Prompt注入“厌恶不公”）。LLM对硬性Prompt目标的响应远好于对外部博弈论机制的推理。
警惕Agent市场的“垄断陷阱”： LLM在竞价环境中表现出极强的“伯特兰德竞争（Bertrand-like）”特征，微小的价格优势会导致赢者通吃。在实际部署Agent采购系统时，若不加人为干预，极易导致供应链被单一低价（但可能隐性欺诈）的供应商垄断。
LLM缺乏自发的“逆向归纳（Backward Induction）”与“信号博弈”能力： 论文证实，即使是最先进的模型，在不给出明确推理框架的情况下，也无法像理性经济人那样通过复杂的价格结构（如相同的利润加价）去发送/接收信任信号。这意味着，针对AI Agent交互的经济系统必须被大幅简化，不能直接套用人类行为经济学中那些依赖隐性心理预期的设计。

大模型 Agent 与强化学习 (RL) 深度学术解读报告

Towards Long-horizon Agentic Multimodal Search

迈向长视界代理式多模态搜索

研究背景与痛点

核心贡献

具体案例剖析 (Case Study)

方法论与技术实现

1. 基于文件的长视界多模态上下文管理

2. 多跳推理轨迹的数据合成 Pipeline

3. 模型训练与权重融合 (Model Merging)

实验设置与结论分析

核心结论

关键技术亮点分析 (Takeaways)

Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models

基于大语言模型的强化学习算法进化发现

背景与痛点 (Background & Problems)

核心贡献 (Core Contributions)

具体案例剖析 (Case Study: Evolved Novel Algorithms)

方法论与技术实现 (Methodology)

1. 适应度评估 (Fitness Evaluation)

2. LLM引导的多样性变异算子 (Variation Operators)

3. 后进化超参数优化 (Post-Evolution: LLM-HPO)

实验设置与结论分析 (Experiments & Results)

关键技术亮点分析 (Key Highlights)

论文基本信息

研究背景与痛点

核心贡献

具体案例剖析 (Case Study)

⚙️ 方法论与技术实现

1. Fact-Grounded Scalable Controllable QA Synthesis (图驱动问答合成)

2. Denoised Trajectory Synthesis (去噪轨迹合成与不对称训练)

📊 实验设置与结论分析

✨ 关键技术亮点分析 (从业者 Insight)

LLM-Agent Interactions on Markets with Information AsymmetriesLLM智能体在信息不对称市场中的交互机制研究

🎯 研究背景与痛点

🚀 核心贡献

🔍 具体案例剖析 (Case Studies)

🛠 方法论与技术实现

📊 实验设置与结论分析

💡 关键技术亮点与从业者启示

LLM-Agent Interactions on Markets with Information Asymmetries
LLM智能体在信息不对称市场中的交互机制研究