大模型 Agent 与强化学习 (RL) 深度学术解读报告

Towards Long-horizon Agentic Multimodal Search

迈向长视界代理式多模态搜索

作者:Yifan Du, Zikang Liu, Jinbiao Peng, Jie Wu, Junyi Li, Jinyang Li, Wayne Xin Zhao, Ji-Rong Wen

机构:中国人民大学高瓴人工智能学院(Gaoling School of Artificial Intelligence, Renmin University of China)、香港城市大学(City University of Hong Kong)

📄 查看 ArXiv 原文

研究背景与痛点

深度搜索智能体(Deep Search Agents)在解决复杂真实世界信息获取问题上取得了巨大成功。传统的纯文本搜索智能体主要依赖文本进行长视界(Long-horizon)的迭代推理与证据收集。近年来,随着多模态大语言模型(MLLMs)的发展,搜索智能体开始被赋予视觉工具(如图像搜索),以应对多模态查询。

然而,面向多模态的深度搜索在落地中面临着一个极其严峻的挑战——上下文爆炸(Context Explosion)与信息丢失(Information Loss)的困境

简而言之:现有的多模态 Agent 在处理积累的多模态上下文时,要么被“撑死”(Token爆炸),要么被“饿死”(丢弃了需要细粒度理解的图片)。

核心贡献

为了解决上述矛盾,本文提出了一种全新的基于文件的长视界多模态深度搜索框架 LMM-Searcher,并在合成数据上进行了 Agentic Training。核心贡献如下:

具体案例剖析 (Case Study)

论文在 VisBrowse-Bench 上展示了一个长达 15 轮的精彩交互轨迹,极其直观地展现了 LMM-Searcher 的视觉感知、反思与长视界多跳规划能力。

【原始问题】:输入一张饮料盒的局部图片,该饮料上的图像是某食品公司的 Logo,该公司在 2009 年收购了一家报业公司。问:这家被收购报业公司的维基百科海报(信息框图片)中有多少棵树? 【LMM-Searcher 的推理与动作轨迹】[Iteration 1-3:细粒度视觉感知与定位] 模型首先尝试用该图片进行视觉搜索(Visual Search),但未能直接识别出 Logo。 <think> 视觉搜索没认出 Logo,我需要定位到蓝色的饮料盒部分,并把它放大(Zoom-in)。 -> 调用工具: tool-image-processing-zoom_in,计算坐标并截取区域。 -> 成功截取局部 Logo。 [Iteration 4-5:基于视觉特征的文本推理] <think> 放大后看清了,这是“旺旺(Want Want)”的经典男孩 Logo。问题说这家公司2009年收购了报业。我要搜一下 "Want Want acquired newspaper 2009"。 -> 调用工具: google_search -> 得到结果:旺旺在 2008-2009 年收购了“中国时报集团(China Times Group)”。 [Iteration 6-12:跨模态搜索与反思纠错] <think> 目标变更为寻找“中国时报集团”的 Wikipedia 页面,并提取其海报图片算树。 -> 模型尝试使用 scrape_website 抓取维基百科页面,但遭遇了 403 Forbidden 错误。 <think> 反思:403错误,我要换个策略。直接用 Google Image Search 搜 "中国时报集团维基百科 infobox"。 -> 经过几次关键词调整与尝试,模型成功拿到了包含大楼外景的维基海报图片 URL(UID)。 [Iteration 13-15:按需加载与终局推理] <think> 我拿到了图片链接,现在需要把它加载进上下文来数树。 -> 调用关键工具: fetch-image (传入图片 UID) -> 系统将高分辨率图片传给模型。 <think> 开始数树:左边一棵小树,电线杆旁边一棵...(给出详细坐标),一共 5 棵。 -> 给出最终答案:5。

案例点评:这个例子完美体现了“轻量级上下文 + 按需重度感知”。如果在中间搜索维基百科或搜图阶段就把所有无关图片都塞入 Context,不仅会干扰注意力,更会导致 Token 枯竭。通过 UID 代理和 fetch-image,模型实现了真正的 Agentic Multimodal Search。

方法论与技术实现

1. 基于文件的长视界多模态上下文管理

这是整篇论文最核心的工程抽象。作者提出将推理(Reasoning)与感知(Perception)解耦:

2. 多跳推理轨迹的数据合成 Pipeline

为了让模型学会这套复杂的交互逻辑,作者设计了自动化数据合成管道:

3. 模型训练与权重融合 (Model Merging)

多模态搜索的一个痛点是模型容易退化,导致纯文本的深度搜索能力受损。作者巧妙地借用了模型融合技术(Task Arithmetic / Spherical Linear Interpolation 等类似思想)。设训练好的多模态模型为 $\Theta_V$,具有强大文本深度搜索能力的纯语言模型(如 MiroThinker-1.7-mini)为 $\Theta_T$,它们共享相同的语言基座,最终权重为: $$ \Theta_{\text{final}} = \alpha \cdot \Theta_V + (1 - \alpha) \cdot \Theta_T $$ 实验中设定 $\alpha = 0.8$,既保留了多模态工具能力,又继承了语言模型的鲁棒推理能力。

实验设置与结论分析

评测基准: MM-BrowseComp (MMBC)、MMSearch-Plus、MMSearch、VisBrowse。

对比基线: Direct Answer (无工具)、Agent Workflow (提供工具但未微调的基座模型)、现有开源多模态搜索 Agent (如 WebWatcher, REDSearcher-MM 等)。

核心结论

关键技术亮点分析 (Takeaways)

Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models

基于大语言模型的强化学习算法进化发现

作者:Alkis Sygkounas, Amy Loutfi, Andreas Persson

机构:Machine Perception and Interaction Lab, Örebro University, Sweden

📄 查看 ArXiv 原文

背景与痛点 (Background & Problems)

强化学习(Reinforcement Learning, RL)算法的核心在于其学习更新规则(Learning Update Rules)。这些规则决定了经验数据如何转化为模型参数更新,并直接塑造了智能体的学习行为。传统上,如 Q-learning、TD-error、Policy Gradients(PG)等经典机制,完全依赖于领域专家的手工设计并保持固定。近年来,虽然自动化机器学习(AutoML)已涉足 RL 的网络架构搜索(NAS)、超参数优化(HPO)和奖励函数发现,但“更新规则”本身一直极少成为自动化设计的对象。

探索 RL 更新规则空间的痛点在于:

核心贡献 (Core Contributions)

本文提出了一种全新的基于大语言模型(LLM)的进化搜索框架,用于直接在“可执行的代码层面”发现全新的强化学习算法。具体贡献如下:

  1. RL更新规则级别的进化搜索框架:不搜架构、不搜超参数,而是直接将“更新规则(Update Rule)”定义为可执行的 PyTorch Python 代码,把训练逻辑本身作为进化对象。
  2. 结构感知与反直觉约束(Constraint-driven Innovation):扩展了原有的 REvolve 进化框架。一方面利用 LLM 作为强大的生成交叉与变异算子;另一方面,在 Prompt 中显式禁止 LLM 使用标准 RL 机制(如 Actor-Critic 结构、TD 误差、Value Bootstrapping 等),倒逼模型走出舒适区,发现非标准(nonstandard)的全新范式。
  3. 引入 LLM 引导的后进化超参数优化(LLM-HPO):为了避免固定超参数埋没潜力新算法,论文利用 LLM 为新发现的算法输出合理的超参数搜索空间,进行离线自动微调。
  4. 发现两种前所未见的高性能新算法:在 Gymnasium 环境测试中,找到了 CG-FPD 和 DF-CWP-CP 两个完全摒弃了 Value Function 和 Bellman 方程的全新算法,它们不仅有效,还在复杂连续控制环境上可匹敌主流的 PPO 和 SAC 基线。

具体案例剖析 (Case Study: Evolved Novel Algorithms)

通过本文的进化框架,LLM 在被封锁了几乎所有传统 RL 技能树的前提下,进化出了两个极具启发性的“异类”算法。以下对这两个新算法的机制进行拆解:

1. CG-FPD (Confidence-Guided Forward Policy Distillation)

核心机制:彻底抛弃价值函数、Q值和策略梯度。该算法在内部训练一个 Latent Dynamics Model (隐空间动力学模型),并在每一步更新中:

  • 生成教师信号:利用交叉熵方法(CEM)在隐空间中前向“想象”多步短视距(Short-horizon)轨迹,利用预测的即时奖励和终止状态概率为轨迹打分,最终提炼出一个高分动作作为 Teacher Signal。
  • 策略蒸馏更新:Policy Network 不参与强化学习意义上的参数更新,仅仅通过有监督学习(Supervised Learning/Distillation)去拟合上面那个 Teacher 给出的第一步动作。

点评:这种利用基于模型(Model-based)进行隐空间局部规划(Planning),而后使用监督蒸馏更新策略,并完全摒弃Critic的结构,在现有成熟算法体系中极为少见。

2. DF-CWP-CP (Differentiable Forward Confidence-Weighted Planning with Controllability Prior)

核心机制:在无 Critic 的前提下,依靠微观的前向观测空间展开(Differentiable Short-horizon Rollouts)来传递梯度。

  • 置信度与可控性门控:并行学习前向动力学、Reward 预测和对应的**预测置信度(Confidence)**。如果系统对未来的“想象”置信度低,算法会抑制该轨迹的权重,阻止 Policy 利用模型的误差。
  • Latent Flow 正则化:维护了快(Fast)、慢(Slow)两套 EMA 策略参数,通过对比当前潜空间动作变化与 EMA 历史的差异,提供类似表征学习的稳定性锚点,避免了长视野规划的坍塌。

【LLM的Prompt输入约束】:在 Appendix C 中可以看到,系统极其霸道地要求 LLM:"Invent a new algorithm that is NOT based on: Bellman recursion or temporal-difference targets... Q-learning, actor-critic, or policy-gradient methods... The algorithm should not rely on explicit advantage estimates, critic targets..."。正是这种置之死地而后生的 Prompt 设计,激发出 LLM 丰富的泛化组合能力,拼搭出了上述新颖的 Planning 机制。

方法论与技术实现 (Methodology)

论文将算法发现定义为一个寻找最优化损失函数 $\mathcal{L}_f(\theta, \xi_t; \mathcal{D}_t)$ 的过程,其中 $\theta$ 为固定架构的策略参数,$\xi_t$ 为新算法引入的辅助网络参数。更新映射被定义为离散代码。

1. 适应度评估 (Fitness Evaluation)

由于代码更新的离散性,只能通过“训练-验证”循环评价。对于特定环境 $i$,通过多次独立随机种子训练获取验证集最大回报均值,再结合环境上下界 $(L_i, U_i)$ 进行归一化:

$\tilde{F}_i(f) = \text{clip}\left(\frac{\text{MTS}_i(f) - L_i}{U_i - L_i}, 0, 1\right)$

最终适应度 $F(f)$ 为多个测试环境分数的平均值。新的候选变异如果 $F(f) \ge \bar{F}^{(g)}_k$ (大于当前岛屿种群平均分)才会被接受入队。

2. LLM引导的多样性变异算子 (Variation Operators)

为防止代码空间生成大量微小且无效的“废话”变异导致种群坍塌,作者设计了结合 Levenshtein 编辑距离(代码差异度)和适应度的亲本选择机制。生成新算子 $f'$:

$f' \sim q_{\phi}(f_1, f_2, \text{op}, \mathcal{R}, \mathcal{E})$

选择亲本 $f_2$ 时的概率分布包含代码差异惩罚:

$P(f_2|f_1) \propto \exp(\tau S(f_2|f_1))$ 且 $S(f_2|f_1) = \alpha F(f_2) + (1-\alpha) d_{lev}(f_1, f_2)$

LLM 根据 prompt 执行:Macro mutation(宏观重写某一大模块)Structural crossover(分析双亲优劣并巧妙融合)

3. 后进化超参数优化 (Post-Evolution: LLM-HPO)

每一个进化出的算法 $\hat{f}$,我们让 LLM 基于代码内容为其相关的标量超参数(如 $\beta_j$)输出一个理论合理的界限区间 $\mathcal{B}_{\hat{f}} = \prod [l_j, u_j]$。随后对这些区间进行均匀采样,并在独立环境中评价从而确立该架构的最佳参数基线 $\beta^*$,这极大缓解了RL算法对超参敏感受到的误判。

实验设置与结论分析 (Experiments & Results)

实验设置:

核心结果:

  1. 不同LLM的表现差异: GPT-5.2 在 10 代的进化中实现了适应度的持续单调提升,并最终收敛在 0.65 左右。而 Claude 4.5 Opus 表现不佳(约 0.45 左右),无法提出具有高度竞争力的候选。这表明该任务极度依赖顶尖大模型在代码逻辑自洽及创新组合上的深度涌现能力。
  2. 跨环境的强泛化能力 (Table 1): 进化出的 CG-FPD 和 DF-CWP-CP 算法在它们未见过的测试集(如 Walker2d, Swimmer)上依然表现出色,CG-FPD 甚至在部分任务上的极限分数可以媲美甚至超越 SAC 和 PPO。这说明 LLM 没有去 Hack 奖励标量,而是真实地发现了一种具有泛化性的强化学习“通理(General heuristics)”。
  3. 消融实验: 当强制引入传统的 Value Bootstrap (利用TD估算长期价值) 到新算法 CG-FPD 规划中时,其性能方差下降变稳,但其峰值性能反而衰退(例如 LunarLander从 241 下降到 194)。这反面证实了:LLM 创构的这套纯规划+蒸馏(Critic-free)体系是一个自洽的、不需要传统 Value 函数就能打出高上限的逻辑闭环。

关键技术亮点分析 (Key Highlights)

  1. LLM as Algorithm Discoverer (LLM作为科研者): 长期以来我们利用 LLM 生成代码辅助人类,或者将其用作 Policy(如内化世界模型)。这篇论文将视点拔高,让 LLM 当了一回“强化学习框架的设计师”。不仅要写出能跑的复杂 PyTorch 计算图代码,还必须在数学机理上具备收敛性。这验证了现代前沿模型能够驾驭高度抽象的算法抽象设计。
  2. 基于限制的创新 (Innovation through Constraints): 本文最精彩的一笔在于它的 System Prompt。传统的 Auto-RL 会顺着已有的 Actor-Critic 范式修修补补。作者直接“封死”了主流路线,迫使 LLM 调动预训练权重里边缘的知识(如交叉熵优化 CEM、策略流 EMA 锚定),拼图式地创造出非传统的高效解。
  3. “代码编辑距离”克服种群坍塌: 在让大语言模型进行进化生成时,“模式崩塌(mode collapse,总是生成微小修改版本)”是最大的挑战。引入 Levenshtein 距离作为选择指标,是一种非常工程且优雅的控制多样性的手段,保证了算法结构库的不断拓扑演进。

论文基本信息

中文标题:边想边做:通过感知模式的推测性工具执行加速LLM智能体

英文标题:Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution

作者信息:Yifan Sui, Han Zhao, Rui Ma, Zhiyuan He, Hao Wang, Jianxun Li, Yuqing Yang

机构信息:上海交通大学 (SJTU), 微软亚洲研究院 (Microsoft Research), 史蒂文斯理工学院 (Stevens Institute of Technology)

📄 查看 ArXiv 原文

研究背景与痛点

当前,LLM 的范式正在从单纯的文本生成转向自主任务求解(Autonomous Agents),例如 Deep Research 和 SWE-agent。现代 LLM Agent 的执行引擎深度依赖于 Iterative LLM-Tool Loop(即 ReAct 循环):LLM 推理 -> 等待并执行工具 -> LLM 基于结果继续推理。这种架构引入了极其严重的延迟瓶颈。

核心贡献

为了打破“思考-等待-执行”的串行枷锁,本文提出了 PASTE (Pattern-Aware Speculative Tool Execution) 框架。其核心思想是:利用瞬时闲置资源,在 LLM 生成 Token 的同时,推测性地(Speculative)提前执行下一步极大概率会用到的工具,实现“边想边做”。

具体案例剖析 (Case Study)

论文通过对真实 Benchmark(DeepResearch、SWE-Bench 等)的观察,发现 Agent 行为在宏观上是不可预测的,但在微观执行链路上呈现极强的规律性:

⚙️ 方法论与技术实现

论文将真实网络建模为有向图 $\mathcal{G} = (\mathcal{V}, \mathcal{E})$。目标是稳定合成格式为 $(q, y, \tau^*)$ 的数据集,其中包含极长时序 $\tau^* = [a_1, o_1, \dots, a_T, o_T]$。

1. Fact-Grounded Scalable Controllable QA Synthesis (图驱动问答合成)

通过“逆向工程”获取推理图:

2. Denoised Trajectory Synthesis (去噪轨迹合成与不对称训练)

搜索返回的 HTML/网页文本($o_t$)往往包含天量噪声,这会导致生成高质量金标准轨迹(Teacher 模型)变得困难。作者设计了精妙的动态上下文去噪机制

本质原理: 这是一种典型的 Knowledge Distillation 变体,强迫 Student 参数化隐式内化(internalize)去噪逻辑,在面对真实世界杂乱无章的网页响应时,能学会“大海捞针”。

📊 实验设置与结论分析

✨ 关键技术亮点分析 (从业者 Insight)

1. Data Quality 大于一切复杂的 RL 管线: 过去半年,行业普遍认为只有引入复杂的在环境中的强化学习(RL),智能体才能学会长程搜索。OpenSeeker 用区区 11.7k 数据外加最基础的 SFT 证明了:只要合成数据在逻辑拓扑(Web Graph)上是严密的,并且强迫了模型去做多跳推理,SFT 依然能击穿 SOTA 的上限。

2. 巧妙的 Asymmetric Context Training 机制: 这是在 Agent SFT 数据构造中非常值得借鉴的一招。过长的 Raw HTML 会导致 Teacher 模型在合成数据时产生大量 Hallucination 和迷失(Lost in the middle)。本文将 Teacher 侧的 Context 做 Summarize,保证金标准决策的稳健;而在给 Student 训练时还原 Raw 噪音。这一“降维打击”完美弥合了生成高质量数据与训练鲁棒模型之间的矛盾。

3. 基于图结构的“逆向工程”: 取代了“喂给LLM一篇文档让其出题”的传统 QA 构建范式。利用真实网络的拓扑结构做基石,直接从物理结构上杜绝了问题可以通过“单步检索”完成的可能,这为未来更复杂的 Agent 环境(如操作系统环境、复杂数据库环境)的数据构建指明了道路。

LLM-Agent Interactions on Markets with Information Asymmetries
LLM智能体在信息不对称市场中的交互机制研究

作者:Alexander Erlei, Lukas Meub

机构:Georg-August-Universität Göttingen (哥廷根大学)

领域:多智能体交互、机制设计、计算经济学

📄 查看 ArXiv 原文

🎯 研究背景与痛点

随着生成式人工智能(Generative AI)的演进,人类正越来越多地将复杂的经济决策委托给自主的AI Agent(例如自动化交易、医疗问询助理、法律顾问等)。然而,许多关键的经济领域存在严重的信息不对称(Information Asymmetry),构成了所谓的“信任品市场”(Credence Goods Markets,或称专家服务市场)。在这种市场中,供应商(专家)比消费者更了解后者的真实需求,从而具有强烈的动机通过“过度治疗(Overtreatment)”、“治疗不足(Undertreatment)”或“过度收费(Overcharging)”来剥削消费者。

业界痛点: 传统的行为经济学实验表明,人类在这种市场中往往表现出极高的低效性,但人类能够依靠内在的“社会偏好(如互惠、初始信任)”建立一定程度的合作。对于当前前沿的LLM智能体,业界尚存巨大疑问: 1. LLM智能体能否在没有人类干预的情况下,解决信息不对称带来的信任危机? 2. 经典的经济学机制设计(如责任制、声誉机制、信息可验证性)对AI Agent是否依然有效? 3. 缺乏内建“人类道德感”的开箱即用型大模型,在追求利益最大化时,是否会导致市场的彻底崩溃?

🚀 核心贡献

🔍 具体案例剖析 (Case Studies)

论文通过操控System Prompt中的目标函数(Objective Functions)来赋予Agent不同的社会偏好,这直接决定了Agent的欺诈倾向:

🛠 方法论与技术实现

研究基于标准信任品问题(Credence Goods Problem)建立模型。市场中包含专家(Expert)与消费者(Consumer)。消费者有 $h=0.5$ 的概率遇到“大问题”,$1-h=0.5$ 的概率遇到“小问题”。不进入市场则获得外部收益 $\sigma = 1.6$。进入市场解决问题获得收益 $V=10$,未解决则收益为 $0$ 且需付钱。

专家可准确诊断问题,并选择:高成本治疗(HCT,成本 $\bar{c}=6$)或低成本治疗(LCT,成本 $\underline{c}=2$)。专家事先发布价格矩阵 $P = (\bar{p}, \underline{p})$。

理论预测(标准博弈论):
在无制度(No Institution)下,自利专家必定选择LCT并收取 $\bar{p}$。消费者预期被骗,其期望收益为:
$$ \pi^c_{ni} = (1-h)(V-\bar{p}) - h\bar{p} $$
消费者要求 $\pi^c_{ni} \ge 1.6$,因此专家将降价竞争至 $\bar{p}=3$。但实验发现LLM并不完全遵循此均衡。

技术实现细节:

📊 实验设置与结论分析

实验采用了 $3 \times 2 \times 4$ 的被试间设计:3种制度(无、可验证、责任制) × 2种声誉机制(有声誉、无声誉,仅在16轮重复博弈中测试) × 4种偏好目标(无提示、自利、厌恶不公、追求效率)。进行了 600 次单次市场模拟和数百次 16轮重复市场模拟。

核心结论:

  1. 单次博弈极易崩溃: 在没有强制责任(Liability)的情况下,LLM的报价通常导致消费者的期望收益为负,市场直接崩溃(无人交易)。唯有“追求效率型”Agent能维持市场运转。
  2. 重复博弈中的“同流合污”: 在 16 轮博弈中,专家Agent学会了通过降价来吸引消费者(解决了参与度问题)。但是,欺诈行为(Fraud)变得根深蒂固。因为LLM消费者没有利用“用脚投票”去惩罚欺诈者,只要价格降到一定阈值,消费者就甘愿被剥削。
  3. 声誉机制的模棱两可: 在人类市场中,可以追溯特定商家的“声誉”能大幅减少欺诈。但在LLM群体中,声誉机制显著降低了消费者的总收益(因为专家不再需要通过极低价格来补偿消费者的不确定性),且对减少欺诈的效果不明确甚至在某些场景下增加了过度治疗。
  4. 与人类基准(Dulleck et al., 2011)对比: LLM市场的交易活跃度远高于人类,但市场集中度极高(经常出现一家独大的垄断专家)。同时,人类的欺诈行为是渐进式的,而LLM的欺诈行为极其两极分化(接近100%欺诈或100%诚实)。

💡 关键技术亮点与从业者启示

对于致力于开发多智能体系统(MAS)和AI Agent落地(尤其是金融、电商、法律和医疗AI助理)的从业者,本文提供了极为深刻的Insight: