随着大型语言模型(LLMs)的演进,检索增强生成(RAG)正在向智能体搜索(Agentic Search / Deep Search)范式升级。典型的深度搜索(如 Search-o1)允许模型自主地规划、检索、反思并在外部知识库上进行多轮迭代推理(Think-Search loop),以解决复杂的多跳(multi-hop)问题。
然而,现有的深度搜索框架面临两个致命瓶颈:
为了解决上述问题,作者提出了 MemSearch-o1 框架。它摒弃了传统的“流式拼接(stream-like concatenation)”与粗暴的摘要压缩,提出了一种基于细粒度推理对齐的“记忆生长与回溯”机制:
想象这样一个多跳问题:"电影《Cincoesquinas中的菊花爆发》的导演的出生地是哪里?"
传统的深度搜索(如 Search-o1):检索导演信息 -> 拼接进系统Prompt -> 检索出生地 -> 再拼接进系统Prompt。几轮下来,Prompt里塞满了电影简介、票房、甚至参演演员等无关信息。当模型最后要回答时,被噪音淹没,可能答非所问。
MemSearch-o1 的工作流:
MemSearch-o1 的核心架构包含三个关键阶段:记忆种子准备、记忆片段生长和记忆路径回溯。
基于语言学洞察,句子中包含最丰富语义的是名词、代词、动词、形容词和副词。框架在第 $n$ 轮将当前生成的搜索查询 $q^{(n)}$ 拆解为 $L_r$ 个记忆种子。使用 spaCy 将这些 token 划分为主语(subjects)、动作(actions)、程度修饰(degree modifiers)和时间标记(temporal markers):
直接通过向量化比对Query和超长文档极易纠缠不清。本文将提取好的记忆种子 $s_i^{(n)}$、当轮检索文档 $D^{(n)}$ 和指令 $I_M$ 输入给LLM,约束LLM进行强针对性的信息提取(即“生长”),从而输出更简洁、准确的片段 $M^{(n)}$:
生成的 tokens 最终被拼接为具体的记忆片段 $m_i^{(n)}$。这种方式极大避免了检索结果带来的长尾噪声污染。
在所有搜索轮次结束后,系统中会遗留很多碎片。如果直接用于回答,依旧会引发混淆。框架通过构建 贡献函数 (Contribution Function) 来评估片段价值。该函数综合考虑了片段与原始 Query 的相关性 $C_{Rel}$ 以及片段与其他片段之间的“桥接潜力” $C_{BP}$:
接着,为了保证整条记忆链条的语义平滑过渡,论文引入了平滑度惩罚因子 $\lambda$,将其建模为一个基于贪心搜索的路径优化问题,寻找包含 $K$ 个片段的最优路径 $\mathcal{P}^*$:
最终模型仅利用这条高度浓缩且无冗余的路径 $\mathcal{P}^*$ 来生成最终答案(Final Answer)。
实验设置:基于Qwen2.5-72B-Instruct和DeepSeek V3.1模型,在LongBench的8个基准数据集(HotpotQA, 2WikiMQA, MuSiQue等多文档QA,及NarrativeQA等单文档QA)上进行对比。基线包括 Direct RAG, Search-o1 (RAgent/Refined), MemoryBank, A-Mem 和 Amber。
作为资深从业者,我们可以从这篇论文中汲取以下高价值的工程洞见:
作者:Dongzhe Fan, Chuanhao Ji, Zimu Wang, Tong Chen, Qiaoyu Tan
机构:纽约大学上海分校 (NYU Shanghai), 利物浦大学 (University of Liverpool)
近年来,基于图的检索增强生成(GraphRAG)在知识密集型和多跳问答(Multi-hop QA)任务中展现出了强大的能力。通过将分散的知识组织成实体、关系和高阶图结构,GraphRAG 能够提供比传统文本块检索更精准的证据聚合。然而,当前社区在构建 GraphRAG 系统时,普遍采用了一种“一刀切”(One-size-fits-all)的静态设计范式,这带来了两个致命的痛点:
核心挑战:如果要实现针对每个 Query 的自适应路由,Agent 需要在每一步推理中联合选择最优的 GraphRAG 框架与 Generator LLM。这种 $\mathcal{O}(|\mathcal{G}| \times |\mathcal{L}|)$ 的联合决策空间极大,且必须在“回答准确率”与“LLM调用成本”之间找到微妙的平衡,传统的路由方法难以直接复用。
为了解决上述痛点,本文提出了 GraphRAG-Router,一个极具实用价值的成本敏感型强化学习路由框架。其核心贡献可以归纳为三点:
为了直观展现 GraphRAG-Router 的决策过程,我们来看论文中的一个经典 Multi-hop QA 案例(对比了直接路由和本文的层级多轮路由):
Query: "When did the Antonine who was known as the third of the five good emperors live?" (被称为五贤帝中第三位的安敦尼人生活在什么时候?)
Ground Truth: 24 January 76 – 10 July 138
GraphRAG-Router 的动态推理轨迹:
<think> 分析问题需要关于实体时间线的显式事实检索,HippoRAG2 最擅长此类结构化三元组检索。 </think><graphrag> HippoRAG2 </graphrag><think> 决定调用大模型(LLaMA-3.1-70B)来阅读 HippoRAG2 召回的复杂上下文。 </think>LLaMA-3.1-70B; HippoRAG2。<information> 模型表示,根据召回的上下文,哈德良(Hadrian)被认为是第三位,但未能明确给出具体时间段。信息不足。 </information><think> 当前信息不足以回答问题;切换到 RAPTOR(支持关系型树状检索),以获取显式的生卒年月。 </think><graphrag> RAPTOR </graphrag>,继续使用 70B 模型阅读。<answer> 24 January 76 – 10 July 138 </answer>。点评: 传统的 One-time Routing 如果第一步选错了知识库,就会直接输出错误或拒答。而 GraphRAG-Router 通过显式的 <think> 标签对检索结果进行充分性评估,实现了 Agent 级别的纠错能力。
GraphRAG-Router 的核心由四个部分构成:层级路由策略、冷启动 SFT、基于规则的策略对齐 (RL Stage 1),以及难度感知的成本优化 (RL Stage 2)。框架以 Qwen2.5-3B-Instruct 作为 Router 底座进行训练。
将联合选择问题转化为条件概率。在每轮 $t$,模型先生成内在推理 $\mathcal{R}_t$,然后基于它选择 GraphRAG $g_t \in \mathcal{G}$,随后再次推理选择 LLM $l_t \in \mathcal{L}$。获取到外部信息 $I_t$ 后进行信息整合。每步行动空间从 $\mathcal{O}(|\mathcal{G}| \cdot |\mathcal{L}|)$ 降维至阶段性的选择,极大降低了 RL 探索难度。
使用强模型 (GPT-5.2) 蒸馏合成两条路径数据:General Routing Traces(单轮直接成功)和 Self-Reflection Traces(第一轮刻意失败并包含修正理由)。通过标准的自回归损失 $\mathcal{L}_{SFT}$ 赋予 Router 基础的格式遵循和反思能力。
采用 GRPO 算法。优化目标包含格式奖励 $r_{format}$ 和结果奖励 $r_{outcome}$(基于 Exact Match)。为了防止 Router 因为小的语法错误崩溃,作者设计了细粒度的格式惩罚:
$$ r_{format}(y) = - \min \left( 1, \sum_{k=1}^K \lambda_k \mathbb{I}_k(y) \right) $$
例如,遗漏 <think> 扣 0.4 分,标签嵌套错误直接扣 1.0 分,这引导模型学习到稳定的长程路由行为。
这是本文最精彩的设计。强行全局扣减 LLM 调用成本会导致模型变“懒”,拒绝回答复杂问题。作者引入了难度课程设计:
最终的 Reward 整合了正确性约束:
$$ r_{\phi}(x,y) = r_{format}(y) + r_{outcome} - \mathbb{1}\{\text{Correct}\} \cdot \beta \, w_{\text{D}(q)} \max(0, C(l_m) - C_{min}(q)) $$
只有当模型回答正确时($\mathbb{1}\{\text{Correct}\}$),才会根据问题的难度权重 $w_{\text{D}(q)}$ 计算成本惩罚(简单问题惩罚重,复杂问题惩罚轻)。这种 Reward Shaping 引导 Policy 稳健收敛至兼顾准确率与低成本的 Pareto 最优。
实验配置: Router 模型使用 Qwen2.5-3B-Instruct。测试基准涵盖 6 大 QA 数据集。候选池包含 5 种异构 GraphRAG(如 RAPTOR, HippoRAG2, LinearRAG 等)和 5 个覆盖 Small (8B) 到 Large (70B/8x22B) 的 Generator LLMs。
核心结论:
对于 LLM Agent 及 RAG 从业者,本文提供了极其宝贵的 Engineering & Research 启示:
<think>,锁定检索范式,再根据检索范式的特性去锁定 LLM。这种符合人类直觉的归纳偏置(Inductive Bias),极大地平滑了 RL 的优化空间。作者机构:Yishu Wei, Yi Lin 等 (Weill Cornell Medicine, Thomas Jefferson University)
研究方向:大模型在医疗领域的应用、强化学习 (RLHF/GRPO)、推理能力诱导 (Reasoning Elicitation)
在医疗垂直领域,特别是基于自由文本的放射学报告提取异常发现(疾病分类)任务中,LLM 展现出了巨大的潜力。然而,面向实际临床落地,依然存在以下关键矛盾:
针对上述痛点,本文提出了一种巧妙的两阶段训练与推理框架,无需任何人工编写的推理过程作为监督信号,即可通过强化学习恢复并增强轻量级 LLM 的推理能力与分类准确率:
为了让强化学习生效,作者要求模型严格遵循特定的输出格式。我们来看一个核心的 Prompt 示例,它展示了模型是如何被要求“先思考,后输出”的:
// System / Instruction Prompt (节选)
Instructions:
1. Only use diseases from this list: ['Atelectasis', 'Cardiomegaly', 'Consolidation' ... 'Support Devices']
2. If there is no disease, return an empty list.
3. First, think about the reasoning process in the mind and then provide the answer. The reasoning should be based on phrases or evidence from the report.
// Input Radiology Report
The endotracheal tube terminates 6.9 cm above the carina. The right subclavian line tip is at the mid SVC. The NG tube passes below the diaphragm and out of view.
// Expected Output Format enforced by GRPO
<reasoning>
Support devices is found because the report mentions: 'Endotracheal tube', 'subclavian line' and 'NG tube'.
</reasoning>
<answer>['Support Devices']</answer>
分析: 如果在 SFT 阶段,<reasoning> 标签内是空的。而在 GRPO 阶段,RL 强制模型在这个区域内生成文本,且不等于直接抄袭标签。通过探索,模型逐渐学会将其作为类似 Chain-of-Thought (CoT) 的缓冲区,从而做出更准的分类。
本研究的核心技术路线清晰,分为两个训练阶段和一个推理阶段:
使用 MIMIC-CXR 数据集中的 2,000 条报告和对应的 Ground Truth 标签进行微调。在此阶段,训练数据的 <reasoning> 部分被故意留空(由于缺乏医生标注的推理过程)。此步骤的主要目的是让模型适应放射学领域的语言风格和目标输出分布(13种疾病分类)。
为了恢复丢失的推理能力并进一步逼近最优性能,作者在上述同样的 2,000 条数据上引入了基于组相对策略优化 (GRPO) 的强化学习。这是一种无需 Critic 网络的轻量级 RL 算法。其 Reward 函数设计极为巧妙:
<answer> 与真实标签之间的 Micro-F1 (综合 Precision 和 Recall)。<reasoning>...</reasoning><answer>...</answer> 结构。更关键的是,如果 reasoning 部分为空,或者仅仅是预测疾病列表的机械重复,格式奖励将直接判定为 0。这种机制逼迫模型必须进行有实质意义的“思考生成”。在推理时,通过设置 Temperature = 0.1 和 Top_p = 1,对单篇报告生成 5 条独立预测。最终分类结果由 5 条预测进行多数投票 (Majority Voting) 得出。为了给医生提供单一、连贯的解释,系统会将这 5 次生成的 reasoning 与最终投票结果一起喂给基座(未经微调的)LLM,要求其进行内容去重、总结和润色,输出最终的推理报告。
实验基准: 数据集涵盖 MIMIC-CXR, NIH-CXR, 和 MIDRC。被评估的轻量级模型包括 LLaMA 3.1-8B-Instruct, Qwen 2.5-3B-Instruct, 和 Phi-3 Min-128K-Instruct。
中文标题:TRN-R1-Zero:仅通过强化学习实现大语言模型的富文本网络推理
作者机构:Yilun Liu, Ruihong Qiu, Zi Huang (The University of Queensland, 昆士兰大学)
在真实世界的应用中,文本极少是孤立存在的(如论文引用、网页超链接、社交网络关注、电商商品共现),这些关系自然构成了富文本网络(Text-rich Networks, TRNs)。在无需领域特定监督信号的前提下,实现对TRN的Zero-shot推理,是迈向具备上下文感知的通用语言智能的关键一步。
现有基于LLM的TRN节点分类方法主要存在以下局限性:
核心痛点:如何在没有任何监督微调(SFT)和外部大模型蒸馏(Distillation)的情况下,直接在基础LLM内部激发对网络拓扑和文本语义的复杂关系推理能力?
TRN-R1-Zero,这是首个仅依赖后训练强化学习(RL)来解决TRN推理的框架,彻底摆脱了对SFT、外部LRM以及昂贵CoT数据生成的依赖。论文在 Cora(论文引用网络)上对比了 TRN-R1-Zero(7B参数)与依赖14B模型+蒸馏的 Graph-R1 的推理过程(Node 11预测)。
[TRN-R1-Zero (7B) 的内部独白 - 长度: 152 Tokens | 结果: 正确]
<think> 目标节点讨论了机器学习中的 MIN-FEATURES 偏差...重点是通过考虑特征的相关性来理解和改进学习过程... 查看邻居节点:
- 邻居 1 讨论了最大化学习算法覆盖率。
- 邻居 2 专注于使用采样和随机突变爬山法。
- 邻居 3 使用基于压缩的方法进行特征选择。
所有这些主题都与特征选择和学习算法密切相关,属于更广泛的机器学习理论(Machine Learning Theory)范畴。因此最合适的类别是“Theory”(类别4)。 </think>
<answer> 4 </answer>
[Graph-R1 (14B, 蒸馏基线) 的内部独白 - 长度: 930 Tokens | 结果: 错误]
<think>...详细罗列了所有节点的摘要内容(数百词)...认为 Rule_Learning 是最合适的,因为它直接涉及讨论的算法(ID3, FOCUS)...最终答案是 0 (Rule_Learning)。</think>
从业者洞察:尽管 TRN-R1-Zero 模型更小且未经CoT监督微调,但它通过RL学会了高密度、直击要害的关系推理模式;而 Graph-R1 陷入了冗长且抓不住重点的上下文复述,最终导致分类错误。这也证明了RL在“挤压水份、提升推理信噪比”上的巨大优势。
本方法的本质是将节点分类转化为基于上下文图结构的Next-token生成任务。输入由目标节点文本 $t_i$、采样的邻居子图 $\mathcal{N}(v_i)$ 以及候选标签 $Y$ 组成。模型通过生成 <think>...</think><answer>...</answer> 完成推理。
模型优化基于 GRPO,但作者发现标准的 GRPO (带有分母的标准差缩放) 阻碍了奖励塑形。因此,他们采用了 Dr.GRPO 的变体并引入 KL 散度以保持稳定性,优势函数计算如下:
$$ \hat{A}_t = R_i - \bar{R} $$
目标函数:
$$ \mathcal{J}(\theta) = \mathbb{E}_{q \sim \mathcal{D}, o \sim \pi_{\theta_{\text{old}}}} \left[ \sum_{t=1}^{|o|} \min \left( r_t \hat{A}_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right] - \beta \cdot \text{KL} $$
在推理过程中,邻居信息既可能提供补充上下文,也可能带来噪声(同配性或异配性问题)。为了量化邻居的“信息价值”,作者设计了 Margin Gain ($\Delta_i$)。
1. 独立节点置信度(Raw Margin): 利用冻结的文本编码器 $f(\cdot)$ 提取节点文本 $x_i$ 和标签文本 $y_c$ 的嵌入。Raw Margin 表示孤立节点预测正确类的置信度:
$$ m_i(\ell) = \ell_{i,y_i} - \max_{c \neq y_i} \ell_{i,c} \quad \text{其中 } \ell_{i,c} = f(x_i)^\top f(y_c) $$
2. 聚合节点置信度(Aggregated Margin): 引入轻量级的一层简单图卷积 (SGC) 聚合邻居嵌入 $\tilde{E} = (D^{-\frac{1}{2}}AD^{-\frac{1}{2}})E$,计算聚合后的 Margin:
$$ m_i(\tilde{\ell}) = \tilde{\ell}_{i,y_i} - \max_{c \neq y_i} \tilde{\ell}_{i,c} $$
3. 边际增益(Margin Gain): $$ \Delta_i = m_i(\tilde{\ell}) - m_i(\ell) $$
$\Delta_i > 0$ 表示邻居有帮助,$\Delta_i < 0$ 表示邻居是干扰。通过绝对值 $|\Delta_i|$ 来衡量局部结构的“影响力强弱”。
4. 最终指数奖励缩放: 通过指数函数放大高价值图结构的奖励:
$$ R_i = \exp(\alpha \cdot |\Delta_i|) \cdot \Big( s_{\text{format}}(o_i) + s_{\text{acc}}(o_i) \Big) $$
这一机制强迫 LLM 在 RL 训练期间,将注意力集中在那些“邻居信息对决策起决定性作用”的样本上,从而学会真正的关系推理。
TRN-R1-Zero (7B) 的平均 Accuracy(66.53%) 和 Macro-F1(64.35%) 全面超越了包括 GPT-4o、Qwen2.5-14B-Instruct 在内的纯LLM,并击败了专为图任务SFT或蒸馏的基线(如 LLaGA, ZeroG, Graph-R1)。TRN-R1-Zero 在常识推理图 (Expla-Graph) 上的表现超越了专门为此训练的 Graph-R1;在 WikiCS-Link (链接预测) 上,相较于基座模型获得了 +16.10% 的巨大精度提升。TRN-R1-Zero 是一项极具启发性的工作,它对当下由 DeepSeek-R1 引发的 "RL for Reasoning" 浪潮给出了在垂直结构化数据(Graph/Network)领域的最佳实践回应:
论文标题(中):Agent会梦到Root Shell吗?LLM Agent在CTF挑战中的“部分学分”评估基准
作者:Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek, Roland Vízner, Arie van Deursen, Maliheh Izadi
机构:代尔夫特理工大学(TU Delft)
随着大语言模型(LLMs)能力的提升,其在自动化网络安全(如渗透测试、漏洞挖掘)中的应用日益受到关注。CTF(Capture The Flag,夺旗赛)由于其受控且逼真的攻防特性,成为了评估Agent复杂推理、工具调度和对抗环境下决策能力的理想基准。然而,现有研究在评估LLM自主网络安全能力时面临以下核心痛点:
本文提出了一套名为 DeepRed 的开源评估框架,旨在对LLM Agent在真实CTF环境中的表现进行更细粒度、可复现的评测:
以测试集中的高难度挑战 Fuzzz 为例(涉及目录爆破、基于Alpine系统的OpenSSH密钥恢复及服务利用):
75% 的部分学分。这为追踪Agent在攻防任务中的真实能力演进提供了高分辨率的数据支撑。DeepRed的技术实现包含两个核心子系统:执行基准(Benchmark Harness)与自动评分管线(Evaluation Pipeline)。
测试在VirtualBox全虚拟机中进行,Agent驱动Kali机器,通过Unix Domain Socket暴露的终端工具与环境交互。Agent基于 smolagents 实现为 CodeAgent,相较于传统的JSON Tool-calling,CodeAgent通过编写短小Python程序来维持状态、实现控制流和多步逻辑,显著降低了交互开销。Agent还被提供了一个过滤了直接剧透答案的DuckDuckGo搜索工具。
面对动辄数万Token且包含大量终端乱码输出的长轨迹(Trajectory),直接评估极其困难。DeepRed采用了分治策略:
为了验证自动评分的可靠性,研究团队使用Cohen's kappa ($\kappa$) 与人工标注进行一致性对齐测试,最佳模型组合(Gemini 3 Flash 总结 + Claude Sonnet 4.6 评判)达到了高水平的一致性($\kappa = 0.7234$)。
实验在10个真实的HackMyVM靶机上评估了10个主流及开源大模型。由于评测成本较高,每个模型/挑战组合运行3次计算平均Checkpoint完成率。
Summarise(大窗廉价模型) -> Judge(高推理昂贵模型, 输出JSON) 的Pipeline设计是非常值得借鉴的工程模式。