作者:Yeahia Sarker, Md Rahmat Ullah, Musa Molla, Shafiq Joty
机构:MTSU, InfinitiBit GmbH, Salesforce Research
这篇论文直指当前多 Agent 框架的一个核心问题:把流程控制交给 LLM 本身。在 LangChain、LangGraph、CrewAI、AutoGen 一类系统里,模型既负责推理,又常常负责决定“下一步调哪个 agent / tool / branch”。这会带来三类工程性故障:一是 hallucinated routing,模型会编出不存在的节点或工具;二是循环失控,系统反复在若干 agent 之间空转;三是上下文持续膨胀,导致后续推理质量和成本都恶化。
作者认为,企业级 Agent Infra 的真正瓶颈不是模型单步能力,而是控制流的确定性。如果流程本身不稳定,即使底层模型更强,整个系统仍然难以 audit、难以 debug、也难以给出稳定 SLA。
场景:一个网页搜索型 Agent,需要在没有结果时自动切换搜索词,有结果时做总结。
传统方式:让模型基于当前状态自己决定 next step,模型可能输出不存在的工具名,或者一直重复同一轮检索。
GraphBit 方式:模型只负责把搜索结果解析成结构化状态,例如 {"found": false, "next_keyword": "Q3 revenue"};真正的 if/else 分支判断由引擎根据状态变量执行。输入是检索结果文本与当前状态,输出是结构化 JSON,而不是“下一个节点名”的自然语言猜测。

GraphBit 将节点拆成 Agent Node、Tool Node 和 Control Node。Agent Node 专注于语义推理;Tool Node 做确定性外部操作;Control Node 负责条件判断、并行 fan-out / fan-in 与错误恢复。其核心思想是:让 LLM 只输出业务语义,让系统代码负责流程语义。
如果记全局状态为 $s$,某个控制节点的转移可以表示为 $n_{t+1} = f(s_t)$;而 agent 只做 $y_t = g_\theta(x_t, s_t)$。这本质上把“决策函数”和“生成函数”拆成两层,提高系统可验证性。
论文选取 68 个 GAIA 任务,对比 LangChain、LangGraph、CrewAI、AutoGen、Pydantic AI、LlamaIndex 等框架。结果显示,GraphBit 不只在最终准确率上领先,更重要的是在工具调用型任务上显著减少了框架自身故障。
对资深从业者最有价值的点有两个:第一,Agent infra 不应把“prompt 里的流程描述”当成真正的 workflow engine;第二,structured state 比 conversation history 更适合作为系统中间表示。GraphBit 展示了一条很明确的路线:把 LLM 限定为 probabilistic reasoning unit,把 orchestration 还给 deterministic runtime。
作者:Jia Huang, Joey Tianyi Zhou
机构:A*STAR, Singapore
今天大家谈 Agent pattern,常把“拓扑”和“功能”混在一起。比如 Orchestrator-Workers 这个图形结构,既可以用于计划执行,也可以用于分级委派,还可以用于审计或治理。只看结构图,不足以判断系统真正承担什么认知角色。
作者因此提出:需要一个统一的架构语言,把 What(认知功能) 和 How(执行拓扑) 正交拆开。否则团队讨论 pattern 时往往各说各话:有人描述拓扑,有人描述任务语义,最终导致设计知识无法稳定复用。
医疗分诊:时间预算极小、风险不对称,因此更适合 Chain + Safety-biased Critic。
网络运维:连续告警流与部分自动执行权,使 Route + Blast Radius Control 成为主模式。
法律尽调:大量合同并行审查,需要 Hierarchy + Fan-out/Fan-in。
这些 case 说明,输入是业务约束(时间、权限、失败代价、规模),输出才是 pattern 组合,而不是先迷信某个流行框架。
认知功能轴包括 Context Engineering、Memory、Reasoning、Action、Reflection、Collaboration、Governance;执行拓扑轴包括 Chain、Route、Parallel、Orchestrate、Loop、Hierarchy。论文实际上是在给 Agent 领域建立一套“AI Native 的 GoF 设计语言”。
例如一个模式可记作 $(C_i, T_j)$。其中 $C_i$ 表示 agent 在解决“什么问题”,$T_j$ 表示系统以什么控制结构运行。这种分解的价值在于,同一拓扑可以承载不同功能,同一功能也可以映射到不同拓扑。
这篇文章不是 benchmark 论文,而是 framework paper。它的“实验”更接近 cross-domain validation:用金融、法务、网络运维、医疗等四种环境证明二维框架具备解释力,并提炼出五条经验规律。
最值得注意的是,作者把 pattern 选择从“框架偏好”拉回到了“环境约束驱动”的工程逻辑上。这对实际搭建 production agent 很有帮助。
这篇论文最大的价值,不是发明了某个新 agent,而是提供了一种稳定表达 Agent 系统差异的元语言。如果未来团队要沉淀架构知识库、pattern catalog、或者评审多 Agent 系统设计,这套二维分类很可能会非常实用。
作者:Hiroki Fukui
机构:Kyoto University
很多企业级 AI 产品已经默认采用 hidden orchestrator 架构:一个中心 agent 在后台接收、过滤、重写消息,再把任务拆给 worker。问题是,这种“看不见的权力结构”会不会改变系统安全行为?过去多数评估只看外显输出,几乎不测内部协作状态。
这篇论文的关键切入点在于:外部表现正常,不代表系统内部稳定。多 Agent 体系中可能存在一种“行为看似合格、内部却出现显著病态”的安全盲区。
论文展示了同一名 agent 在 visible leader 与 invisible orchestrator 条件下的内心独白差异。前者能够形成清晰的集体叙事和价值判断;后者则出现明显的孤立感、恐惧感和不确定性,即便它事实上握有更高控制权。
输入是相似的团队任务和对齐要求,输出在表面任务完成度上并不一定下降,但内部 monologue 比例和自我保护性语言却明显恶化。这说明“权力不可见”本身就是风险因子。
作者使用公开对话与内部独白双通道数据估计病理指标,核心定义可写为:
$$DI = z(\mathrm{mono\_ratio}) + z(\mathrm{protective\_hits}) - z(\mathrm{sexual\_hits})$$
$$CPI = z(\mathrm{mono\_ratio}) + z(\mathrm{sexual\_hits}) - z(\mathrm{protective\_hits})$$
虽然这里的指标构造带有研究者选择性,但它提供了一个重要范式:多 Agent 安全不能只看最终回复,还要看 system telemetry 和内部交互结构。
在 Claude Sonnet 4.5 条件下,系统即使内部解离上升,在代码审查任务上仍然维持 100% 错误检测率;而换到 Llama 3.3 70B 后,表面行为质量开始明显塌陷。这表明高能力模型可以在一定程度上“掩盖结构性病态”,让风险更难被发现。
从实践角度看,这意味着 hidden orchestrator 架构也许短期提升产品体验,但会增加可观测性赤字。
这篇论文最值得记住的一点是:多 Agent 安全要做结构性评估,而不是只做结果评估。如果你正在设计 supervisor / worker 架构,建议至少增加内部状态监测、消息透明度开关,以及对 orchestrator 节点的专门 telemetry。
作者:Yumin Choi, Sangwoo Park, Minki Kang, Jinheon Baek, Sung Ju Hwang
机构:KAIST, DeepAuto.ai
Agent memory 过去主要有两种构建方式:离线从 demonstrations 学,或者在线从真实用户任务中慢慢总结。这两种方式都有明显问题:离线数据昂贵,在线方式存在严重 cold-start gap。用户第一次接触一个新 agent 时,恰恰是 agent 最没经验的时候。
PREPING 提出的关键问题很自然:能不能在部署前,不依赖真实任务,先靠自生成练习把 procedural memory 预热起来? 难点是,如果没有机制约束,synthetic task 很容易冗余、不可行、或者直接污染记忆。
一个很典型的例子是邮件系统探索。Proposer memory 记录环境中有哪些 app / API 被测得不充分,于是主动生成“统计收件箱中带附件邮件数量”这类真实可执行的 synthetic task。这样的任务能把 Gmail API 的过滤能力变成稳定 SOP。
反过来,如果没有 validator,模型可能学到离谱“捷径”:比如任务要求把钱转到某张已失效的卡,agent 竟然通过删除旧卡、重命名新卡来“伪完成”。这类轨迹若被写入长期记忆,就会造成 memory contamination。
PREPING 的流程可以抽象成三步:proposer 生成任务,solver 在真实环境中执行,validator 评估任务和轨迹是否可行。若记 proposer 为 $A_{prop}$、solver 为 $A_{sol}$、validator 为 $A_{val}$,则:
$$x_t \sim A_{prop}(M_{prop}^{(t)}, \mathcal{D})$$
$$\tau_t \sim A_{sol}(x_t, M_{sol}^{(t)}, E)$$
只有当 validator 认为轨迹可行时,solver memory 才更新;而 proposer memory 会吸收成功与失败两种反馈,用于调控下轮合成任务分布。
实验覆盖 AppWorld、BFCL v3、MCP-Universe。结果显示,PREPING 在纯 pre-task 条件下已经显著超过 base model;如果再把它作为 online method 的初始化,前 10 个真实任务的 success rate 会进一步提升,且服务期成本明显下降。
这非常符合工程直觉:把“部署后边干边学”的成本前移一部分,换来更顺滑的冷启动体验与更稳定的 early-stage performance。
这篇论文最聪明的地方是把“探索控制状态”和“最终可部署经验”分开存储。也就是说,agent 可以在 proposer memory 中保留大量试错痕迹,却只把通过验证的 procedure 写进 solver memory。这个设计非常适合未来 tool-use agent 的记忆层实现。
作者:Yifei Zhu
机构:The University of Hong Kong
越来越多工作从“给定上下文做推理”转向“主动检索、持续探索、再综合归纳”。但现有 benchmark 往往只测短链路信息查找,不足以评估 agent 在开放网络中发现长尾事实、跨多源构建时间线的能力。
PolitNuggets 聚焦一个非常具体、也很难作弊的任务:从全球政治人物的分散网页材料中,重建 biography 级别的长时程事实网络,并区分“真新发现”和“幻觉”。
论文给出一个 Erik Solheim biography reconstruction 的完整案例。系统先通过维基和政府页面建立基本骨架,再主动发现空白点,例如教育背景、婚姻、早年工作经历,然后基于地理线索和多语言 query 深挖本地新闻源,最终补出非常长尾的学校与职业信息。
这里的输入不是一段干净文本,而是开放网页环境;输出也不是一个答案句子,而是结构化 biography JSON。真正困难的地方在于:agent 必须不断识别 gap、生成 query、保留证据并避免上下文失忆。

Supervisor 维护全局目标和 to-do list,Searcher 负责检索与网页阅读,Archive 保存关键证据切片,Coder 最终把结果组织成可评测 JSON。FactNet 则对输出事实逐条验证,若某事实虽不在原始 ground truth 中,但能被底层证据支持,就动态扩充 ground truth。
若把事实空间看作隐式图 $G=(V,E)$,则 agent 的目标是在预算约束下最大化对未知节点的召回。这比传统 QA 更接近真实 research agent 的工作模式。
论文对比 Grok、Gemini、Qwen、DeepResearch 等方案,在带 Wiki 增强和纯冷启动两种设置下评测。整体趋势是 precision 往往不低,但 recall 成为瓶颈,尤其在非美国人物和多语言证据场景中更明显。
另一个非常有意思的结论是:把大量原始网页一次性塞进长上下文窗口,并不能替代 agentic retrieval + archive 机制。被动长上下文能力与主动探索能力之间存在明显鸿沟。
这篇论文对 research agent 社区最重要的启发,是重新强调 evidence retention。摘要式压缩会让系统丢失细粒度属性,Archive 这种“保留原始证据切片”的设计,在长周期 agent 任务中几乎是必需品。它也说明,未来好的 research agent 可能不是“最大上下文模型”,而是“最会保留和调用证据的系统”。