计算精神病学致力于通过数学模型深化对心理健康障碍的理解,尤其聚焦于决策缺陷相关疾病(如药物成瘾、冲动控制障碍等)。传统方法主要依赖强化学习(RL)模型,如 Prospect Valence Learning(PVL)和 Outcome-Representation Learning(ORL),这些模型具备良好的数学可解释性,能将特定认知参数(如损失敏感性、奖励超敏感性)与成瘾等病症关联,充当"认知生物标志物"。然而,它们存在根本局限:过于抽象的数学形式无法捕捉人类决策中的情境细微差别和叙事元素,更无法生成具有行为真实感的"数字被试"进行大规模仿真研究,导致领域内长期存在"模型战争",没有任何单一框架能稳定复现人类行为的全貌。
另一方面,大型语言模型(LLM)为行为生成提供了全新范式。基于 LLM 的生成式 Agent 能够规划、推理并在模拟环境中交互,展示出惊人的行为真实感,在创建临床训练用"虚拟患者"方面前景广阔。然而,其"黑盒"特性——决策涌现自数十亿不透明参数,无法明确解读为何作出某一选择——使得 LLM Agent 无法满足科学研究对结构可解释性的严格需求,不能成为机制探索的工具。两类方法各有长短:RL 模型提供可解释性但缺乏行为真实感;LLM 提供行为真实感但缺乏结构可解释性。这一根本矛盾正是 BioLLMAgent 出发的核心动机。
任务范式(Iowa Gambling Task, IGT):参与者从四副牌(A、B、C、D)中依次选牌共100次,目标是最大化总累计收益。A/B为"不利牌组"(即时高奖励但长期净亏),C/D为"有利牌组"(即时低奖励但长期净盈)。A/C的损失频率高(50%),B/D的损失频率低(10%),形成多维度冲突设计。任务被形式化为单状态 MDP。
Internal RL Engine(ORL模型):ORL(Outcome-Representation Learning)模型独立学习期望价值(EV)、期望频率(EF)和持续化(PS)三个组件,使用两个独立学习率 Arew(奖励学习率)和 Apun(惩罚学习率)捕获对收益和损失的差异化敏感性。模型参数通过贝叶斯推断(MCMC采样)从人类行为数据估计后验分布,保证了参数可解释性和经验基础。
External LLM Shell:LLM 被赋予角色提示,模拟完整的 IGT 试验,输出四副牌上的概率分布。通过平均多次模拟的概率分布得到 Πprob,再转换为效用尺度先验 Πutil,作为外源性驱动输入。
Decision Fusion Mechanism:最终决策效用由线性融合给出:U_Comb = (1-ω)·U_M + ω·Πutil,其中 ω 是控制 RL 与 LLM 贡献平衡的可学习权重参数。融合后通过 Softmax 转化为动作概率并采样。ω 的大小直接反映 Agent 决策中"理性经验学习"与"高层认知策略"的相对权重,使整个决策机制完全可解析。
多 Agent 社会网络模拟:将多个 BioLLMAgent 实例放置在社会网络中,模拟不同干预策略(无干预、靶向CBT、网络枢纽干预、社区教育)下的群体健康演化,通过 PCA 可视化行为状态分布,定量比较各干预策略效果。
在六个 IGT 数据集(含健康对照与成瘾人群)上,BioLLMAgent 的核心认知参数(Arew、Apun、K、βF、βEV等)均实现了高参数可识别性,相关系数均超过 0.67(部分参数达 0.85 以上),显著优于纯 LLM Agent(参数无法识别,相关系数接近0)和纯 ORL 模型(行为真实感差,与真实人类序列的 KL 散度较高)。
在行为真实感方面,BioLLMAgent 的模拟行为序列与真实人类数据的分布差异(通过 PCA 行为状态可视化衡量)在最优 ω 下最小,混合框架在成瘾人群和健康对照组的参数恢复均表现良好。
在多 Agent 网络干预实验中,社区教育干预健康评分为 0.950,远超靶向CBT(0.750),优势达 0.2 个单位(约 26.7% 相对提升)。网络枢纽干预意外地得分最低(0.630),可能因高连接节点的行为异常性反而对网络产生负面传播效应,这一假说生成性发现具有重要研究价值。
基于 LLM 的 Agent 在工具使用方面已成为解决复杂任务的核心范式。然而,优化 LLM Agent 的工具使用策略面临两个根本性挑战:一是长时域轨迹中的延迟监督——任务失败信号通常只在交互末尾出现,将多个模块的累积错误压缩进单一终端信号,导致严重的信用分配(credit assignment)问题;二是长时域轨迹中错误的级联传播——规划、工具选择、参数构建或结果合成任一环节出错均可导致整体失败,且错误来源混杂。
现有优化方法分化为两个极端,均无法同时解决上述问题。整体式(Monolithic)优化方法(如 OPRO、PromptBreeder)对整个 Agent 提示进行全局黑盒搜索,容易将不同模块的异质行为相互纠缠,修复一处错误可能破坏其他能力,出现"按下葫芦浮起瓢"的回退现象。单方面(Single-Aspect)优化方法(如 AdaPlanner、EASYTOOL)专注于改进某一个模块(规划或工具调用),却忽略了跨模块错误传播,对长时域轨迹中的系统性失败束手无策。因此,当前没有任何框架能同时实现精准错误定位与多模块协同改进,这正是 EVOTOOL 的出发点。
模块化工具使用策略形式化:整体策略定义为模块的复合:Π = πsyn∘πcall∘(πsel∘πplan),每个模块对应一套可进化的规范 Θ = {θplan, θsel, θcall, θsyn}(提示、工具模板或轻量格式规则)。学习目标是最大化期望任务成功率 J(Θ; W) = E[R(x, ŷ(τ))],同时保持底层 LLM 权重 W 冻结。
自进化优化循环:EVOTOOL 维护一个候选规范种群 P = {Θ(i)},每代中:(1) 从种群中采样父本 Θ,在训练集上执行工具使用策略收集 episode 记录;(2) Blamer LLM 输出模块级责任分数,选定变异目标模块 π*;(3) Mutator LLM 生成针对 π* 的自然语言反馈和局部编辑,产生子代 Θ'(仅一个模块不同于父本);(4) 在验证集上评估所有候选,通过实例级获胜准则更新种群;(5) 重复直至预算耗尽,返回最优候选。
责任归因机制细节:从轨迹 τ = {(st, at, ot)} 中提取四类诊断事件,与完整 episode 记录一起提供给 Blamer LLM,输出 0~1 的模块级责任分数向量,最高分对应的模块被选为变异目标。此设计将终端稀疏奖励转化为模块级密集诊断信号,是解决信用分配问题的关键。
多样性保留:传统贪心选择只保留全局平均最优候选,EVOTOOL 对验证集上的每个实例独立评估各候选,只要候选在某些实例上赢过其他所有候选,就予以保留。这保证了种群中既有擅长多步规划的个体,也有擅长精确工具调用的个体,各模块的互补能力得以共存。
在 GPT-4.1 骨干下,EVOTOOL 在四个基准的总体平均分为 70.6,而最强基线 DRAFT 仅为 64.9,EvoPrompt 为 63.8,ReAct 为 60.6,整体领先超过 5 个百分点。分项来看:ToolBench 上 EVOTOOL 达 77.7(DRAFT: 75.8,提升 1.9pp);RestBench 上 86.2(DRAFT: 84.8,提升 1.4pp);τ-Bench 上 52.0(DRAFT: 38.8,大幅提升 13.2pp!);BFCL 上 63.1(DRAFT: 54.9,提升 8.2pp)。τ-Bench 上的大幅提升尤为突出,说明 EVOTOOL 对需要真实服务调用的长时域任务效果最显著。
在 Qwen3-8B 骨干下,EVOTOOL 总体平均 57.0,最强基线 DRAFT 为 51.8,领先约 5 个百分点,验证了方法的跨模型迁移性。Token 效率实验显示,EVOTOOL 在实现最高性能的同时,每轮迭代消耗的 token 数量少于整体优化方法(OPRO、PromptBreeder)约 20-30%。
自主旅行规划是测试 LLM Agent 在强约束条件下长时域规划能力的严格 benchmark。一个完整的多日旅行方案需要同时满足严格的硬约束(预算上限、时间可行性、路线连贯性、住宿不重复等),以及灵活的软约束(用户偏好、体验多样性等)。任何一天的预算超支或逻辑错误都会使整个行程无效,任务难度随规划天数指数级增长。
主流的单体序列架构(如 ReAct、CoT)依赖单一策略逐 token 生成整个行程,面临研究者命名的"长工具调用轨迹下的约束漂移(Constraint Drift under Long Tool Traces)"失败模式:随着规划推进,工具调用输出、搜索日志和推理轨迹在上下文中不断累积,使模型对初始全局约束(如总预算)的注意力逐渐稀释,导致全局可行性随规划长度单调下降。现有缓解策略(如 ATLAS 的迭代精化)采用"先生成再验证"的事后修正思路,需在生成完整 7 天行程后才能检测到第1天的预算超支,造成二次计算浪费,且延迟随规划长度超线性增长,无法从根本上解决约束漂移问题。
问题形式化:长时域自主规划被形式化为目标条件部分可观测 MDP(GC-POMDP)。用户查询 q 参数化任务 Tq = ⟨q, K, Chard, Csoft⟩,其中 Chard 为硬约束函数(预算上限、时间可行性、路线一致性等不可违反的逻辑不变量),Csoft 为软约束函数(用户偏好等)。目标是找到在几乎确定满足硬约束条件下最大化软效用的策略:π* = argmax E[Csoft(τ)],s.t. P(Chard(τ)=1) ≥ 1-δ。
层级分解:Coordinator 接收完整用户查询,将高维问题投影为一组局部边界条件(子目标)——软性每天预算提示和角色分配(如"第1天以文化体验为主,预算约 X 元"),有效将全局资源分配从战术执行中解耦。各 Day Executor 在独立的、干净的上下文窗口中规划单天行程,完全不受其他天执行噪声干扰,每个子问题的有效上下文长度从 O(T) 降至 O(T/D)。
同步全局状态:共享全局预算、已使用过的住宿/景点集合等耦合约束通过带原子锁的事务机制管理。当 Executor 尝试预订某资源时,同步监控器原子性检查并更新全局状态,若违反约束则立即拒绝并要求重规划,将错误消灭于生成时而非生成后。
GRPO 训练:采用 Group Relative Policy Optimization 对共享策略进行训练,奖励信号基于整个行程的硬约束满足率(FPR)。多角色更新机制允许在单次前向传播中同时更新 Coordinator 和 Executor 角色的参数,配合内存优化技术有效控制显存开销。
| 方法 | 骨干模型 | TravelPlanner 验证FPR | TravelPlanner 测试FPR | 相对提升 |
|---|---|---|---|---|
| ReAct | GPT-4 | ~0% | ~0% | — |
| ATLAS | Gemini-2.5-Pro | ~37% | 35.00% | 基线 |
| MTP | — | — | 42.65% | 基线 |
| DeepTravel | Qwen3-8B | 44.11% | 44.11%* | 基线 |
| HiMAP-Travel | Qwen3-8B | 52.78% | 52.65% | +17.65pp vs ATLAS; +8.67pp vs DeepTravel |
在 FlexTravelBench 上:2轮 FPR 44.34%,3轮 FPR 37.42%,同时并行化带来 2.5× 延迟降低(相比顺序 DeepTravel 基线)。有效交付率(Delivery Rate)接近 100%,约束分析显示预算遵从率和有效路线率均有显著提升。
随着 LLM Agent 越来越多地跨会话运行,长期记忆成为支持多轮推理和连贯交互的核心组件。然而,当前系统对"哪些信息应该进入长期记忆"这一问题几乎没有提供明确的控制机制:要么无差别累积大量对话内容(包括幻觉信息和过时事实),要么依赖不透明的全 LLM 驱动记忆策略(成本高且难以审计)。
现有方法存在明显缺陷。基于启发式的方法(如 MemGPT、MemoryBank)使用基于时效性、相关性和重要性的手工评分函数,虽计算高效,但缺乏防止幻觉内容进入记忆的原则性机制,且固定权重方案无法跨领域自适应。基于全 LLM 的方法(如 A-mem、Mem0)将记忆准入完全委托给语言模型,虽召回效果好,但会产生大量计算开销,记忆策略难以审计和调试。更关键的是,两类方法都没有将幻觉问题作为一等公民显式处理,而幻觉信息一旦进入长期记忆,将在未来交互中持续传播错误,严重影响 Agent 可靠性。
候选记忆提取与规范化:从多轮对话历史 H = {t1, ..., tk} 中提取候选记忆 {m1, ..., mn},每个 mi 代表一个语义原子信息片段。在评分前进行轻量规范化:将单轮中的多个事实分割为原子单元;解析时间表达式和指代;过滤低价值内容(问候、确认语等)。
五维评分信号详解:(1) 效用 U(m):通过单次 LLM 调用评估该信息是否可操作、能否支持未来追问、是否捕获持久的用户约束或偏好;(2) 置信度 C(m):从先前轮次中识别支持性跨度,计算对话内支持比率,直接量化信息的事实可靠程度;(3) 新颖性 N(m):基于与现有记忆存储 M 的语义相似度计算,N = 1 - max_sim(m, M),防止冗余;(4) 近效性 R(m):基于信息在对话时间线上的位置的时间衰减函数;(5) 内容类型先验 T(m):基于内容类别(用户声明的事实、意图/目标、约束/偏好、临时状态等)的先验权重。
准入决策逻辑:若 S(m) ≥ θ,检查是否与现有记忆冲突:无冲突则直接加入;有冲突且 S(m) > S(冲突记忆) 则合并更新;否则拒绝。若 S(m) < θ 则直接拒绝,候选记忆不进入长期存储。
代码开源:https://github.com/GuilinDev/Adaptive_Memory_Admission_Control_LLM_Agents
| 方法 | 精确率 | 召回率 | F1 | 延迟 |
|---|---|---|---|---|
| MemGPT(启发式) | 0.52 | 0.48 | 0.50 | 低 |
| MemoryBank | 0.53 | 0.51 | 0.52 | 低 |
| A-mem(全LLM) | 0.58 | 0.55 | 0.565 | 高(+31%) |
| Mem0 | 0.56 | 0.53 | 0.545 | 中 |
| A-MAC(本文) | 0.61 | 0.56 | 0.583 | 比A-mem低31% |
消融实验显示,移除 Type Prior 后 F1 降至 0.521(-0.062),影响最大;移除 Confidence 后 F1 降至 0.542(-0.041),幻觉过滤能力显著下降;移除 Novelty 后冗余记忆量增加约 35%。五个维度均不可缺失,共同构成最优准入策略。
LLM Agent 在长时域任务(数十到数百步工具调用)中面临上下文窗口的根本瓶颈。随着轨迹增长,工具调用输出、观察结果和中间推理不断追加,Prompt 变得过长、最终超出上下文预算,且即使过去证据仍在上下文中,也因"距离过远"而难以有效利用。这一问题在需要跨多步骤引用早期信息的任务中尤为突出,例如:搜索科学文献时需要回溯最初的关键词约束、探索代码配置空间时需要引用之前测试失败的参数、多 API 业务流程中需要精确回忆若干步之前的服务返回值。
现有解决方案主要是有损的上下文压缩:截断(丢弃旧历史)或滚动摘要(将旧历史压缩为摘要),但这些方法在压缩过程中不可避免地丢失或模糊了细节证据,对需要精确引用历史信息的任务造成严重损害。语义相似度检索方法(RAG式)则面临另一困境:长时域工具使用产生大量噪声和近重复碎片,检索结果模糊,且该设计不规定 Agent 应如何组织自身经验,无法指定哪些中间结果值得稳定引用。
Memex 核心结构:工作上下文由两部分组成:(1) 系统提示 + 用户查询(固定);(2) 紧凑索引摘要(动态更新,格式为"Index A: Description A, Index B: Description B, ...")。外部存储(键值对)保存每个索引对应的完整原始内容。摘要保持工作上下文小而精,索引则像"书签"一样精确指向需要时可恢复的完整证据。
两类核心操作:CompressExperience:将积累的工具调用轨迹压缩为新的索引摘要条目,同时将完整内容存档至外部存储,从工作上下文移除旧轨迹。ReadExperience(index):解引用指定索引,将对应存档内容精确注入工作上下文,实现按需精确检索。
MemexRL 训练细节:奖励塑形包含:(a) 任务成功奖励(稀疏终端信号);(b) 上下文预算奖励(鼓励维持小工作上下文);(c) 有效解引用奖励(鼓励及时且精准地恢复需要的历史证据)。压缩自适应训练确保压缩操作后的长轨迹中,远端时间步的内存决策仍有充分的梯度信号。软触发机制向 Agent 暴露当前上下文使用量的"状态标志",让模型学习在适当时机主动压缩,而非等待硬截断。
理论分析:形式化证明了:若 Agent 构造的索引摘要是任务相关的,且解引用次数有界(每步最多 k 次),则 Memex 循环可以保持与完整历史等效的决策质量,同时有效上下文长度仅为 O(摘要长度 + k × 解引用内容长度),与全历史长度无关。
在挑战性长时域任务 benchmark 上(涉及 50-200 步工具调用),与摘要型基线(MEM1、MemAgent、Memory-R1 等)相比,Memex(RL) 在任务成功率上有显著提升,同时工作上下文窗口使用量更小(约缩减 40-60% 的有效上下文长度)。
具体而言,在需要精确历史证据回溯的子任务类型上,Memex 相比有损摘要基线的任务成功率提升约 15 个百分点;在不需要回溯(局部推理为主)的任务上,性能与摘要方法接近,说明 Memex 的优势集中在需要"精确回忆"而非"大致记得"的场景。上下文预算实验显示,在相同上下文预算约束下,Memex(RL) 的性能随任务长度的衰减速度显著低于截断和摘要基线,验证了可扩展性。