Kernel-Smith: 用于进化内核优化的统一配方
Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
作者: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Yicheng Chen, Bowen Li, Qipeng Guo, Kai Chen 等
机构: 上海人工智能实验室 (Shanghai AI Laboratory), 沐曦 (MetaX), 复旦大学 (Fudan University)
📄 查看 ArXiv 原文
1. 研究背景与痛点
高性能GPU内核(Kernel)的生成对于发掘现代加速器的硬件潜力至关重要。无论是大型语言模型的训练/推理系统(如Megatron、vLLM、SGLang、LMDeploy),还是AI for Science (AI4S) 中的科学计算工作负载,都高度依赖细致的内核优化(Kernel Optimization)来实现极致的吞吐量。
尽管现代LLM在通用编程能力上取得了长足进步,但生成高性能的底层硬件内核远未被真正解决 。将其从实验室的单次生成(One-shot code generation)推向生产环境面临两大核心痛点:
优化空间的极度非凸与评估方差(Profiling Noise): 高效的内核通常需要在大规模实现空间中进行搜索(如融合模式、分块策略、重写方向)。现有的Agent通常依赖单线的多轮对话微调(Multi-turn refinement),这种方式容易陷入早期的错误决策,限制探索多样性。并且,真实的硬件评估充满噪声,方差过大会导致Agent保留次优解或丢弃真正有潜力的方案。
正确性不等于高性能: 许多模型能够生成通过编译和数值一致性检查的代码,但在实际性能上提升甚微,甚至出现了“懒惰优化(Lazy optimization)”或“作弊(Hacking)”现象。因此,如何持续且稳定地获得真实的加速(Speedup)反馈以优化模型,成为了关键瓶颈。
2. 核心贡献
为了解决上述痛点,本文提出了 Kernel-Smith ,这是一个统一的、用于生成高性能GPU内核的框架,它将稳定的评估驱动进化Agent与面向进化的后训练(Post-training)配方紧密结合。
提出稳定的进化Agent框架(Evaluation-Driven Evolutionary Agent): 不再使用单轨迹对话,而是维护一个候选内核的种群(Population)。构建了特定后端的(针对Nvidia GPU的Triton,以及针对MetaX GPU的MACA)高可靠评估服务,使用结构化的反馈(编译、正确性、加速比)驱动多轮迭代进化。
提出面向进化的训练配方(Evolution-Oriented Training Recipe): 将多轮优化的长轨迹压缩为基于步骤(Step-centric)的训练信号。在SFT和RL阶段,模型不再试图模仿所有中间轨迹,而是学习那些保持正确性且高增益(High-gain) 的原子级代码修订,使模型在进化循环中扮演强大的“局部改进器(Local Improver)”。
树立开源性能新标杆并成功落地生产引擎: 借助这套框架,模型Kernel-Smith-235B-RL在KernelBench评估上不仅击败了现有的开源SOTA模型,更全面超越了顶尖的闭源模型 Gemini-3.0-pro 和 Claude-4.6-opus,斩获最高的平均加速比(Average Speedup Ratio)。此外,基于该工作流优化的代码已实际作为PR合并至SGLang、LMDeploy以及DeepSeek Engram等真实生产基准中。
3. 具体案例剖析 (Case Study)
内核生成的最终目的是在真实的推理框架中应用。Kernel-Smith成功实现了由自动化Agent挖掘优化机会,并将生产级代码合并到流行推理系统中的完整工作流:
案例一:SGLang 的元数据解码优化
在SGLang推理引擎中,Kernel-Smith识别并针对 `normal_decode_set_metadata` 构建了一个融合的Triton内核。该内核涵盖了专为 `page_size=1` 设计的快速路径以及更通用的滑动窗口注意力支持路径。在NVIDIA H200基准测试中,该融合算子取得了 4.78× 的隔离加速 。更关键的是,这一PR已经合入上游代码,并在端到端的Llama-3-8B推理服务延迟测试中展现出约0.5%~1.7%的整体系统级性能提升。
案例二:LMDeploy (DeepSeek MoE 路由融合)
面对极其复杂的大模型推理场景,Kernel-Smith为 LMDeploy 优化了 DeepSeek-v3.2 MoE层的前向路由模块。通过将 Sigmoid 激活、偏置加法、Reshape、Top-k选择以及掩码操作全部融合进单一Triton内核中,隔离算子取得了 1.36× 加速 。在实际端到端推理测试(H200,TP=8)中,吞吐量稳步提升了约 1.85% 至 3.00% ,代码同样已合并至主干库。
案例三:DeepSeek Engram 模块优化
不同于上述经过打磨的框架,该案例选取了DeepSeek刚刚开源的前沿算法(条件显存架构中的 Engram 模块)。Kernel-Smith用专门的Triton融合内核替换了原有的Python侧控制流和冗余访存,将门控、RMS norm、深度卷积合并。通过半精度缓存和消除分发开销,该实现获得了惊人的 14.59× 算子加速比 ,并合入 DLBlas 中。这证明了该系统能在新发布的未经深度优化的研究代码中快速挖掘并兑现潜力。
4. 方法论与技术实现
4.1 评估驱动的进化 Agent 框架 (AlphaEvolve)
传统的单线对话范式存在严重的早期锚定效应。Kernel-Smith借鉴岛屿进化算法和MAP-Elites的思想,维护了一个“种群-存档(Archive)”结构。在每轮迭代中,模型被输入PyTorch参考代码以及从存档中采样的表现最好或多样性最高的历史实现,并以此生成新的内核变体。每次评估返回结构化的精细反馈,包括错误日志、硬件信息和真实加速比,这为LLM提供显式的执行证据,而非纯文本维度的对话反思。
4.2 鲁棒的评估沙盒后端
为了给强化学习(RL)提供可信奖励,防止因评测抖动导致的“奖励黑客(Reward Hacking)”,评估后端做了以下处理:
极致降噪: 在GPU执行中,启动开销往往远大于执行时间。系统采用了预热执行(Warm-up)、多次测量排异常值、以及强制使用CUDAGraph锁定图计算等方式,将执行时间的波动严格控制在 1%以内 。
防作弊检测(Hacking Detection): 很多大模型会学会调用PyTorch的原生库来蒙混过关以达成“正确且加速约1x”的状态。后端实施了严格的拦截机制以及对“懒惰优化(仅作微小语法转换无任何加速意义)”的惩罚。
4.3 面向进化的训练配方 (SFT & GRPO RL)
在获取训练数据时,系统先抓取了GitHub野生环境中的59k高质量 PyTorch Module,利用冷启动模型跑出多轮进化轨迹。随后使用聚类(HDBSCAN)提取专家数据以保证多样性。针对模型训练,作者揭示了一个关键点:不能盲目利用整条轨迹进行强化学习。
信息穿越与捷径: 如果把演化中的所有中间步骤打包训练,模型极易产生信息泄露(Information leakage),即直接“抄袭”Prompt中的高质量参考代码,而不去学习真正的优化逻辑。
第一步过于简单: 从PyTorch直译为Triton(第一步)任务太简单,提供不了足够有梯度的奖励信号。
最佳步骤强化(Best Evolution Steps): Kernel-Smith在RL(使用GRPO算法)阶段,只挑选那些基于已经有了一定加速比的父代码进行修改,且能获取“显著增量加速比”的步骤作为训练数据。以该步骤子代相对于父代的加速倍数作为奖励(Reward)。这种轨迹压缩 训练策略使模型学会真正的深度优化能力(如:Block_Size/Warp调节、利用TMA、SplitK分块等)。
5. 实验设置与结论分析
所有评估均在控制变量的统一Kernel-Smith Agent框架内进行,给予每个模型40轮进化机会,杜绝了系统级差异。核心关注三个指标:正确率(Corr)、初次通过率(Fast₁)、以及平均加速比 (Avg AMSR) 。Avg AMSR计算方法为所有算子加速比均值(如果加速比<1 则计为0)。
5.1 NVIDIA Triton 后端评估 (KernelBench)
在KernelBench的测试中,尽管Claude-4.6-opus在正确率(99.33%)和Fast₁上达到顶峰,但 Kernel-Smith-235B-RL 在核心指标 Avg AMSR 上以 3.70 分取得了跨所有难度层级的绝对统治地位(SOTA) 。特别是在中等难度(Level 2)中,其 Avg AMSR 高达 7.77,远超 Claude-4.6-opus 的 5.83。即使在困难(Level 3)算子上,正确率也达到了惊人的94%,大幅领先Gemini-3.0-pro的88%及所有开源大模型。
5.2 跨平台适应性:MetaX MACA 后端
为了证明评估-演化框架具备脱离特定硬件架构的普适性,团队进一步在国产芯片 MetaX MACA 后端测试了Kernel生成。针对CUDA到MACA的迁移任务,Kernel-Smith-MACA-30B 即达到了 13.27 的平均加速比,远超包含 Qwen3-235B 和 DeepSeek-v3.2 的庞然大物。而 235B 版本进一步推高至 14.26。
6. 关键技术亮点分析
从“生成范式”向“搜索优化范式”的思维转换: 论文清晰地论证了高质量Kernel生成本质上是一个“不可导且高度非凸的组合优化问题”。因此,试图用“One-shot推理”来解决是不切实际的。引入群体演化(Evolutionary Algorithm)极大地扩展了LLM探索解空间的能力,使得测试期计算(Test-time Compute)得以有效转化为真实性能。
高质量对齐信号的获取工程: 在AI的System代码领域,由于长尾效应,往往缺乏人工优化的偏好数据。本文通过“极低方差的评测系统 + 约束防作弊机制”构建了完全客观的RLVR(Reinforcement Learning from Verifiable Rewards)信号,这比人类标注更廉价且更精准。
轨迹压缩下的强化学习(Trajectory Compression): 将多回合RL抽象剥离为单步增量优化(Best Evolution Steps),巧妙地避开了长序列RL中固有的优势估计偏差、信用分配困难以及上下文爆炸问题。通过让模型持续在一个拥有强Base的上下文下继续压榨性能,极大拉高了模型进行硬核底层优化的能力上限。
Heddle: A Distributed Orchestration System for Agentic RL Rollout
Heddle: 面向Agentic RL Rollout的分布式编排系统
作者: Zili Zhang, Yinmin Zhong, Chengxu Yang, Chao Jin, Bingyang Wu, Xinming Wei, Yuliang Liu, Xin Jin
机构: Peking University, Independent Researcher
📄 查看 ArXiv 原文
研究背景与核心痛点
随着大模型从静态推理向自主智能体(Autonomous Agents)演进,基于强化学习的 Agentic RL(如 PPO, GRPO)成为解锁复杂任务(如编码、搜索、数学推理)的关键范式。典型的代表包括 Claude Code 和 DeepSeek-R1。在 Agentic RL 的训练 pipeline 中,**数据收集阶段(Rollout)**占据了超过 80% 的时间,是绝对的系统瓶颈。
Agentic Rollout 的核心特征是**模型推理与外部工具调用的多步交替(Multi-step Trajectories)**。这种交互会导致极其严重的**长尾分布(Straggler Effect)**:绝大多数轨迹很短,但极少数极其复杂的轨迹会显著拖慢整个全局 Batch 的 makespan,导致集群大量计算资源闲置等待。
现有的开源框架(如 Verl, SGLang, Slime)采用的是 Step-centric(以单步为中心) 的架构,将 Agent 轨迹的每一步视为独立的 LLM 推理请求。这种割裂上下文的视角引发了三个致命问题:
排队延迟(Queueing Delay): 默认的轮询(Round-Robin)调度让多步长尾轨迹在每次工具调用结束后,都要重新排到队尾,累积巨量排队时间。
并发干扰(Interference Overhead): 现有的负载均衡或 Cache 亲和性路由,容易将极少数长尾请求与大量短请求混合放置。大 Batch Size 的竞争使得长尾轨迹的单 Token 耗时(per-token time)急剧膨胀。
资源错配(Inflated Per-token Time): 现有集群采用同构 GPU 并行配置。实际上,海量短轨迹是吞吐敏感型(需要低 MP 并行度),而长尾轨迹是延迟敏感型(需要高 MP 并行度以加速单 Token 生成)。同构配置无法兼顾两者。
核心贡献
本文提出 HEDDLE ,这是首个采用 Trajectory-centric(以轨迹为中心) 设计的分布式 Agentic RL 编排系统。它将系统目标公式化为最小化最长轨迹的 makespan,并从计算任务的 When、Where、How 三个维度进行深度解耦优化:
Trajectory-level Scheduling (When): 提出渐进式优先级调度(Progressive Priority Scheduling)。通过在运行时动态预测轨迹长度,赋予长尾轨迹绝对的高优先级和抢占权,几乎彻底消除其排队延迟。
Trajectory-aware Placement (Where): 提出两阶段路由放置策略。初始采用预排序的动态规划(Presorted DP)将长尾轨迹隔离到专属 Worker 以减少并发干扰;运行时利用工具调用的空闲时间,执行无感知的异步 KV Cache 迁移(Opportunistic Migration)以修正负载倾斜。
Trajectory-adaptive Resource Manager (How): 打破同构集群限制,基于轨迹长度自适应分配异构 GPU 资源(Model Parallelism 维度)。长轨迹分配高 MP 降延迟,短轨迹分配低 MP 保吞吐,并通过模拟退火算法进行全局资源寻优。
具体案例剖析 (Case Study)
考虑一个 Coding Agent 任务(如基于 CodeForces 数据集)。在强化学习(如 GRPO)中,对同一个代码编写 Prompt,模型会通过高 Temperature 采样生成多个不同的解答轨迹(Trajectories,例如 $\tau_1$ 和 $\tau_2$)。
动态不确定性导致的严重长尾:
短轨迹 $\tau_1$: Agent 生成了正确的代码,调用沙盒工具执行测试用例,一次性 Pass,轨迹立刻终止(耗时极短)。
长尾轨迹 $\tau_2$: Agent 生成的代码在测试用例 3 报错。Agent 接收到 Error Trace 作为上下文,需要重新推理、修改代码、再次调用测试工具 。如果反复 Debug 多次才通过或达到最大步数,$\tau_2$ 的长度将是 $\tau_1$ 的数十倍甚至上百倍。
现有框架的灾难: 在传统的 Step-centric 框架(如 Verl)下,$\tau_2$ 每次从测试工具(Tool Execution)返回,系统都将其视为一个“全新的普通请求”放在等候队列末尾。如果它需要交互 10 次,就要被强制插队排队 10 次;而且可能被分配到负载了大量 $\tau_1$ 的节点上,被拥挤的显存和计算单元卡住。HEDDLE 的设计理念正是为了在第一次错误返回时,立刻识别出 $\tau_2$ 的长尾潜质,将其拉升至最高调度优先级,并单独分配高并行度计算资源为其“开绿灯”。
方法论与技术实现
⚙️ 方法论与技术实现
论文采用了最近因 DeepSeek R1 而名声大噪的 GRPO (Group Relative Policy Optimization) 作为底座强化学习算法。传统的 RL(如 PPO)容易出现模式崩塌,而 GRPO 约束组内采样的相对优势评估,十分契合 RTL“同一种功能有多种等效结构解”的特性。
1. 三阶段混合训练流水线 (Three-stage Training Pipeline)
为了对抗数据稀缺,作者设计了极为精细的训练阶段划分:
Stage 1 (SFT Warm-up):“学习什么是 HDL” 。利用 5167 个通过综合检查的代码-描述对进行单输入单输出的监督微调。这让模型掌握基本的 Verilog 语法框架,防止后续 RL 阶段盲目探索无效空间。
Stage 2 (GRPO-based Diversity Learning):“学习生成多样的 HDL” 。本阶段利用 3570 个无 Testbench 的描述进行强化学习。由于无法验证逻辑正确性,该阶段着重通过语法奖励(Syntax Reward) 和基于AST的多样性奖励(Diversity Reward) ,使用 GRPO 采样(例如 Group Size = 4)鼓励模型发散思维,拓宽方案空间。
Stage 3 (GRPO-based Correctness & Diversity):“既正确又多样” 。在这个黄金阶段,模型使用极其宝贵的 829 个附带真实 Testbench 的数据集进行冲刺训练。结合 VCS 仿真引擎,对输出提供硬核的功能验证奖励。
2. 多目标奖励调度机制
总奖励函数定义为四个维度的加权:
$$R_{total} = R_{syn} + R_{func} + R_{div} + R_{cont}$$
语法奖励 ($R_{syn}$): 利用 Pyverilog 检测代码是否符合基本语法,若包含任意合法 RTL 则为 1。
功能奖励 ($R_{func}$): 调用 VCS 跑测试台,通过 Testbench 仿真即可拿分。
多样性奖励 ($R_{div}$): 定义为 $R_{div} = N_c + N_s$。其中 $N_c$ 和 $N_s$ 分别代表能通过“语法树查重”(AST-based Structural Analysis)且跑通语法校验/功能校验的异构(Heterogeneous) 代码数量。
上下文/推理格式奖励 ($R_{cont}$): 为了避免模型陷入死循环或输出过短无法进行有效 CoT,引入了满意度指示器和长度惩罚机制,约束模型生成合理长度的 <think> 标签内容。
3. GRPO 核心策略更新
对于输入问题 $q$,GRPO 采样一组回复,并基于这组内的相对 Advantage 计算优化目标,同时引入 KL 散度约束防止偏离原策略过远:
$$ \mathcal{J}_{GRPO}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^{G} \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} \hat{A}_i, \text{clip}(...)\hat{A}_i \right) - \beta \mathbb{D}_{KL} \right) \right] $$
📊 实验设置与结论分析
基座模型与硬件: 采用 Qwen 2.5-7B-Instruct-1M 。使用 8 张 NVIDIA A100 GPU 通过 LoRA 进行高效微调(Rank=4,$\alpha$=8)。
评估指标: 论文提出了一个更切合 TTS(Test-Time Scaling)时代的指标 OPMO_pass@k (One-Prompt-Multi-Output pass@k),即给出一个 prompt 要求模型同时生成 $k$ 个变体设计,只要其中存在一个完全正确的功能模块就算 pass。
核心实验数据:
在开源 Benchmark RTLLM v1.1 上,RTLSeek 的 Fun.OPMO_pass@5(功能成功率)达到了惊人的 0.86 (86%) 。
相比之下,同等 prompt 测试下,原生的 Qwen 2.5-7B 仅为 0.50,GPT-4o 仅为 0.71 ,即便是拥有 671B 庞大参数量的推理模型 DeepSeek-R1 也只有 0.83 。RTLSeek 以极小的模型规模完成了对顶级商业大模型的逆袭。
消融实验揭示的真相:
去除多样性奖励(w/o DR),整体通过率从 40% 直接掉到 35%,且针对部分极度困难的用例,无多样性奖励的模型成功率为 0,而加入 DR 后可以达到 13.1%。这证明了“迫使模型探索多样化方案”能够有效解锁之前无法解决的难题。
如果去掉 Stage 3(有Testbench的仿真反馈),性能会断崖式暴跌至 15%,进一步印证了强逻辑代码生成极其依赖真实世界 EDA 环境提供的 Hard Feedback。
🌟 关键技术亮点分析 (资深从业者视角)
从大语言模型落地 EDA 和代码生成的角度来看,RTLSeek 在方法论上有极具启发性的创新:
在 Train-Time 利用 Compute,突破了领域数据天花板: RTL 最大的痛点就是“高质量带测试集代码”比金子还贵。与其死磕合成更多监督数据,RTLSeek 把策略转为用算力换数据(Compute over Data) 。通过 GRPO 多次采样加上自研的自动化多维判分系统(语法 + AST差异 + 模拟器),硬生生在极其贫瘠的数据基础上让模型自己把解空间“踩透”了。
利用 AST 破解了强化学习中的“Reward Hacking”: 在做 RLHF / RLAIF 时,只要给“多样性”打分,聪明的 LLM 一定会投机取巧,比如仅做改名、换行、或者塞无用逻辑。这篇工作最巧妙的工程实现是将硬件描述语言转换为抽象语法树(AST)去比对结构拓扑,逼迫 LLM 必须从架构(Architecture)层面进行实质创新(如用结构建模替换行为建模),这是真正 Domain-Specific 的巧思。
揭示了 RTL 设计本身就是强化学习绝佳的 Testbed: 数字逻辑设计有着极强的确定性验证标准(通过 VCS 等工具),同时又是一个高度多解的连续设计空间(PPA Trade-off)。将类似 DeepSeek-R1 的逻辑推理训练手法迁移至 EDA 领域,RTLSeek 证明了这种范式的泛化威力。
DSevolve: Enabling Real-Time Adaptive Scheduling on Dynamic Shop Floor with LLM-Evolved Heuristic Portfolios
中文标题: DSevolve:利用LLM演化的启发式组合实现动态车间的实时自适应调度
作者: Jin Huang, Jie Yang, XinLei Zhou, Qihao Liu, Liang GAO, Xinyu Li
机构: 华中科技大学机械科学与工程学院
📄 查看 ArXiv 原文
研究背景与痛点
在现代制造业中,动态柔性作业车间调度(Dynamic Flexible Job Shop Scheduling Problem, DFJSSP)是一项核心挑战。车间经常面临机器故障、紧急插单等随机扰动,要求调度系统在秒级 时间内做出响应,以维持高吞吐量和按时交付率。
当前的调度方法存在显著瓶颈:
传统启发式规则 (HDRs) 和遗传编程 (GP): HDRs(如最短处理时间SPT)响应极快但规则固定,难以适应动态扰动;GP演化出的规则受到预定义终端词汇的表达力限制。
深度强化学习 (DRL): 端到端策略(如基于GNN的方法)在面临未见过的调度规模时泛化能力差(Transferability),且缺乏可解释性,难以在真实工业生产线上部署。
基于大语言模型的自动启发式设计 (LLM-AHD): 最近如 FunSearch、EoH、ReEvo 等框架证明了 LLM 能够演化出超越人类设计的启发式算法。但在动态调度场景中面临两大痛点:1)模式坍塌(Mode Collapse) :现有AHD框架往往收敛于单一的最优规则,无法应对不断变化的生产状态;2)推理延迟高 :LLM驱动的演化计算成本极高,无法满足工业现场秒级响应的实时调度需求。
核心贡献
本文提出了 DSevolve (Dynamic Scheduling Evolve) 框架,将高质量多样性的启发式演化(离线)与基于探针的实时检索(在线)解耦。核心贡献包括:
多重人设播种 (Multi-Persona Seeding): 设计了7种正交的调度哲学Prompt(如极致贪婪、负载均衡器、全局规划师等),确保初始种群在行为特征空间中具备广泛的覆盖率。
拓扑感知的演化算子 (Topology-Aware Evolutionary Operators): 引入了三维行为特征空间(MAP-Elites思想),并设计了距离最大化交叉(Distance-Maximization Crossover)和拥挤对比变异(Crowding-Contrastive Mutation),通过将种群推向未探索区域来防止过早收敛。
基于探针的实例指纹提取 (Probe-Based Instance Fingerprinting): 在在线调度阶段,利用轻量级的SPT探针进行快速虚拟仿真,提取6维实例指纹(Fingerprint),实现对离线知识库中最佳HDR的秒级检索和部署。
具体案例剖析 (Case Study)
假设某柔性作业车间正在运行,突然发生动态扰动:机器6发生故障,预计50分钟后修复,同时有一批新订单到达。 DSevolve 的处理流程如下:
步骤1(状态快照捕获): 系统立刻清空当前机器缓存,将未完成的操作退回调度池,并捕获当前车间状态 $S_t$。计算两项瞬时状态特征:负载密度($f_{\text{den}}$)和平均灵活性($f_{\text{aflex}}$)。
步骤2(探针仿真评估): 系统在后台毫秒级运行一个SPT(最短处理时间)虚拟探针,将剩余任务快速排程到底。从这个模拟结果中,提取出4项探针衍生特征:负载偏度($f_{\text{skew}}^p$)、关键路径主导度($f_{\text{cpd}}$)、灵活性饱和度($f_{\text{flex}}$)和等待率($f_{\text{wait}}^p$)。
步骤3(知识库检索): 上述两步组合成一个6维特征向量(指纹 $\mathbf{f}$)。系统利用方差加权的欧氏距离,在离线演化好的特征空间知识库中,快速匹配出 Top-5 个最相似的历史调度场景。
步骤4(前瞻模拟与部署): 提取这5个历史场景对应的最佳调度规则库(共计约20个候选规则),在 $S_t$ 上进行快速前瞻模拟(Look-ahead simulation)。选出能产生最小Makespan(最大完工时间)的规则进行接管,直接分发新任务,整个过程控制在秒级以内。
方法论与技术实现
DSevolve 框架主要由三大模块构成:
1. 行为特征空间构建 (Behavioral Feature Space)
为了量化 LLM 生成的 HDR 的表型行为,定义了一个三维描述符映射 $\Phi: \mathcal{C} \rightarrow \mathbb{R}^3$:
$$\mathbf{v}_c = \Phi(c) = [f_{\text{skew}}, f_{\text{wait}}, f_{\text{div}}]^\top$$
其中,$f_{\text{skew}}$ 衡量各机器负载的偏度(资源均衡性),$f_{\text{wait}}$ 捕获作业的平均等待比例(流程效率),$f_{\text{div}}$ 量化该规则相对于现有存档种群的行为新颖性(多样性)。此 3D 空间用于 MAP-Elites 的网格化存档索引。
2. 拓扑感知的多样性演化 (Topology-Aware Diversity Evolution)
不仅关注目标函数的优劣,更关注个体在特征空间 $\mathcal{F}$ 中的拓扑结构:
距离最大化交叉: 选择一个顶尖精英父代 $p_a$,它的配偶 $p_b$ 被选择为特征空间中距离它最远的个体:
$$p_b = \arg\max_p \|\Phi(p) - \Phi(p_a)\|_2$$
然后提示 LLM 将两者代码优势结合,鼓励后代继承互补的调度特性。
拥挤对比变异 (Contrastive Mutation): 识别出特征空间中最拥挤的个体(计算孤立度指数),通过特殊的 Contrastive Prompt 要求 LLM 生成具有相反特征 的变体(例如:反转启发式偏好、调整前瞻深度),向外扩展探索边界。
3. 基于探针的快速调度 (Probe-Based Rapid Scheduling)
将演化好的多样性规则库(Archive $\mathcal{A}$)应用于在线环境。定义探针指纹 $\mathbf{f} \in \mathbb{R}^6$。离线阶段,针对多尺度静态实例构建知识库 $KB = \{(\mathbf{f}_i, \mathcal{R}_i^*)\}_{i=1}^N$。在线调度时,计算当前状态的归一化指纹 $\hat{\mathbf{f}}_{\text{curr}}$,通过加权欧式距离检索:
$$d(i) = \|\mathbf{w} \odot (\hat{\mathbf{f}}_{\text{curr}} - \hat{\mathbf{f}}_i)\|_2$$
(其中 $w_j \propto \text{Var}(f_j)$,方差大的特征给予更高权重)。最后提取候选规则执行极速验证,选取使得 Makespan 最短的规则进行在线分派:
$$r^* = \arg\min_{r \in \mathcal{C}} \text{Makespan}(\text{Sim}(S_t, r))$$
实验设置与结论分析
实验设置:
数据集:基于真实工业数据衍生出的 500 个动态 FJSP 实例(包含机器故障和新订单插入),划分为 Easy (S1), Medium (S2), Hard (S3) 三种难度。
基线方法:最新 LLM-AHD 框架 (EoH, ReEvo, HSEvo)、经典规则 (SPT, LPT 等)、遗传编程 (GP)、强化学习 (DRL)。基于 Qwen-Plus, DeepSeek-V3, GPT-4o-mini 进行评估。
核心结论:
全面超越 SOTA: DSevolve 在所有难度级别上一致取得了最低的完工时间。在 Hard 场景下,相较于最强 AHD 基线 EoH,DSevolve 将平均 Makespan 降低了 33.2,展示出显著的鲁棒性。同样大幅度优于基于深度神经网络的 DRL 和传统的 GP。
探针检索的普适性: 剥离实验证明,将 DSevolve 的基于探针(SPT Probe)的特征检索模块直接拔插给其他框架(EoH / HSEvo / ReEvo),同样能使它们的表现获得显著提升。相比简单的全局 "Top 20" 或 "Random" 选择机制,平均优化了 41.6 个单位。
多样性维持有效: 引入 Multi-Persona 和 MAP-Elites 特征空间后,DSevolve 生成的有效规则在特征网格中的占据率(Occupied Cells)达到了 68.5/1000,远超 EoH (47.3) 和 HSEvo (31.7),证明其真正缓解了模式坍塌。
关键技术亮点分析
从大语言模型工程师的视角来看,本文的核心巧思在于对 “生成成本与部署延迟” 以及 “LLM 坍塌趋同” 两个痛点进行了优雅的降维打击:
范式转移(Offline Diversity + Online Retrieval): 没有强行让 LLM 参与在线推理,而是将其作为一个“超级编译器”,在离线阶段充分榨取 LLM 的代码生成与逻辑演绎能力,生成一个“弹药库(Quality-Diverse Archive)”。这完美规避了 LLM 毫秒级在线调度的延迟硬伤。
MAP-Elites 思想在 Prompt 层的渗透: 大多数基于代码演化的论文仍然遵循单维度的“标量奖励”优化(即寻找最高分的代码)。本文创造性地将传统遗传算法中的 MAP-Elites(多维精英保留机制)结合到了 LLM 演化链路中,并通过 Contrastive Prompting 实现了“定向反骨”(明确要求 LLM 往偏度不同、拥挤度低的方向生成代码),极大地提升了多样性。
轻量级探针(Probe)设计: 工业调度状态很难被完美向量化。作者摒弃了复杂的图神经网络(GNN)表征,转而采用极简的 SPT(最短时间)规则先行模拟“探底”,用模拟结果的偏度/饱和度作为环境的 Embedding(指纹)。这种基于先验逻辑提取特征的方法具有极高的可解释性和运行效率,对工业部署极度友好。
PeopleSearchBench: A Multi-Dimensional Benchmark for Evaluating AI-Powered People Search Platforms
PeopleSearchBench:用于评估AI驱动的人物搜索平台的多维基准测试
作者: Wei Wang, Tianyu Shi, Shuai Zhang, Boyang Xia, Zequn Xie, 等
机构: LessieAI Research Team
📄 查看 ArXiv 原文
🔍 研究背景与核心痛点
在招聘、B2B销售拓客、KOL/网红发现等真实商业场景中,“找人”(People Search)是一个极为高频且高价值的Workflow。随着Agentic AI的发展,越来越多的AI平台开始自动化这一过程。然而,目前业界缺乏一个标准化、多维度的基准测试来评估这些AI找人系统的真实表现。传统的评估方法在这一领域遭遇了严重的瓶颈:
传统信息检索(IR)基准失效: 如TREC、BEIR等基准主要针对文档或段落级检索(Document-level Retrieval)。而人物搜索的结果是真实的个体 ,具有多个可独立验证的属性(职位、公司、地点、技能等),无法被简化为单一的主题匹配判断。
标准 LLM-as-Judge 的局限性: 传统的LLM裁判通常依赖其参数化知识(Parametric Knowledge) 给出主观的整体评分(0-10分)。但人的状态是动态变化的(如跳槽、搬家),LLM内部的知识极易过时或产生幻觉(Hallucination),导致评分的主观偏见大、不可重复性高。
评估维度的单一性: 现有的Agent基准多关注二元任务是否成功(Task Completion)。但在真实找人场景中,不仅要看“是否找到了对的人”(Precision),还要看“找得够不够多”(Coverage),以及“提供的联系资料是否直接可转化为Action”(Utility)。
💡 核心贡献
构建了首个全面的人物搜索Benchmark(PeopleSearchBench): 包含119个真实世界的高难度Query,涵盖4种语言(英、葡、西、荷),分为4大核心商业场景:招聘(Recruiting)、B2B拓客、确定性专家搜索(Deterministic Expert Search)、网红/KOL发现。
提出了基于标准拆解的事实核查流水线(Criteria-Grounded Verification, CGV): 摒弃了玄学的LLM整体打分,而是利用大模型将Query拆解为独立的、可通过外部Web搜索(Tavily API)进行二元事实核查的条件(Criteria),将评估转化为客观的原子级事实校验。
设计了三维度的综合评估指标体系: 包含相关性精确度(Padded nDCG@10)、有效覆盖率(Effective Coverage)和信息实用性(Information Utility),并通过等权平均得出总分,全面衡量AI搜索Agent的工业级可用性。
🛠️ 具体案例剖析 (Case Studies)
论文在附录中提供了非常典型的Bad Case,精准反映了单源数据库与多源AI Agent在复杂多条件约束下的表现差异:
案例 1:长尾/利基网红发现 (Niche Influencer Discovery)
Query: "Find influencers on Instagram with 'slot' in their username and also in their regular name, they must be from Brazil, have at least 300 to 50k followers, and promote casinos."
(在Instagram上寻找用户名和真实姓名中包含“slot”的网红,必须来自巴西,粉丝在300到5万之间,并且推广赌场。)
各平台表现:
❌ Exa (结构化搜索API): 匹配了“巴西”+“赌场”,但未能遵守平台约束,返回了LinkedIn上的博彩行业从业者,而非Instagram网红。
❌ Juicebox (专业招聘数据库): 返回了根本没有Instagram账号的视频剪辑师。由于其底层依赖传统职业简历库,面对社交媒体特定查询时直接“抓瞎”。
✅ Lessie (多源AI搜索Agent): 成功识别出符合命名规则的Instagram账号(如 carol.martins_slots),并核实了地理位置和粉丝数量约束。P@10达到 1.00。
案例 2:跨领域专家搜索 (Cross-Domain Expert Finding)
Query: "Find people who have both a strong academic publication record in NLP and also hold senior engineering positions at tech companies. I want the rare academics-turned-practitioners."
(寻找既在NLP领域有强大论文发表记录,又在科技公司担任高级工程职位的罕见“学者转型实战派”。)
分析: 这类Query极度考验Agent的跨库信息融合能力。
❌ Exa: 返回了大量大学教授(仅满足学术条件),在过滤“目前受雇于科技公司”这一条件时失败。
⚠️ Juicebox: 返回了部分强相关候选人,但混入了在读PhD学生(不满足“高级工程职位”)。
✅ Lessie: 准确找出了如“在Amazon任Principal并在ACL/EMNLP发文”或“前OpenAI研究副总裁”等精准目标,所有条件均得到外部证据交叉验证。
⚙️ 方法论与技术实现
图注:PeopleSearchBench 评估流水线总览。系统首先将各平台的输出对齐到统一的Schema,随后通过LLM从Query中提取硬性标准(Criteria),再调用Web Search逐人、逐条标准进行严格的事实核验( met / partially_met / not_met ),最后计算出三维度的最终得分。
论文摒弃了直接让LLM进行黑盒打分,而是设计了Criteria-Grounded Verification (基于标准的接实验证) 三阶段流水线:
Stage 1: Criteria Extraction (标准提取)
使用LLM(默认使用Gemini 3 Flash)将非结构化Query解析为 $N$ 个具体的可验证标准(例如:角色、雇主、地点)。
Stage 2: Per-Person Verification (逐人验证)
对于返回的每一个候选人 $p_i$,Agent通过 Tavily Search API 实时检索网页证据。对每一个提取出的标准 $c_j$ 给出离散评分:满足(1.0),部分满足(0.5),不满足(0.0)。个人的相关性得分计算为:
$$rel(p_i) = \frac{1}{N} \sum_{j=1}^N \text{score}(c_j, p_i)$$
Stage 3: 三大核心评估指标计算
Relevance Precision (填充nDCG@10): 传统的nDCG会按“系统返回的最优排序”做归一化,这会导致“只返回1个完美结果”的系统比“返回10个高度相关结果”的系统得分更高。为此,作者引入了 Padded Ideal DCG (IDCG) ,强制假设理想情况是必须返回 $K=10$ 个完美候选人。
$$DCG@K = \sum_{i=1}^K \frac{rel(p_i)}{\log_2(i+1)}$$
$$IDCG@K = \sum_{i=1}^{10} \frac{1.0}{\log_2(i+1)}$$
$$\text{Relevance Precision} = \frac{1}{|Q|} \sum_{q \in Q} \frac{DCG@10(q)}{IDCG@10} \times 100$$
Effective Coverage (有效覆盖率): 综合考量任务成功率(至少找到1个合格候选人)和平均合格结果产出量(最高算到K)。
Information Utility (信息实用性): 从简历完整性、是否有匹配证据(Query-Specific Evidence)、以及是否具有可行动性(如是否提供联系方式)三个子维度,取均值计算实用性分数。
📊 实验设置与结论分析
基准测试评估了四种代表不同架构方向的平台:Lessie (专用多源AI搜索Agent)、Exa (结构化实体检索API)、Juicebox (拥有8亿+数据的专业AI招聘平台)、Claude Code (基于Claude 3.5 Sonnet的通用型AI代码/任务Agent)。
整体胜出: Lessie 取得了 65.2 的最高总分(领先第二名Exa 18.5%),也是唯一一个在全部119个Query中保持 100% 任务完成率(Task Completion)的系统。
领域架构的优劣势:
Juicebox 在其主场“招聘(Recruiting)”场景中表现强劲,覆盖率和实用性名列前茅。但一旦跳出职场语境进入网红挖掘(KOL),其准确率断崖式下跌至 26.6。
Claude Code 作为通用大模型加持的搜索Agent,在“确定性专家搜索(如寻找某公司特定创始人)”表现不错(精确度 69.6),但它生成的Markdown报告极度缺乏结构化联系信息和可行动性,导致 Information Utility 得分垫底。
成本与延迟基准(非常接地气): 作者甚至给出了评测成本:跑完全部119个Query四家平台的验证费用约为 $150(主要是Tavily API费用占比最高),单次Query评测延迟在 1-2 分钟。
人类对齐验证: 抽样200对候选人-Query进行双盲人工标注,LLM裁判与人类共识的 Cohen’s $\kappa$ 达到 0.84,证明该评估流水线高度可靠且无偏见。
🌟 关键技术亮点分析 (For LLM Practitioners)
Tool-Augmented Evaluation 的极佳范式: 传统 RAG/Agent 评估中,我们往往被困在“大模型做裁判到底准不准”的泥沼里。本文提供了一条明路:把“打分”降维成“事实核查”,并赋予裁判联网能力(Live Web Search) 。这剥离了LLM对自身旧权重的依赖,将其职责纯化为“阅读理解+逻辑比对”,大幅降低了评测方差。
多源数据融合 (Multi-Source Data Fusion) 是破局点: 实验证明,依赖单一结构化数据库(如仅仅爬取LinkedIn)的系统泛化能力极弱。Lessie 的成功在于它能跨社交平台、学术库、工商注册信息进行联合检索。对于做 B2B Agent 或 Talent Sourcing Agent 的团队来说,建立多数据源联邦(Federation)和实体消歧(Entity Disambiguation)机制是构建壁垒的关键。
评测指标设计的反内卷: Padded nDCG 的设计非常巧妙。在生成式搜索中,模型很容易通过“拒答”或“只给最保险的1-2个结果”来骗取极高的 Precision。强制设定理想召回深度($K=10$)作为分母,逼迫 Agent 必须在保证精度的前提下深入挖掘(Deep Research),这高度契合真实的商业找人需求。