英文标题:Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search
作者:Chuzhan Hao, Wenfeng Feng, Guochao Jiang, Guofeng Quan, Guohua Liu, Yuewei Zhang
机构:Alibaba Cloud
这篇论文切中的核心问题是:Search Agent 的 RL 训练往往高度依赖 outcome reward 驱动的随机探索,但多跳搜索与工具调用场景的 credit assignment 极差,导致大量 rollout 轨迹质量低、方差大、训练不稳定。
作者认为,真正有价值的不是“更多随机探索”,而是把历史探索中已经暴露出来的成功经验与失败教训结构化沉淀下来,让后续训练从“瞎试”转成“有经验的探索”。
论文给出的典型多约束案例是:先找某位诗人,再找同年获奖剧作家,再定位某年某月创作的戏剧名称。若没有经验指导,模型很容易从错误的时间约束或错误的人物实体开始搜索。
输入范式:“某位在 2016 年 5 月创作作品的剧作家,与某位诗人同年获得 MacArthur Fellowship,该作品叫什么?”
HiExp 的作用:
最终模型能稳定收敛到正确作品,而不是陷入大范围关键词搜索。
系统分为离线经验构建和在线经验对齐两部分。
离线阶段,对同一问题的成功与失败轨迹做反思提炼:
$$e_i, d_i = \mathrm{Reflect}(x_i, y_i^+, y_i^-)$$
然后对经验摘要做聚类,形成从具体到抽象的层级知识。
在线阶段,在中间查询 $q_t$ 生成后,从经验库中检索最相关经验:
$$e^* = \arg\max_{e \in \mathrm{HEK}} \mathrm{cos\_sim}(\phi(q_t), \phi(d_e))$$
为了防止模型机械复制检索经验,训练时会对经验文本进行 masking,这一点很像“外挂经验但不允许抄答案”的设计。
论文在 HotpotQA、2Wiki、Musique、Bamboogle 以及 AIME、MATH500 等任务上做了广泛实验。
英文标题:Probe-then-Plan: Environment-Aware Planning for Industrial E-commerce Search
作者:Mengxiang Chen, Zhouwei Zhai, Jin Li
机构:JD.com
工业电商搜索与开放域搜索不同,它高度依赖底层检索环境的真实反馈,比如库存、商品属性分布、检索器能力边界和业务目标。传统 query rewrite 只会“猜环境”,很容易生成系统并不支持的计划;而完整的 multi-step ReAct agent 又过于昂贵和缓慢。
作者把这一矛盾概括为 blindness-latency dilemma:不看环境就盲,深看环境又慢。
Case 1:“bottoms match green shirt”
如果不感知环境,模型会继续围绕 green shirt 做 rewrite,结果检索出来仍是衬衫。Probe 先看一眼初始检索结果,判断这是 precision failure,于是把搜索空间具象化为下装类别,比如 khakis、jeans。
Case 2:“bird watching camera”
Planner 会把自然语言意图映射到更可执行的技术属性,例如 telephoto camera,而不是直接照搬原始表述。
规划问题被写为条件策略:
$$\mathcal{P} \sim \pi_\theta(\cdot \mid q, O_{init})$$
其中 $O_{init}$ 是 probe 给出的检索环境快照。训练分三阶段:teacher 合成数据、planner 做 SFT + RL、router 控制线上路由。
其业务对齐奖励函数为:
$$R(P_i) = \frac{1}{K} \sum_{d_j \in \mathcal{D}_{P_i}} \mathbb{I}(\phi_{rel}(q,d_j)\ge\tau) \cdot \phi_{cvr}(q,d_j)$$
这里的 hard relevance gate 非常关键,它防止模型为了优化 CVR 而去召回不相关但“更好卖”的商品。
英文标题:SE-Search: Self-Evolving Search Agent via Memory and Dense Reward
作者:Jian Li, Yizhang Jin, Dongqi Liu, Hang Ding, Jiafu Wu, Dongsheng Chen, Yunhang Shen, Yulei Qin, Ying Tai, Chengjie Wang, Xiaotong Yuan, Yabiao Wang
机构:Nanjing University, Tencent YoutuLab
Search Agent 已经超越传统 RAG,但它很快会遇到两个问题:第一,搜索出来的文档太 noisy,直接拼上下文会污染后续推理;第二,仅依赖最终答案对错来做 RL,奖励太稀疏,模型不知道“哪一步搜得好、哪一步搜得差”。
SE-Search 的目标非常明确:一边把搜索结果“提纯成记忆”,一边把 RL 奖励“细化成多维密集反馈”。
问题:“Who is the spouse of the actor who played Scarlett in Gone with the Wind?”
SE-Search 不会把两轮搜索得到的大段文档全部塞回上下文,而是先将关键信息压缩成两段记忆:
<memory> Vivien Leigh played Scarlett.</memory><memory> Vivien Leigh is married to Laurence Olivier.</memory>这样后续推理完全围绕 distilled memory 展开,显著减小上下文噪声。

总奖励写为:
$$R_{\mathrm{Dense}} = R_{\mathrm{ans}} + \alpha R_{\mathrm{mem}} + \gamma \mu R_{\mathrm{query}} + \gamma R_{\mathrm{format}}$$
其中:
GRPO 通过 group-based advantage 对多条轨迹相对归一化,让“哪些中间行为更有价值”变得可学习。
英文标题:ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants
作者:Pei Wang, Yanan Wu, Xiaoshuai Song, Weixun Wang, Gengru Chen, Zhongwen Li, Kezhong Yan, Ken Deng, Qi Liu, Shuaibing Zhao, Shaopan Xiong, Xuepeng Liu, Xuefeng Chen, Wanxi Deng, Wenbo Su, Bo Zheng
机构:Alibaba Group
购物助手不是普通对话 agent。它需要同时理解多轮需求、用户长期偏好、细粒度属性约束、库存变化以及最终购买动作。现有 benchmark 大多只覆盖很窄的一部分能力,而且很少支持 RL 训练闭环。
这篇论文的基本立场是:没有一个足够真实、可交互、可训练的 shopping environment,就无法认真研究 shopping agent。
用户输入:“我想买一双羽毛球鞋,最好是蓝白配色的,看起来干净些。”
用户画像:偏好 YONEX / ASICS、尺码 40、价格 200-800、偏好缓震和耐磨。
高质量 agent 不应只搜“蓝白 羽毛球鞋”,而应该融合显式短期需求与长期偏好,像这样构造搜索与澄清:
search[YONEX badminton shoes blue white size 40 cushioning wear-resistant]这个环境特别强调:任何一个约束漏掉,最终都可能失败。
论文把购物过程建模为 MDP:
$$a_t = \pi_\theta(o_t, u_t, p), \quad o_{t+1}, u_{t+1} = \mathcal{E}(o_t, a_t)$$
其中 $o_t$ 是环境观察,$u_t$ 是当前轮用户表达,$p$ 是长期画像。
作者还设计了两种奖励:
严格奖励更符合真实电商 agent 的要求,因为用户买错尺码和买错颜色都不是“部分成功”。
英文标题:Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning
作者:Fengran Mo, Yifan Gao, Sha Li, Hansi Zeng, Xin Liu, Zhaoxuan Tan, Xian Li, Jianshu Chen, Dakuo Wang, Meng Jiang
机构:Université de Montréal, Amazon, UMass Amherst, University of Notre Dame, Northeastern University
对话搜索比单轮搜索难得多,因为用户意图在多轮交互中持续演化。传统 conversational search pipeline 常采用 rewrite → retrieve → generate 的静态链路,但这很难端到端优化,也很难处理主动澄清、拒答等 mixed-initiative 行为。
另一方面,近年的 deep search agent 又几乎都聚焦单轮任务,缺少对多轮上下文的情境化 reasoning 能力。
一个典型 multi-turn case 是:用户前几轮先问某类产品、服务或实体,随后再问“有没有替代方案”“哪个更适合我”“那它的缺点呢”。这类后续问题往往无法脱离上下文独立理解。
高质量 agent 的行为不是直接回答,而是先结合历史上下文生成 contextualized query,再根据搜索结果决定是回答、澄清还是拒答。例如:
<think> 判断当前问题依赖上文意图。<search> 生成带上下文实体与约束的搜索查询。<clarify>;若证据不足,则输出 <noanswer>。这说明它做的不是“对话重写器”,而是真正具备 mixed-initiative decision 的搜索 agent。
论文最关键的设计,是把奖励拆成三部分:
搜索增益奖励可以理解为:不用人工标注“标准 rewrite query”,而直接看你搜回来的文档是否包含正确答案信息。这是非常实用的弱监督思路。
总奖励近似写为:
$$\mathcal{R}(\tau)=\mathcal{R}_{\mathrm{outcome}}+0.5\,(\mathcal{R}_{\mathrm{IG}}+\mathcal{R}_{\mathrm{MIA}})$$
优化上使用 GRPO,而不是传统 PPO,这对长轨迹 agent 训练更稳定。