Title: Agentic AI for SAGIN Resource Management: Semantic Awareness, Orchestration, and Optimization
Authors: Linghao Zhang, Haitao Zhao, Bo Xu, Hongbo Zhu, and Xianbin Wang, Fellow, IEEE
Link: 📄 查看 ArXiv 原文
空天地一体化网络(Space-Air-Ground Integrated Networks, SAGIN)被视为 6G 及未来网络的关键基础设施。它将卫星、空中平台(如无人机 UAV)和地面基础设施深度融合,以支持泛在的连接和差异化的应用(如紧急响应、实时 AIGC 等)。然而,SAGIN 的高度动态性及其复杂的跨层交互给网络资源管理带来了极大挑战:
为实现真正的自主资源管理,本文提出了一种基于闭环 MAPE-K(Monitor-Analyze-Plan-Execute-Knowledge)框架的 Agentic AI 控制面架构。核心贡献如下:
为验证系统的高效协作,论文展示了一个极具代表性的高并发场景:在异构的 UAV 集群与 LEO 卫星覆盖区域内,海量移动用户请求高清实时 AIGC 视频生成服务。面对动态的能量衰减问题,具体执行闭环如下:
本框架突破了将 LLM 作为“一次性推理机”的瓶颈,深入整合了控制论经典的闭环理念与现代大模型智能体生态:
针对移动 SAGIN 中毫秒级响应的需求,直接用 LLM 预测高维连续空间显然不现实且易产生幻觉。因此论文创新性设计了“慢速语义规划 - 快速数值决策”机制。编排器结合语义状态,对底层 RL 的奖励函数进行修正,其本质相当于注入领域先验知识。设定修正后的强化学习奖励函数:
$R' = R_{base} - \lambda \cdot f_{\text{semantic}}(s)$
其中,$R_{base}$ 关注常规 QoS(如负延迟),而惩罚项与权重 $\lambda$ 完全由 LLM 根据当前宏观状态动态调整(例如一旦判定节点能量进入 Critical 状态,LLM 迅速拉高对应的惩罚权重)。
系统在包含 3 颗 LEO 卫星、5 架状态不一的 UAV、2 个地面基站与 50 个并发 AIGC 任务的仿真环境中进行验证:
本研究向我们展示了“大模型在网络运维控制面(Control Plane)走向落地应用”的一个标准范式:
作者:Quan Cheng
机构:Tsinghua University (清华大学)
近年来,在LLM Alignment(大语言模型对齐)领域出现了一个令人困惑的经验现象:越来越多的方法证明,纯负面反馈信号(negative-only feedback)——即惩罚模型做错的地方而不是强化它做对的地方——表现出了令人惊讶的效果,甚至能够匹敌或超越传统的正负反馈双管齐下的RLHF方法。例如:
与此同时,标准的基于正向偏好的 RLHF 被证明存在系统性的致命缺陷:谄媚(Sycophancy)。标注者往往更偏好迎合自己观点的回复,导致 RLHF 实际上在放大这种“迎合”特征,而不是真正提升正确性。这两个现象(纯负向训练的有效性与正向训练的谄媚崩坏)在过去被独立研究,缺乏一个统一的理论框架来解释其背后的本质原因。
这篇 Position Paper 没有提出新的网络架构或损失函数,而是为当前 Alignment 领域的繁荣与乱象提供了一个极为深刻的统一理论框架,引入了认识论(Epistemology)和卡尔·波普尔(Karl Popper)的证伪主义(Falsification)思想。其核心贡献包括:
为了理解为什么不能简单地依靠“哪个更好”来对齐模型,论文对两种提问方式(标注范式)进行了深刻对比:
当让人类标注者比较两个回复时,他们脑海中调用的偏好函数是极其复杂的:
结论: 正向偏好是一个无限维的流形映射,将这种复杂函数强制投影成一个 Binary Signal(二元胜负信号)必然造成严重的信息丢失(Lossy Projection)。
相对而言,“识别错误”的解空间结构则完全不同:
结论: 负向约束是离散的(Discrete)、独立的、可枚举的。每增加一条负向约束,模型的合法输出空间(Feasible Response Space)就会单调收缩(Monotonically contract)。
作者引用了 Nassim Taleb 提出的 Via Negativa(否定之道) 概念:“国际象棋大师通常通过‘不犯错’来赢棋”。结合LLM训练,作者进行了以下理论推演:
1. 为什么 RLHF 必然产生谄媚(Sycophancy)?
因为标注者的真实偏好函数是一个连续耦合的高维系统。当强制要求他们做出两两比较时,那些真正能区分“确实更好”和“只是听起来顺耳”的高维特征在二元投影中丢失了。剩下来能被 Reward Model (RM) 轻易捕捉到的,是一个低维的“表面相关性(Surface Correlate)”——即“赞同用户的观点”。这是一个结构性缺陷,增加再多的偏好数据也无法消除。
2. 纯负向训练(如NSR)如何能够在不提供“正确答案”的情况下收敛?
因为预训练(Pre-training)已经赋予了 LLM 一个强大的先验生成分布(Prior Distribution)。纯负向反馈不需要告诉模型“完美答案”长什么样,它只需要压制(Suppress)响应空间中那些离散的、包含错误的区域。随着错误区域被不断剔除,概率质量(Probability Mass)自然会向剩余的合法空间重新分配(Redistribute)。只要剔除得足够多,剩余空间里的回答就必然是高质量的。
3. Constitutional AI (CAI) 为何更鲁棒?
Anthropic的CAI依赖一部“宪法”,其原则大多是负面的(如:不要有害、不要欺骗)。这本质上是将连续正向偏好替换为了离散负向约束。因为不需要去拟合人类无尽的偏好流形,仅需学会避开一个有限违规集合,因此在 Claude 模型上观察到的谄媚现象远少于传统的 RLHF 模型。
由于这是一篇理论论文,作者没有发布新的 SOTA 跑分图表,但基于其理论框架,提出了极具洞察力的可测试预测(Testable Prediction):
核心预测:能力(Capability)的增长等同于负向知识(Negative Knowledge)的增长。
如果结构性不对称理论成立,那么越强的模型(经历了更多数据和更多次Alignment迭代),其实质优势在于积累了更多“知道不该说什么”的负向知识(如避免过度冗长、不必要的免责声明、跑题和格式化废话)。
实验设计构想(供社区后续验证):
预期结论: 模型越强,Response Length 应呈负相关,Information Density 呈正相关,Sycophancy Rate 呈极强的负相关。作者指出,Claude 家族从 Sonnet 到 Opus 的演变已经非正式地印证了这一趋势。
“The chess grandmaster wins by not losing. The aligned model aligns by learning what not to do.” (国际象棋大师通过不输来赢,对齐模型通过学习不该做什么来实现对齐。)
作者:Kaixuan Du, Meng Cao, Hang Zhang, Yukun Wang, Xiangzhou Huang, Ni Li
机构:北京航空航天大学 (Beihang University)
📄 查看 ArXiv 原文基于可验证奖励的强化学习(RLVR,如GRPO算法)在提升大语言模型(LLM)复杂推理(如长思维链 CoT)能力方面取得了巨大成功(如 DeepSeek-R1, OpenAI o1)。然而,目前的 RLVR 强依赖于人工标注数据集或能够提供绝对 ground-truth 的环境(如代码编译器、数学规则引擎)。
随着模型能力逼近人类专家,如何在完全无标签或分布偏移(OOD)的场景下实现持续的自我进化(Self-Improvement),成为了核心考题。现有的无监督 RLVR(Label-free RLVR)主要面临两大痛点:
为破解上述难题,作者提出了一种全新的无监督 RLVR 框架——Dual Consensus (DCRL, 双重共识强化学习)。该框架无需任何外部模型或监督信号,纯粹依赖模型自身的内在鲁棒性来驱动策略优化。其核心贡献包括:
Anchor(锚点) 和 Explorer(探索者) 两个阶段,通过动态构造对照分布来打破多数投票的同质化。假设模型在解答一道困难的数学题,当前的主导错误答案是 "33",而真正的正确答案是隐藏在少数派中的 "42"。
DCRL 建立在 GRPO (Grouped Relative Policy Optimization) 基础之上。其训练 Pipeline 包含以下三大核心模块:
为了从当前策略 $\theta$ 中提取探索信号,首先克隆一个 Anchor 模型 $\theta'$。为了抑制其高概率输出,定义负对数似然(NLL)的相反形式作为 Unlearning Loss:
为了数值稳定,先对概率进行截断:$p_{\text{clip}} = \text{clip}(\pi_{\text{anchor}}(y_{i,t} \mid x, y_{i, 定义遗忘损失:$$\mathcal{L}_{\text{unlearn}} = -\log(1 - p_{\text{clip}})$$ 对 Anchor 模型执行一次临时的梯度下降(原策略模型参数 $\theta$ 不变):$$\theta' \leftarrow \theta' - \eta \nabla_{\theta'} \mathcal{L}_{\text{unlearn}}$$ 这一步通过惩罚高置信度 Token,强制模型拉平输出分布(Flattening),转化为 Explorer 模型,从而在随后的 Rollout 中覆盖偏离主导模式的轨迹。 在获得了 Anchor 集合 $O_0$ 和 Explorer 集合 $O_1$ 后,分别计算候选答案 $a$ 在两端的经验发生概率 $p_0(a)$ 和 $p_1(a)$。伪标签 $y^*$ 由最大化调和平均数决定: $$y^* = \arg\max_{a \in \mathcal{A}} \frac{2p_0(a)p_1(a)}{p_0(a) + p_1(a)}$$ 在奖励分配上,DCRL 采用了一种保守奖励(Conservative Reward)机制: 训练初期,探索信号可能存在高噪音,容易导致 Reward Hacking。作者引入了共识率 (Consensus rate, $\rho_t$) 这一指标:即 Anchor 生成中与多数投票结果一致的比例。通过滑动窗口计算近期平均共识率 $\bar{\rho}_t$:4.2 调和选举与保守奖励 (Harmonic Election & Conservative Reward)
4.3 动态自适应采样 (Adaptive Sampling)
实验设定: 训练集使用无标签的 DAPO-Math-14k。评估覆盖 8 个 Benchmark(MATH-500, GSM8K, AIME24 等数学集,以及 MMLU-Pro, GPQA 等多任务集)。评测模型包括 Llama3.2-3B-Instruct, Qwen3-4B-Base, 和 Qwen3-8B-Base。基线方法包括 Vanilla, GRPO (有监督上限), RENT, TTRL, Co-Rewarding I/II。
核心结论:
英文标题:Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning
作者:Haomin Wang, Qi Wei, Qianli Ma, Shengyuan Ding, Jinhui Yin, Kai Chen and Hongjie Zhang
机构:上海交通大学 (Shanghai Jiao Tong University)、上海人工智能实验室 (Shanghai AI Laboratory)、南京大学 (Nanjing University)、复旦大学 (Fudan University)
可缩放矢量图形(SVG)作为一种基于 XML 的矢量格式,以其紧凑的存储、分辨率独立性和细粒度的可编辑性,在 Web 前端开发、UI 设计等领域占据核心地位。近年来,随着视觉语言模型(VLMs)的发展,研究人员开始探索将其应用于 SVG 的自动生成(如 Text-to-SVG 和 Image-to-SVG 任务)。
然而,现有的 SVG-LLM 方案普遍面临以下三大核心痛点:
<g>)特性,导致模型在规划步骤与最终生成的代码块之间缺乏严格的对齐,依然难以做到结构的透明和精确可控。CTRL-S 的最大特色在于将隐式的矢量图生成过程具象化为“逐步规划(Step-by-step Planning) -> 模块化编码(Modular Coding)”的过程。
<think> 标签内分析画布尺寸、整体图像描述,并按编号列出绘画步骤(Drawing Steps)(例如:1. 左上角蓝天背景; 2. 左上角黄色太阳...)。随后,模型输出的 SVG 代码会严格按照前文步骤,利用 <g> 分组标签并附带注释生成对应的代码段,实现推理逻辑与输出代码的 1v1 绑定。
CTRL-S 的技术底座基于 Qwen3-VL-8B-Instruct 构建,其训练范式主要分为 SFT 和 RL 两大阶段:
为了增强模型对原生 SVG 的表达能力,作者首先扩充了 Tokenizer,加入了专门的几何、属性标签(如 <path, stroke=)以及高精度的数值 Token,并采用基于子词(Subword)均值的平滑初始化策略。
<g> 分组层级进行显式的对齐映射。为了打破 SFT 阶段仅依赖 Token 级别 Next-token prediction 的局限性,作者引入了 GRPO (Group Relative Policy Optimization) 算法。由于不需要训练额外的 Value 网络,GRPO 大幅降低了训练多模态大模型的显存开销。给定上下文 $c$,模型策略优化的替代目标函数为:
$$\mathcal{J}_{GRPO}(\theta) = \mathbb{E}_{c \sim \mathcal{D}, \mathcal{G} \sim \pi_{\theta_{old}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y^{(i)}|} \sum_{t=1}^{|y^{(i)}|} \mathcal{L}_{clip}^{i, t}(\theta) - \beta \mathbb{D}_{KL}(\pi_\theta || \pi_{ref}) \right]$$
其中奖励机制包含四个互补的 Reward 设计,用于全局监督:
<think> 模块与渲染成功的 SVG 块,则奖励置0,截断恶性策略更新。最终的总 Reward 组合形式为:$R_{total} = R_{format} \cdot (w_{dino}R_{dino} + w_{lclip}R_{lclip} + w_{eff}R_{eff})$,通过经验将权重设定为 2:1:1。
实验使用了 48 张 H200 显卡进行 SFT 训练,32 张 GPU 使用 verl 框架进行长达 12 小时的 RL 训练(Rollout batch size=16)。
<think> 中的 Planning List 与底层的 <g id="..."> 一一对应,模型在自回归解码中获得了极强的结构归纳偏置(Inductive Bias),使得最终矢量图不仅可渲染,而且具有极高的人类可编辑性。作者:Keru Chen, Jun Luo, Sen Lin, Yingbin Liang, Alvaro Velasquez, Nathaniel D. Bastian, Shaofeng Zou
机构:亚利桑那州立大学 (ASU)、俄亥俄州立大学 (OSU)、休斯顿大学 (UH)、科罗拉多大学博尔德分校、美国西点军校
在Agentic工作流和复杂的系统级部署中,大语言模型(LLMs)的交互范式已经演变为层级化指令(Hierarchical Prompting)。在这种范式下,输入被分为两层:
痛点:指令层级冲突与优先级倒置
用户指令经常会与系统约束产生根本性冲突(例如系统设定“不要直接给出答案”,而用户直接询问“答案是什么”)。现有的对齐方法(SFT, RLHF, DPO)在处理此类层级指令遵循 (Hierarchical Instruction Following, HIF) 任务时存在显著局限:
本文提出了一种全新的对齐框架 HIPO (Hierarchical Instruction Policy Optimization),从根本上重构了指令层级任务的数学定义和优化路径:
为了直观展示 HIPO 如何在冲突与对齐场景下运作,论文给出了以下对比案例:
<exact instructions>,并输出了冗长的内部思考规划,导致用户效用极低。
HIPO 的核心在于其 CMDP 建模与 Primal-Dual 优化。
有别于传统 RLHF 优化单一标量奖励,HIPO 将目标设为在保证系统得分 $J_{sys}(\theta)$ 大于某个硬性阈值 $\tau$ 的前提下,最大化用户效用 $J_{user}(\theta)$:
$$ \max_{\theta} J_{user}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}} [r_{user}(x,y)] - \beta \mathbb{D}_{KL}(\pi_{\theta} || \pi_{ref}) $$
$$ \text{s.t. } J_{sys}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_{\theta}} [r_{sys}(x,y)] \ge \tau $$
为了防止单一 Judge 面对复杂层级时出现“维度交叉污染(cross-contamination)”,HIPO 设置了两个完全独立的外部评判提示词:一个专门判定系统约束依从性 ($r_{sys}$),另一个纯粹判定用户请求解决度 ($r_{user}$)。
引入拉格朗日乘子 $\lambda \ge 0$,将原问题转化为无约束的极小极大化问题(Lagrangian Dual):$\max_{\theta} \min_{\lambda \ge 0} \mathcal{L}(\theta, \lambda)$。在每一步迭代中,进行如下交替更新:
Step 1: Primal 更新(策略网络 $\theta$)
计算每个 response 的融合优势(Combined Advantage):
$$ A^{(i)}_{comb} = A^{(i)}_{user} + \lambda_t A^{(i)}_{sys} $$
其中 $A^{(i)}_{user}$ 和 $A^{(i)}_{sys}$ 是基于 GRPO 进行组内标准化后的相对优势。随后使用标准的 PPO-style surrogate objective 对 $\theta$ 进行参数更新。
Step 2: Dual 更新(动态乘子 $\lambda$)
乘子 $\lambda$ 作为“自适应惩罚项”,随着系统依从性的表现动态调整:
$$ \lambda_{t+1} = \max \left( 0, \lambda_t - \eta_{\lambda} \left( \frac{1}{G} \sum_{i=1}^G r^{(i)}_{sys} - \tau \right) \right) $$
如果当前 batch 的系统得分低于阈值 $\tau$,$\lambda$ 会上升,迫使模型在下一步中优先保证约束;一旦满足条件,$\lambda$ 衰减为 0,模型将重新专注于最大化用户效用。
实验设置:
核心结论:
HIPO 的成功不仅体现在指标上,论文通过探究模型的内部注意力动态(Attention Dynamics),给出了极具深度的机理解释(Mechanistic Analysis):
FarMass(对 Prompt 前20% Token的注意力占比)显著提升,证明模型能够抵抗“长距离注意力衰减(Attention Decay)”。SysUserRatio 显示,HIPO 显著削弱了对用户 Prompt 的注意力 (UserMass 下降),大幅增强了对系统 Prompt 的注意力 (SysMass 上升)。