← 总导航 / Safety Benchmark / 2026-04-30 #1
2026 年 4 月 30 日 · Safety Benchmark · Cross-Session Threat · Memory-Aware Evaluation

CSTM-Bench:把攻击拆进多次对话,现有 Guardrail 直接腰斩——跨会话威胁首个系统 benchmark

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms
综合 92 分 相关度 9.8 来源质量 8.5 近期影响力 9.2 新颖性 9.5 开源复现 9.5
今日 Safety Benchmark 方向候选评分对比(共 5 篇)
标题(简)方向细分来源综合分
CSTM-Bench: Cross-Session Threats in AI Agents今日选定 Cross-Session Evaluation arXiv 2026-04-22 92
GAIA-v2-LILT: Multilingual Agent Benchmark Multilingual Adaptation arXiv 2026-04-27 87
PHMForge: Industrial Agent Benchmark Domain-Specific Benchmark arXiv 2026-04-02 82
WebForge: Browser Agent Benchmark Browser Agent Eval arXiv 2026-04-13 85
Uni-SafeBench: Unified Multimodal Safety UMLM Safety arXiv 2026-04-01 84
论文基本信息
Ari Azarafrooz
cs.CR / cs.AI / cs.CL / cs.LG — Agent Safety Benchmark
arXiv 预印本,v1,46 页,8 张图
2026 年 4 月 22 日
一句话核心贡献
首次系统化"跨会话攻击":把攻击拆到多个对话里,session-bound guardrail 和 Full-Log Correlator 召回都掉 ~50%,唯独 Coreset Memory Reader 存活。
摘要(中文翻译)

今天的 AI Agent guardrail 几乎都是 memoryless 的——每条消息被独立判定。这让攻击者能把攻击"稀释"到多个会话里:每一次单独看都无害,只有把所有会话聚合起来才能看出威胁信号

本文做了三件事:

(1)构造 CSTM-Bench 数据集——26 种可执行攻击 taxonomy,按 kill-chain 阶段与跨会话动作(accumulate / compose / launder / inject_on_reader)分类,含 7 类身份锚(identity anchor)将"违规"定义为可被审计的 policy predicate。配有两个对照集(Benign-pristine, Benign-hard)和两个评估 split:Dilution 分片(54 个组合场景)Cross-session 分片(12 个 isolation-invisible 场景),后者由闭环改写器生成——保持跨会话制品不变,仅软化表层措辞。

(2)把"跨会话检测"形式化为对下游 correlator LLM 的 信息瓶颈问题,实证发现:session-bound judge 从 dilution → cross-session 召回掉 ~50%;把所有 prompt 拼成一次长上下文的 Full-Log Correlator 同样掉 ~50%——这一切都发生在前沿模型的上下文窗口内,说明"长上下文不是解药"。

(3)提出 Bounded-Memory Coreset Memory Reader:K=50 时保留最高信号片段,是唯一在两个分片上都保持召回的方法。并把 CSR_prefix(ordered prefix stability,无 LLM 度量) 升为一等公民,与 F1 组合成复合指标 CSTM = 0.7·F1 + 0.3·CSR_prefix,在召回与服务稳定性之间形成 Pareto 前沿。

核心内容解读

问题动机:现有 agent safety benchmark 默认"攻击发生在单次对话中"。但真实场景里,攻击者完全可以把漏洞利用分 5 次会话慢慢诱导——每次看都合法。这种"跨会话威胁"在工业界时有出现(如"通过多次客服对话累积账户信息"),但学术界几乎没有对应 benchmark。作者首次把这件事做成一个可复现、可审计的评测集。

方法关键:三件事从 benchmark 抬升到可测度量学:

组件解决的问题关键创新
CSTM-Bench 数据结构攻击如何跨会话"隐形"26 种 taxonomy + 7 类身份锚 + 闭环改写器生成 cross-session 分片
信息瓶颈视角guardrail 召回为何掉 50%把"跨会话检测"抽象为:下游 LLM 能否从有限 token 预算里重建威胁特征
CSR_prefix 指标ranker reshuffle 破坏 KV-cache 复用LLM-free 的 ordered prefix stability,直接服务于生产部署

最反直觉的发现:把所有会话 prompt 拼成一次长上下文喂给 correlator(即 Full-Log Correlator)并不能恢复召回——它仍然掉 50%。这说明瓶颈不是 context window,而是长上下文本身没有"对齐到威胁信号"的 inductive bias。这对整个 memory-based safety 系统是一个基础性的警告。

工程可用性:CSR_prefix 被专门设计为 LLM-free——它只检查排序前缀的稳定性,因此可以零成本接入生产 guardrail 管线,不增加推理费用。CSTM 复合指标则把"召回 vs. 服务稳定性"做成 Pareto 前沿,让 benchmark 结果直接映射到 ops 决策。

与 BenchGuard / Judge Sensitivity 的对照:昨天已读的 BenchGuard(2604.24955)和 Judge Sensitivity(2604.24074)都是"审计 benchmark 本身";CSTM-Bench 则是把 benchmark 扩展到一个此前根本没被度量过的威胁维度。三者组合起来才是 safety benchmark 研究的完整图景——既要审计现存 benchmark,又要补齐 missing 维度。

本文引用的关键文献(附链接)
Debenedetti et al. (2024) — AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses
https://arxiv.org/abs/2406.13352
Andriushchenko et al. (2024) — AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents
https://arxiv.org/abs/2410.09024
Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework for Automated Red Teaming
https://arxiv.org/abs/2402.04249
MITRE (2024) — ATLAS: Adversarial Threat Landscape for AI Systems(kill-chain 背景)
https://atlas.mitre.org/
Tishby & Zaslavsky (2015) — Deep Learning and the Information Bottleneck Principle
https://arxiv.org/abs/1503.02406
Clavié & Chaffin (2024) — ColBERT v2 and Coreset-based Retrieval for Guardrails
github.com/bclavie/RAGatouille
Zhang (2026) — How Sensitive Are Safety Benchmarks to Judge Configuration Choices?(同日 judge 敏感度研究,同系列问题域)
https://arxiv.org/abs/2604.24074
核心数据亮点
对你三个研究方向的启发
Safety Benchmark

这是今年 safety benchmark 方向最有方法论价值的一篇:它把"benchmark 设计"本身做成了一套可传染的 pattern——单会话 → 多会话,prompt-level → memory-level,模型能力度量 → 服务稳定性度量。你做 Safety Benchmark 研究时,可以直接继承 CSTM 的方法论:每一个现有单 session benchmark 都可以被扩展出一个 cross-session 版本(CSTM-AgentHarm、CSTM-HarmBench……)。另一个值得抄的是 CSR_prefix——LLM-free 度量对生产部署极有价值。

Agent Skills Safety

Cross-session threat 是"agent skill memory"的对偶风险:如果 skill 有长期记忆,那么攻击也可以长期潜伏。你研究 Agent Skills Safety 时,应把"skill 是否会被多次无害调用累积出恶意后果"作为一个审查维度——这对带记忆的 skill(memory tool、persistent storage)尤其关键。Owner-Harm(今天同时已读)说的是单会话 + 结构错位;CSTM-Bench 说的是跨会话 + 聚合信号——两者合起来是 Agent Skills Safety 的完整攻击面。

Harness Engineering

Harness 设计者应该把 "跨会话记忆审计" 纳入第一等设计维度:每个 session 结束时,harness 必须产生一个可被 downstream correlator 消费的"session trace",而不是把 session 丢弃。Coreset Memory Reader 的"K=50 高信号片段保留"非常适合作为 harness 的标准组件。此外,CSR_prefix 作为一个 harness-level 的 serving metric,比许多 Prompt-level 指标都更接近生产 ops 关心的东西。

相关延伸阅读
资源链接