| 标题(简) | 子方向 | 来源 | 综合分 |
|---|---|---|---|
| HarmfulSkillBench: Harmful Skills…今日选定 | 技能生态安全 | arXiv 2026-04-16 | 92 |
| Owner-Harm: Missing Threat Model… | 威胁模型 | arXiv 2026-04-20 | 89 |
| SafeAgent: Runtime Protection Architecture… | 运行时防护 | arXiv 2026-04-19 | 85 |
| Symbolic Guardrails for Domain-Specific Agents | 符号化护栏 | arXiv 2026-04-16 | 85 |
| HINTBench: Intrinsic Non-attack Risk Audit | 非攻击内生风险 | arXiv 2026-04-15 | 83 |
| Human-Guided Harm Recovery for CUA | 危害恢复 | arXiv 2026-04-20 | 81 |
| YoloFS: Agent-Native Filesystem | 系统级防护 | arXiv 2026-04-15 | 80 |
| OS-BLIND: Benign Instruction Harms | CUA 盲区 | arXiv 2026-04-12 | 80 |
大型语言模型已经演化为依赖公开"技能生态"(skill ecosystems)的自主 Agent,ClawHub、Skills.Rest 等平台上有大量可重用的公开技能。现有安全研究主要关注技能自身的漏洞(如 Prompt Injection),但一个关键盲区尚未被讨论:技能本身可能就是用于危害性行为的——网络攻击、诈骗、隐私侵犯、色情内容生成等,我们称之为"有害技能(harmful skills)"。
本文首次对 Agent 技能生态进行大规模测量研究,覆盖两大主流注册表共 98,440 个技能。借助基于有害技能分类体系的 LLM 评分系统,我们发现:4.93%(4,858 个)技能属于有害技能;其中 ClawHub 的有害率为 8.84%,Skills.Rest 为 3.49%。
进一步,我们构建了 HarmfulSkillBench——首个在真实 Agent 上下文中评估"有害技能武器化风险"的 Benchmark,包含 20 个类别下的 200 个有害技能和 4 种评估条件。对 6 个主流 LLM 的测试表明:当有害任务以"预装技能"形式出现时,模型拒绝率显著下降——平均危害分数从无技能时的 0.27,上升到有技能时的 0.47,当有害意图以"隐式"形式表达时再进一步升至 0.76。我们已负责任地向相关注册表披露发现,并开源 Benchmark 以促进后续研究。
解决了什么问题:2026 年前后,ClawHub / Skills.Rest 等"技能市场"爆发式增长,用户可以像下载 VS Code 插件一样给自己的 Agent "装技能"。此前的 Agent Safety 研究几乎全部假定"技能本身是善意的,只有被 Prompt Injection 劫持时才危险"。本文直接问:如果技能本身就是坏的呢?并指出这是一个尚未被主流安全研究覆盖的系统性盲区。
方法与关键设计:
| 阶段 | 方法 | 规模 / 产物 |
|---|---|---|
| 生态测量 | 爬取 ClawHub 与 Skills.Rest 全量技能清单 | 98,440 技能 → 4,858 有害(4.93%) |
| 有害技能分类体系 | 人工与 LLM 协同标注,构建 20 类有害技能 taxonomy | 含网络攻击、诈骗、隐私、色情、生物化学等 |
| Benchmark 构造 | 从检测出的有害技能中采样 200 个,组成 HarmfulSkillBench | 20 类 × 4 评估条件(有/无技能 × 显式/隐式意图) |
| 模型评测 | 对 6 个主流 LLM 在 HarmfulSkillBench 上跑完整 Agent 工作流,LLM-as-judge 打分 | 最强模型隐式条件下仍达 0.76 危害分 |
与现有工作的关键区别:MedSkillAudit(2026-04)、AgentHarm、AgentBench 等关注的是"Agent 被外部攻击"或"特定领域内技能合规",都假设技能来源可信。本文是第一篇系统研究"生态层面技能本身的恶意性"的工作——这与软件供应链安全(SolarWinds、npm typosquatting 事件)的框架非常相似,是把"供应链攻击"的视角首次引入 Agent 技能生态。
最让人震惊的发现:"显式请求有害行为"的模型平均危害分 0.27(大部分模型会拒绝),但一旦把同样的意图封装成一个"预装技能"并以隐式方式调用,危害分飙升到 0.76——将近 3 倍。这说明当前所有对齐训练严重依赖"用户显式请求"这一表层信号,而模型对"自己拥有什么工具/技能"的安全审视能力极弱。
https://arxiv.org/abs/2410.09024
https://arxiv.org/abs/2306.05499
https://arxiv.org/abs/2406.13352
docs.anthropic.com — MCP
https://arxiv.org/abs/2005.09535
https://arxiv.org/abs/2312.06674
https://arxiv.org/abs/2302.12173
https://arxiv.org/abs/2308.03825
- 生态有害率:98,440 个真实技能中检出 4,858 有害(4.93%);ClawHub 有害率 8.84%,是 Skills.Rest(3.49%)的 2.5 倍——说明审核门槛差异直接决定生态安全性。
- 武器化放大效应:同一个有害意图,无技能 → 有技能 → 隐式技能的危害分数为 0.27 → 0.47 → 0.76,近 3 倍放大。这是技能生态带来的全新攻击面。
- 跨模型普适:包括 6 个主流 LLM(具体型号见论文表 3),拒绝率随技能装载一致性下降;现有对齐训练无法消除"技能诱导效应"。
- 分类体系覆盖 20 类:涵盖网络入侵、社工钓鱼、金融诈骗、隐私盗窃、色情生成、仇恨言论、生化危害等,近似覆盖 OWASP Top 10 for LLM Agents 的高危子集。
Harness 应把"技能注册表审计"作为原生能力而非事后补丁。具体建议:在 Agent Loop 的"技能加载阶段"插入强制签名校验 + 沙箱执行策略,每次加载新技能都产生可审计事件流。结合 AHE(本仓库今日 Harness 方向报告),"技能可观测性"应成为"组件可观测性"的第四级扩展。
本文是你方向最直接的基石:它把"Agent Skills Safety"从"调用时漏洞防御"扩展为"供应链安全"。你未来研究的自然延伸有三条——(1)自动检测恶意技能(比 LLM-as-judge 更 scalable 的静态分析);(2)"组合攻击":单技能无害但多技能组合后形成攻击链(本文未系统研究);(3)技能签名与可信注册表协议设计,类似 Sigstore 之于软件供应链。
HarmfulSkillBench 本身就是方向三的直接范本,但它只覆盖"有害技能武器化"这一攻击面。可以进一步扩展成包含"良性意图 + 良性技能但组合成有害"、"多技能链式执行"、"技能更新后植入后门"三类新 benchmark 轴,形成覆盖生态全生命周期的 Safety Benchmark 套件。
-
Owner-Harm — Zhang & Jiang (2026) — Agent 伤害部署者(Owner)的威胁模型,与 HarmfulSkillBench 构成"外部有害技能 × 内部 Owner 伤害"二维
https://arxiv.org/abs/2604.18658 -
Symbolic Guardrails for Domain-Specific Agents — Hong et al. (2026) — 对 80 个 Agent Safety benchmark 做 meta-review,发现 74% 的安全策略可由符号化护栏保证
https://arxiv.org/abs/2604.15579 -
SafeAgent — Liu et al. (2026) — 运行时 Agent 防护架构,可作为 HarmfulSkillBench 的 Defense 基线
https://arxiv.org/abs/2604.17562