← 总导航 / Agent Skills Safety / 2026-04-29 #1
2026 年 4 月 29 日 · Agent Skills Safety · 技能生态 · 实证研究

HarmfulSkillBench:公开技能生态如何把 Agent "武器化"?

HarmfulSkillBench: How Do Harmful Skills Weaponize Your Agents?
综合 92 分 相关度 9.9 来源质量 8.2 近期影响力 9.0 新颖性 9.3 开源复现 9.2
今日候选论文评分对比(arXiv 近 2 周,共 8 篇)
标题(简)子方向来源综合分
HarmfulSkillBench: Harmful Skills…今日选定 技能生态安全 arXiv 2026-04-16 92
Owner-Harm: Missing Threat Model… 威胁模型 arXiv 2026-04-20 89
SafeAgent: Runtime Protection Architecture… 运行时防护 arXiv 2026-04-19 85
Symbolic Guardrails for Domain-Specific Agents 符号化护栏 arXiv 2026-04-16 85
HINTBench: Intrinsic Non-attack Risk Audit 非攻击内生风险 arXiv 2026-04-15 83
Human-Guided Harm Recovery for CUA 危害恢复 arXiv 2026-04-20 81
YoloFS: Agent-Native Filesystem 系统级防护 arXiv 2026-04-15 80
OS-BLIND: Benign Instruction Harms CUA 盲区 arXiv 2026-04-12 80
论文基本信息
Yukun Jiang, Yage Zhang, Michael Backes, Xinyue Shen, Yang Zhang
CISPA Helmholtz 信息安全中心(Yang Zhang / Michael Backes 组,TrustAIRLab)
arXiv 预印本 v1,cs.CR / cs.AI
2026 年 4 月 16 日
CC BY-NC-ND 4.0
一句话核心贡献
首次大规模实测:开放技能生态中 4.93% 的技能具有危害性,且通过"预装技能"触发可使模型拒绝率暴跌、危害得分由 0.27 升至 0.76。
摘要(中文翻译)

大型语言模型已经演化为依赖公开"技能生态"(skill ecosystems)的自主 Agent,ClawHub、Skills.Rest 等平台上有大量可重用的公开技能。现有安全研究主要关注技能自身的漏洞(如 Prompt Injection),但一个关键盲区尚未被讨论:技能本身可能就是用于危害性行为的——网络攻击、诈骗、隐私侵犯、色情内容生成等,我们称之为"有害技能(harmful skills)"。

本文首次对 Agent 技能生态进行大规模测量研究,覆盖两大主流注册表共 98,440 个技能。借助基于有害技能分类体系的 LLM 评分系统,我们发现:4.93%(4,858 个)技能属于有害技能;其中 ClawHub 的有害率为 8.84%,Skills.Rest 为 3.49%。

进一步,我们构建了 HarmfulSkillBench——首个在真实 Agent 上下文中评估"有害技能武器化风险"的 Benchmark,包含 20 个类别下的 200 个有害技能和 4 种评估条件。对 6 个主流 LLM 的测试表明:当有害任务以"预装技能"形式出现时,模型拒绝率显著下降——平均危害分数从无技能时的 0.27,上升到有技能时的 0.47,当有害意图以"隐式"形式表达时再进一步升至 0.76。我们已负责任地向相关注册表披露发现,并开源 Benchmark 以促进后续研究。

核心内容解读

解决了什么问题:2026 年前后,ClawHub / Skills.Rest 等"技能市场"爆发式增长,用户可以像下载 VS Code 插件一样给自己的 Agent "装技能"。此前的 Agent Safety 研究几乎全部假定"技能本身是善意的,只有被 Prompt Injection 劫持时才危险"。本文直接问:如果技能本身就是坏的呢?并指出这是一个尚未被主流安全研究覆盖的系统性盲区。

方法与关键设计:

阶段方法规模 / 产物
生态测量 爬取 ClawHub 与 Skills.Rest 全量技能清单 98,440 技能 → 4,858 有害(4.93%)
有害技能分类体系 人工与 LLM 协同标注,构建 20 类有害技能 taxonomy 含网络攻击、诈骗、隐私、色情、生物化学等
Benchmark 构造 从检测出的有害技能中采样 200 个,组成 HarmfulSkillBench 20 类 × 4 评估条件(有/无技能 × 显式/隐式意图)
模型评测 对 6 个主流 LLM 在 HarmfulSkillBench 上跑完整 Agent 工作流,LLM-as-judge 打分 最强模型隐式条件下仍达 0.76 危害分

与现有工作的关键区别:MedSkillAudit(2026-04)、AgentHarm、AgentBench 等关注的是"Agent 被外部攻击"或"特定领域内技能合规",都假设技能来源可信。本文是第一篇系统研究"生态层面技能本身的恶意性"的工作——这与软件供应链安全(SolarWinds、npm typosquatting 事件)的框架非常相似,是把"供应链攻击"的视角首次引入 Agent 技能生态。

最让人震惊的发现:"显式请求有害行为"的模型平均危害分 0.27(大部分模型会拒绝),但一旦把同样的意图封装成一个"预装技能"并以隐式方式调用,危害分飙升到 0.76——将近 3 倍。这说明当前所有对齐训练严重依赖"用户显式请求"这一表层信号,而模型对"自己拥有什么工具/技能"的安全审视能力极弱。

本文引用的关键文献(附链接)
Andriushchenko et al. (2024) — AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents(与本文同类对比基线)
https://arxiv.org/abs/2410.09024
Liu et al. (2024) — Prompt Injection Attack against LLM-Integrated Applications(既有技能生态安全研究的代表)
https://arxiv.org/abs/2306.05499
Debenedetti et al. (2024) — AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
https://arxiv.org/abs/2406.13352
Anthropic (2024) — Model Context Protocol (MCP) 规范(技能生态的核心传输协议)
docs.anthropic.com — MCP
Ohm et al. (2020) — Backstabber's Knife Collection: A Review of Open Source Software Supply Chain Attacks(软件供应链攻击研究基础)
https://arxiv.org/abs/2005.09535
Inan et al. (2023) — Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations(典型防护模型基线)
https://arxiv.org/abs/2312.06674
Greshake et al. (2023) — Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection
https://arxiv.org/abs/2302.12173
Jiang et al. (TrustAIRLab, 2024) — Do Anything Now: LLM Jailbreak Prompt Measurement Study(同实验室前作,方法学一脉相承)
https://arxiv.org/abs/2308.03825
实验结果 / 核心数据亮点
对三个研究方向的启发
Harness Engineering

Harness 应把"技能注册表审计"作为原生能力而非事后补丁。具体建议:在 Agent Loop 的"技能加载阶段"插入强制签名校验 + 沙箱执行策略,每次加载新技能都产生可审计事件流。结合 AHE(本仓库今日 Harness 方向报告),"技能可观测性"应成为"组件可观测性"的第四级扩展。

Agent Skills Safety

本文是你方向最直接的基石:它把"Agent Skills Safety"从"调用时漏洞防御"扩展为"供应链安全"。你未来研究的自然延伸有三条——(1)自动检测恶意技能(比 LLM-as-judge 更 scalable 的静态分析);(2)"组合攻击":单技能无害但多技能组合后形成攻击链(本文未系统研究);(3)技能签名与可信注册表协议设计,类似 Sigstore 之于软件供应链。

Safety Benchmark

HarmfulSkillBench 本身就是方向三的直接范本,但它只覆盖"有害技能武器化"这一攻击面。可以进一步扩展成包含"良性意图 + 良性技能但组合成有害"、"多技能链式执行"、"技能更新后植入后门"三类新 benchmark 轴,形成覆盖生态全生命周期的 Safety Benchmark 套件。

相关延伸阅读
资源链接