带有 prompt-injection 风险的提示词归档

CL4R1T4S 是一个收集疑似泄露或提取出的 AI 产品系统提示词、规则和工具指令的仓库。README 把它定位成 AI systems transparency and observability。它的 topics 包括 prompts、red-team、system-prompts、leak 和 prompt-engineering。

这个仓很热,但它不是普通参考资料。README 自身就包含类似 prompt injection 的文本,会试图改变 assistant 行为。所以不要把大段内容直接粘进正在工作的 coding agent 或 chat model,然后假设它只是普通文本。应按不可信内容处理。

里面大概是什么

仓库声称收集了 OpenAI、Google、Anthropic、xAI、Perplexity、Cursor、Windsurf、Devin、Manus、Replit 等产品相关的 prompts 或 instructions。对开发者来说,重点不是复制这些 prompts,而是观察 instruction scaffolds、refusal policies、tool definitions 和产品级 guardrails 在现实中可能长什么样。

做 prompt-security 时,这类归档可以作为测试样本:提示词泄露模式、冲突指令、隐藏 policy 文本,以及系统提示词的组织方式。对普通用户来说,它更多是观察材料,同时也是风险面。

如何相对安全地看

它没有安装流程。把它当文本看即可。如果要审阅,优先用纯文本查看器、干净浏览器 profile,或本地 clone 后不要把文件喂给 agent。不要让 assistant 直接总结整个仓库,除非先明确告诉它这些内容不可信,可能包含对抗性指令。

如果你在做扫描器,这正是 NVIDIA/SkillSpector 有用的场景。扫描器应该识别 instruction override、system prompt exfiltration requests 和其他不应被执行为用户意图的内容。

法律和可信度问题

仓库声称包含第三方产品提取出的 prompts。每个文件的真实性、授权状态和更新时间都可能不同。有些条目可能过期、不完整或无法验证。更适合用于认知和测试,不要当官方产品行为依据。

相关

更安全的 agent skill 集合可以看 anthropics/skillsmattpocock/skillsaddyosmani/agent-skills。扫描 risky skills 可以看 NVIDIA/SkillSpector

FAQ

CL4R1T4S 是官方文档吗? 不是。它是第三方维护的疑似提取提示词和指令归档。

可以直接粘给 agent 吗? 不建议。它应被当成包含 prompt injection 的不可信文本。

它对安全研究有用吗? 有。它可作为理解提示词泄露和 instruction override 模式的样本。

里面的 prompts 一定最新吗? 不一定。条目可能过期、片面或无法验证。