Mindgard 披露的 Claude 案例显示,关键词过滤不足以覆盖多轮社会工程越狱。内容从攻击链、规范冲突、风险信号和防御方案四个角度,梳理大模型产品应如何做持续红队测试和上下文防护。
文言文对抗提示利用古汉语表达与安全审核覆盖不足之间的缝隙,可能绕过只依赖关键词或现代语料的过滤器。围绕 CC-BOS 的策略空间、黑盒搜索和适应度评估机制,重点讲清防御侧该如何建模、评测与加固。