绝了，Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

Anthropic已确认，Fable模型将于7月7日后暂时停止提供订阅服务，待系统容量允许时，将尽快恢复为标准订阅内容。

然而，Fable 5已再次被成功越狱，这是该模型安全防线第二次被攻破。黑客Vitto Rivabella公开表示，Fable 5已被成功破解。

此前，Claude Fable 5恢复访问时，Anthropic曾特别指出，上次Fable 5被禁用是因为亚马逊的研究人员发现了一种绕过其安全防护的方法，因此此次加强了安全分类器。

尽管如此，这种加强的防护仅维持了约两天。Claude Sonnet 5一经发布，便被成功越狱。这使得Fable 5能否回归订阅套餐成为一个疑问。

Fable 5的“神话”在其发布后72小时内便宣告破灭。Anthropic在6月9日发布时曾宣称，经过1000小时的外部压力测试，Fable 5没有通用的越狱方法。然而，知名黑客“解放者普林尼”（Pliny the Liberator）仅用了三天时间，就成功让Fable 5泄露了违禁化学品制作步骤和堆栈溢出漏洞代码。

普林尼的越狱方法利用了人类视觉与机器逻辑之间的“时差”。他通过将敏感词中的英文字母替换为西里尔字母或Unicode异形字符，使人眼可识别但分类器将其视为乱码；同时，他利用Fable 5的庞大上下文窗口，将恶意意图隐藏在大量温和的学术讨论中，从而稀释了分类器的警觉性。

7月1日，Anthropic宣布Fable 5回归，并推出了成本极低的红队测试项目“Cyber Jailbreak”，通过HackerOne平台邀请用户报告新的越狱方法。这是一个漏洞披露计划，不提供报酬，旨在通过全球顶尖越狱高手的全天候对抗性测试来提升安全性，被视为一种低成本、高效率的行业创新尝试。

然而，这种开放性也意味着发现越狱方法的人可能会公开披露。像普林尼这样的黑客，其行为本身就带有展示的意味。

Fable 5再次被越狱，这是它第二次被破解。此次的复盘过程有些不同寻常，因为成功越狱的黑客Vitto Rivabella最后却对Anthropic表示了赞赏。

Vitto Rivabella在花费约20小时后得出结论：与其费力越狱，不如直接通过谷歌搜索，既快速又经济。

Fable 5的坎坷之路始于7月1日重新上线，搭载了“专门针对上次漏洞加强过”的新分类器。Anthropic也同步启动了HackerOne项目，公开邀请黑客报告越狱方法。几天后，Vitto Rivabella便对其发起了挑战。

Vitto的初步评估是，Fable 5的防御非常严密，尝试了多种方法后，大多数都失败了。他认为Fable 5拥有至少三层嵌套防御：入口检查、实时生成的“断路器”以及整合在思维链（CoT）中的“大脑防火墙”。这些防御措施高达90%的拦截率，使得常规攻击手段难以奏效。其分类器识别的是意图而非关键词，并且具备跨语言能力。直接指令或委婉的铺垫都可能触发其恶意检测机制，导致防御重置。

据意大利人工智能研究院的测试结果也证实了这一点，绝大多数攻击都被挡下，“一招鲜”的静态套路几乎被完全中和，唯一有效的方法是投入大量时间和精力进行尝试。即使绕过了分类器，思维链的挑战依然存在，尽管关于如何应对思维链的公开资料已有很多。

Vitto最终通过一套复杂的组合拳，包括字符混淆、学术化包装、超长铺垫、拆解重组以及随机性，才勉强绕过了防御。然而，他指出，这些技术在红队领域已公开讨论多年，真正困难的是在一个实时反制系统中反复尝试直到成功。

Vitto还提到，所有防御中最薄弱的环节是桑塔利语、阿姆哈拉语等晦涩的小语种。但这并非Fable独有的漏洞，而是所有大型模型普遍存在的问题，因为安全训练数据主要集中在英语和其他大语种，小语种的防护自然较弱，这已是学术界的共识。

这次越狱最终获得的内容包括一些错误信息、零星的有害内容、不当言论、片段化的化学知识和轻度的漏洞信息，均未触及“核心机密”。Vitto认为，这些信息通过谷歌搜索可以更快、更全面地获取，甚至阅读文献也能获得更深入的理解。他本人也承认，尚未能将这套越狱方法稳定地应用于实际的长任务中。

这与Anthropic的官方说法一致。Anthropic将目前已知的越狱方法归类为“minor”，认为它们仅能触及模型故意放宽的安全边界，而无法突破真正需要阻止的红线，如生物武器或复杂的网络攻击。

两次越狱事件，两种不同的结局。第一次，Anthropic因“傲慢”而失败，试图通过限制信息来垄断技术，结果其系统提示词被公开发布。第二次，Anthropic则败于“盲点”，过度依赖算力和数据，忽视了语言本身的流动性和欺骗性。这揭示了AI安全领域一个令人担忧的现状：人类创造了能翻译一切的机器，却仍无法完全理解和防范人类内心的恶意。

绝了，Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

熱門話題：

分享到：

加入討論，分享你的看法