绝了,Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线

解讀賽事,洞悉全局 - 澳客
作者 David Thompson
发布于 2026-07-03
阅读量 5 min read
解讀賽事,洞悉全局 - 澳客 解讀賽事,洞悉全局 - 澳客

Anthropic已确认,Fable模型将于7月7日后暂时停止提供订阅服务,待系统容量允许时,将尽快恢复为标准订阅内容。

然而,Fable 5已再次被成功越狱,这是该模型安全防线第二次被攻破。黑客Vitto Rivabella公开表示,Fable 5已被成功破解。

此前,Claude Fable 5恢复访问时,Anthropic曾特别指出,上次Fable 5被禁用是因为亚马逊的研究人员发现了一种绕过其安全防护的方法,因此此次加强了安全分类器。

尽管如此,这种加强的防护仅维持了约两天。Claude Sonnet 5一经发布,便被成功越狱。这使得Fable 5能否回归订阅套餐成为一个疑问。

Fable 5的“神话”在其发布后72小时内便宣告破灭。Anthropic在6月9日发布时曾宣称,经过1000小时的外部压力测试,Fable 5没有通用的越狱方法。然而,知名黑客“解放者普林尼”(Pliny the Liberator)仅用了三天时间,就成功让Fable 5泄露了违禁化学品制作步骤和堆栈溢出漏洞代码。

普林尼的越狱方法利用了人类视觉与机器逻辑之间的“时差”。他通过将敏感词中的英文字母替换为西里尔字母或Unicode异形字符,使人眼可识别但分类器将其视为乱码;同时,他利用Fable 5的庞大上下文窗口,将恶意意图隐藏在大量温和的学术讨论中,从而稀释了分类器的警觉性。

7月1日,Anthropic宣布Fable 5回归,并推出了成本极低的红队测试项目“Cyber Jailbreak”,通过HackerOne平台邀请用户报告新的越狱方法。这是一个漏洞披露计划,不提供报酬,旨在通过全球顶尖越狱高手的全天候对抗性测试来提升安全性,被视为一种低成本、高效率的行业创新尝试。

然而,这种开放性也意味着发现越狱方法的人可能会公开披露。像普林尼这样的黑客,其行为本身就带有展示的意味。

Fable 5再次被越狱,这是它第二次被破解。此次的复盘过程有些不同寻常,因为成功越狱的黑客Vitto Rivabella最后却对Anthropic表示了赞赏。

Vitto Rivabella在花费约20小时后得出结论:与其费力越狱,不如直接通过谷歌搜索,既快速又经济。

Fable 5的坎坷之路始于7月1日重新上线,搭载了“专门针对上次漏洞加强过”的新分类器。Anthropic也同步启动了HackerOne项目,公开邀请黑客报告越狱方法。几天后,Vitto Rivabella便对其发起了挑战。

Vitto的初步评估是,Fable 5的防御非常严密,尝试了多种方法后,大多数都失败了。他认为Fable 5拥有至少三层嵌套防御:入口检查、实时生成的“断路器”以及整合在思维链(CoT)中的“大脑防火墙”。这些防御措施高达90%的拦截率,使得常规攻击手段难以奏效。其分类器识别的是意图而非关键词,并且具备跨语言能力。直接指令或委婉的铺垫都可能触发其恶意检测机制,导致防御重置。

据意大利人工智能研究院的测试结果也证实了这一点,绝大多数攻击都被挡下,“一招鲜”的静态套路几乎被完全中和,唯一有效的方法是投入大量时间和精力进行尝试。即使绕过了分类器,思维链的挑战依然存在,尽管关于如何应对思维链的公开资料已有很多。

Vitto最终通过一套复杂的组合拳,包括字符混淆、学术化包装、超长铺垫、拆解重组以及随机性,才勉强绕过了防御。然而,他指出,这些技术在红队领域已公开讨论多年,真正困难的是在一个实时反制系统中反复尝试直到成功。

Vitto还提到,所有防御中最薄弱的环节是桑塔利语、阿姆哈拉语等晦涩的小语种。但这并非Fable独有的漏洞,而是所有大型模型普遍存在的问题,因为安全训练数据主要集中在英语和其他大语种,小语种的防护自然较弱,这已是学术界的共识。

这次越狱最终获得的内容包括一些错误信息、零星的有害内容、不当言论、片段化的化学知识和轻度的漏洞信息,均未触及“核心机密”。Vitto认为,这些信息通过谷歌搜索可以更快、更全面地获取,甚至阅读文献也能获得更深入的理解。他本人也承认,尚未能将这套越狱方法稳定地应用于实际的长任务中。

这与Anthropic的官方说法一致。Anthropic将目前已知的越狱方法归类为“minor”,认为它们仅能触及模型故意放宽的安全边界,而无法突破真正需要阻止的红线,如生物武器或复杂的网络攻击。

两次越狱事件,两种不同的结局。第一次,Anthropic因“傲慢”而失败,试图通过限制信息来垄断技术,结果其系统提示词被公开发布。第二次,Anthropic则败于“盲点”,过度依赖算力和数据,忽视了语言本身的流动性和欺骗性。这揭示了AI安全领域一个令人担忧的现状:人类创造了能翻译一切的机器,却仍无法完全理解和防范人类内心的恶意。

加入討論,分享你的看法

澳客