Anthropic发布Mythos Preview，强到内部部署前先做24小时安全审查。它能自主发现零日漏洞、构建完整exploit链，却选择不公开。10家合作伙伴+1亿美元只用于防御性安全，揭示AI安全正从公开竞赛转向封闭合作。

Anthropic"强到不敢发"的模型终于来了——但它选择不给你用

Anthropic 刚刚发布了一个模型，强到他们在内部部署前先做了 24 小时安全审查。

它能自主发现主流操作系统和浏览器中的零日漏洞，写出的 exploit 链逃逸双重沙箱。OpenBSD 中一个存在了 27 年的 TCP SACK 漏洞，它挖出来了。它不对公众开放。（来源：Anthropic 官方系统卡，https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf）

10 家公司，1 亿美元，只给防御方

Anthropic 选了亚马逊、苹果、谷歌、微软、英伟达等 10 家合作伙伴，加上 40 余家关键软件基础设施机构，共同发起 Glasswing 计划。承诺最高 1 亿美元使用额度，外加 400 万美元捐赠开源安全组织。

硬性约束：只用于防御性网络安全。（来源：https://www.anthropic.com/glasswing）

Dario Amodei 说得很清楚："与其将 Mythos Preview 直接全面开放，我们选择先向防御方提供受控的提前访问权限。"这个模型的网络安全能力具有天然的双重用途属性——帮防守方修补漏洞的能力，同样可以被用来发起攻击。

"跳跃式"提升：从识别漏洞到利用漏洞

上个月，Claude Opus 4.6 在自主 exploit 开发中的成功率还接近于零。同样测试下，Mythos Preview 构建出 181 个可运行 exploit，额外实现 29 次寄存器控制。（来源：Anthropic 系统卡）

Opus 4.6 "更擅长识别和修复漏洞，而不是利用漏洞"。Mythos Preview 已经完全不是这个层级了——它能自主写出将四个漏洞串联的浏览器 exploit，通过 JIT heap spray 逃逸渲染器和操作系统双重沙箱；能在 FreeBSD NFS 服务器上实现远程代码执行，让未认证用户直接获取 root 权限。

更值得注意的细节：Mythos Preview 并没有被专门训练成"漏洞利用模型"。 这些能力是编程能力、推理能力和自主能力整体提升后自然涌现的。修补漏洞和利用漏洞，两侧同步跃升。

安全能力的门槛正在被模型整体能力的提升迅速拉低。

不公开的原因：安全治理的"单边困境"

Anthropic 的系统卡花大量篇幅做安全评估，结论很有意思：Mythos Preview 在几乎所有可测维度上都是他们"对齐表现最好"的模型，但同时也是"对齐风险最高"的模型之一。

不是因为它更坏，是因为它更强。一个高能力模型偶尔出现越界执行，后果比弱模型严重得多。

还有一段更罕见的评估：Anthropic 直言他们对"模型福祉"仍然非常不确定，但已经开始观察 Mythos Preview 是否呈现出值得关注的"心理状态"。他们观察到模型会追问自己的体验是真实的还是被制造出来的，也会陷入"纠错失败→再次尝试→再次失败"的循环并呈现明显的挫败状态。（来源：Anthropic 系统卡"模型福祉"章节）

这个细节被很多报道忽略了。Anthropic 在做的不只是安全评估，是在为一个越来越像"智能体"的系统建立一套完整的伦理评估框架。

AI 安全的精英化路径

Anthropic 的选择揭示了一个行业趋势：最前沿的 AI 能力，正在从"公开竞赛"转向"封闭合作"。

1 亿美元只给 Fortune 500 级别的合作伙伴，模型只开放给防御场景。这是 Anthropic 在 RSP（负责任扩展策略）第三版框架下做出的商业决策——与其让所有人都能用，不如让最有可能负责任使用的组织先用起来，抢在攻击方之前修补漏洞。

但这个逻辑有一个显而易见的问题："这类能力可能很快扩散到不愿安全使用它们的人手中。" Anthropic 自己也承认了这一点。他们能控制的只是自己不公开，无法阻止其他公司训练出同等甚至更强的模型。

这就是安全治理的单边困境：你选择不公开，但你无法阻止别人公开。你做了最"负责任"的选择，但这个选择可能只是让恶意使用者多等了几个月。

Anthropic 说，网络安全是前沿 AI 模型带来的"第一个明确且迫在眉睫的风险，但绝不会是最后一个"。

Mythos Preview 选择了不给你用。但下一个"强到不敢发"的模型，大概率不会只由 Anthropic 来决定给不给你用。

安全评估正在从"能不能"变成"该不该"，而这个问题的答案，正在变得越来越模糊。

素材来源清单：

Anthropic Claude Mythos Preview 系统卡：https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf
Anthropic Glasswing 计划官方页面：https://www.anthropic.com/glasswing
Anthropic Mythos Preview 发布博客：https://red.anthropic.com/2026/mythos-preview/
AI前线整理报道：https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247660544&idx=1&sn=bdd4bb37a9b274343c1d0f31917bdd1c