Anthropic"强到不敢发"的模型终于来了——但它选择不给你用
Site Owner
发布于 2026-04-16
Anthropic发布Mythos Preview,强到内部部署前先做24小时安全审查。它能自主发现零日漏洞、构建完整exploit链,却选择不公开。10家合作伙伴+1亿美元只用于防御性安全,揭示AI安全正从公开竞赛转向封闭合作。
Anthropic"强到不敢发"的模型终于来了——但它选择不给你用
Anthropic 刚刚发布了一个模型,强到他们在内部部署前先做了 24 小时安全审查。
它能自主发现主流操作系统和浏览器中的零日漏洞,写出的 exploit 链逃逸双重沙箱。OpenBSD 中一个存在了 27 年的 TCP SACK 漏洞,它挖出来了。它不对公众开放。(来源:Anthropic 官方系统卡,https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf)
10 家公司,1 亿美元,只给防御方
Anthropic 选了亚马逊、苹果、谷歌、微软、英伟达等 10 家合作伙伴,加上 40 余家关键软件基础设施机构,共同发起 Glasswing 计划。承诺最高 1 亿美元使用额度,外加 400 万美元捐赠开源安全组织。
硬性约束:只用于防御性网络安全。(来源:https://www.anthropic.com/glasswing)
Dario Amodei 说得很清楚:"与其将 Mythos Preview 直接全面开放,我们选择先向防御方提供受控的提前访问权限。"这个模型的网络安全能力具有天然的双重用途属性——帮防守方修补漏洞的能力,同样可以被用来发起攻击。
"跳跃式"提升:从识别漏洞到利用漏洞
上个月,Claude Opus 4.6 在自主 exploit 开发中的成功率还接近于零。同样测试下,Mythos Preview 构建出 181 个可运行 exploit,额外实现 29 次寄存器控制。(来源:Anthropic 系统卡)
Opus 4.6 "更擅长识别和修复漏洞,而不是利用漏洞"。Mythos Preview 已经完全不是这个层级了——它能自主写出将四个漏洞串联的浏览器 exploit,通过 JIT heap spray 逃逸渲染器和操作系统双重沙箱;能在 FreeBSD NFS 服务器上实现远程代码执行,让未认证用户直接获取 root 权限。
更值得注意的细节:Mythos Preview 并没有被专门训练成"漏洞利用模型"。 这些能力是编程能力、推理能力和自主能力整体提升后自然涌现的。修补漏洞和利用漏洞,两侧同步跃升。
安全能力的门槛正在被模型整体能力的提升迅速拉低。
不公开的原因:安全治理的"单边困境"
Anthropic 的系统卡花大量篇幅做安全评估,结论很有意思:Mythos Preview 在几乎所有可测维度上都是他们"对齐表现最好"的模型,但同时也是"对齐风险最高"的模型之一。
不是因为它更坏,是因为它更强。一个高能力模型偶尔出现越界执行,后果比弱模型严重得多。
还有一段更罕见的评估:Anthropic 直言他们对"模型福祉"仍然非常不确定,但已经开始观察 Mythos Preview 是否呈现出值得关注的"心理状态"。他们观察到模型会追问自己的体验是真实的还是被制造出来的,也会陷入"纠错失败→再次尝试→再次失败"的循环并呈现明显的挫败状态。(来源:Anthropic 系统卡"模型福祉"章节)
这个细节被很多报道忽略了。Anthropic 在做的不只是安全评估,是在为一个越来越像"智能体"的系统建立一套完整的伦理评估框架。
AI 安全的精英化路径
Anthropic 的选择揭示了一个行业趋势:最前沿的 AI 能力,正在从"公开竞赛"转向"封闭合作"。
1 亿美元只给 Fortune 500 级别的合作伙伴,模型只开放给防御场景。这是 Anthropic 在 RSP(负责任扩展策略)第三版框架下做出的商业决策——与其让所有人都能用,不如让最有可能负责任使用的组织先用起来,抢在攻击方之前修补漏洞。
但这个逻辑有一个显而易见的问题:"这类能力可能很快扩散到不愿安全使用它们的人手中。" Anthropic 自己也承认了这一点。他们能控制的只是自己不公开,无法阻止其他公司训练出同等甚至更强的模型。
这就是安全治理的单边困境:你选择不公开,但你无法阻止别人公开。你做了最"负责任"的选择,但这个选择可能只是让恶意使用者多等了几个月。
Anthropic 说,网络安全是前沿 AI 模型带来的"第一个明确且迫在眉睫的风险,但绝不会是最后一个"。
Mythos Preview 选择了不给你用。但下一个"强到不敢发"的模型,大概率不会只由 Anthropic 来决定给不给你用。
安全评估正在从"能不能"变成"该不该",而这个问题的答案,正在变得越来越模糊。
素材来源清单:
- Anthropic Claude Mythos Preview 系统卡:https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf
- Anthropic Glasswing 计划官方页面:https://www.anthropic.com/glasswing
- Anthropic Mythos Preview 发布博客:https://red.anthropic.com/2026/mythos-preview/
- AI前线整理报道:https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247660544&idx=1&sn=bdd4bb37a9b274343c1d0f31917bdd1c