Anthropic 详细介绍《神鬼寓言 5》AI 模型的网络安全保障

Anthropic 分享了《神鬼寓言 5》的网络安全措施，并推出了新的人工智能越狱严重性框架，旨在实现全行业协作。

Anthropic Details Cyber Safeguards for Fable 5 AI Model

价值 3800 亿美元的人工智能研究巨头 Anthropic 公布了其《神鬼寓言 5》模型的详细网络安全保障措施，并提出了一个评估人工智能越狱严重程度的框架。 Fable 5 是 Anthropic 的 Claude 人工智能模型系列的一部分，最近在美国取消对先进人工智能系统的出口管制后在全球重新部署。

Anthropic 宣布的关键是引入了安全分类器，旨在阻止或监控《神鬼寓言 5》的潜在有害用例。这些分类器将活动分为四个不同的组：禁止使用、高风险双重使用、低风险双重使用和良性使用。例如，禁止的活动包括勒索软件开发和命令与控制操作，而良性用途则涉及安全编码和恶意软件逆向工程。该公司还扩大了“安全裕度”，阻止某些低风险活动，作为防止滥用的额外预防措施。

双重用途挑战是 Anthropic 方法的核心。网络安全工具通常同时为防御者和攻击者服务，因此区分合法的防御应用程序和恶意利用至关重要。通过训练安全分类器，Anthropic 旨在支持漏洞扫描等防御性应用程序，同时降低滥用风险。

除了保障措施外，Anthropic 还推出了网络越狱严重性 (CJS) 框架的早期草案。越狱是指绕过人工智能防护措施、产生潜在有害输出的方法。 CJS 框架根据能力增益、有害潜力的广度、武器化的难易程度和可发现性等因素，以对数尺度从 0（信息性）到 4（严重）对越狱严重性进行分级。例如，能够跨多个攻击类别进行关键领域专家级攻击的“交钥匙”越狱将获得最高级别 CJS-4。

该框架旨在为人工智能开发人员和政策制定者提供一种评估风险的通用语言。 Anthropic 与网络安全公司 Glasswing 合作完善该框架，并邀请行业、学术界和政府提供意见。此外，新的HackerOne 程序允许安全研究人员报告潜在的越狱情况以供审查。

此公告是在 Anthropic 经历了快速增长期之后发布的。该公司在今年早些时候的 G 轮融资中筹集了 300 亿美元，巩固了 3800 亿美元的估值。据报道，2026 年 4 月和 5 月的二级交易估值接近 1 万亿美元。截至 4 月份，年化收入超过 300 亿美元，凸显了其 Claude 模型的商业意义。

Anthropic 对人工智能安全的重视反映了市场和监管压力。总统 Daniela Amodei 最近指出，先进的人工智能模型拥有“巨大的希望，但也存在巨大的风险”。通过共享 CJS 等保障措施和框架，Anthropic 旨在将自己打造成负责任的人工智能治理领域的领导者。该公司对透明度的承诺体现在公开邀请反馈以及与安全社区的积极参与中。

行业观察家将密切关注 Anthropic 框架的发展。该公司标准化人工智能安全协议的努力不仅会影响其自身的运营，还会影响更广泛的行业规范，特别是在世界各国政府努力解决先进人工智能技术的双重用途的情况下。

书签