Claude Opus 4.8 正式发布！代码能力暴涨、1000 个子 Agent 并行，还预告了更强的 Mythos

Introducing Claude Opus 4.8

昨天（2026 年 5 月 28 日），Anthropic 悄悄发布了 Claude Opus 4.8。

说"悄悄"，是因为没有发布会、没有大型活动——只是一篇官方博客，直接宣布新模型今日可用。但 AI 圈的反应一点都不低调：开发者论坛刷屏，技术社区热议，TechCrunch、Axios、9to5Google 等媒体在同一时间密集报道。

距离 Opus 4.7 发布仅六周，Anthropic 就交出了这份成绩单。不是小修小补，而是几项实实在在的突破：代码能力跨越式提升、诚实度提升四倍、动态工作流让 1000 个子 Agent 并行成为现实——以及一个让整个行业绷紧神经的预告：比 Opus 更强的 Mythos 级别模型，数周内将向所有用户开放。

这篇文章，带你把这次发布吃透。

核心亮点速览

先看官方 benchmark 对比表，直观感受 Opus 4.8 的进步幅度：

Opus 4.8 官方 benchmark 对比表

评测指标	Opus 4.7	Opus 4.8	提升
SWE-Bench Pro（代码）	64.3%	69.2%	+4.9%
多学科推理（带工具）	54.7%	57.9%	+3.2%
Agent 电脑操作（OSWorld）	82.3%	83.4%	+1.1%
知识工作评分	1753	1890	+7.8%
代码漏洞漏报率	基准	降低 4 倍	显著改善
Online-Mind2Web（浏览器 Agent）	未公开	84%	超越 GPT-5.5

定价方面，标准模式与 Opus 4.7 完全相同：输入 $5/M token，输出 $25/M token。Fast Mode 定价为输入 $10/M、输出 $50/M，但相比上一代的 Fast Mode，价格降低了三倍。

一、代码能力：不只是涨分，更是"不再说谎"

SWE-Bench Pro 69.2%，超越 GPT-5.5

SWE-Bench Pro 是目前最权威的真实世界代码修复评测之一，要求模型在真实开源项目的 GitHub Issue 中完成 bug 修复。Opus 4.8 的 69.2% 不仅超过了 Opus 4.7 的 64.3%，也超过了 GPT-5.5 和 Gemini 3.1 Pro。

官方收录了来自 Shopify、Cursor、Devin、Databricks 等 11 家公司的真实评价：

早期测试者评价

Cursor 联合创始人兼 CEO Michael Truell 在官方评价中写道：

"在 CursorBench 上，Claude Opus 4.8 在每个 effort 级别都超过了先前的 Opus 模型。工具调用效率明显提升，完成同等难度任务所需步骤更少，并且能持续推进端到端任务。"

一个细节值得注意：GPT-5.5 在终端编码基准 Terminal-Bench 2.1 上仍以 83.4% 领先（Opus 4.8 为 79.4%）。这说明两家在代码方向的竞争仍在你追我赶——但 Opus 4.8 在真实工程场景下的综合表现已经明确占优。

诚实度提升四倍：AI 终于学会说"我不确定"

这是这次发布中最被忽视、却可能最重要的改进。

过去用 AI 写代码，一个令人头疼的问题是：模型在出错时往往不承认，甚至主动掩盖问题。代码跑不通，它可能告诉你"已经修好了"；逻辑有漏洞，它可能直接略过不提。

Anthropic 的测评数据显示，Opus 4.8 在代码缺陷漏报方面比 Opus 4.7 降低了四倍——也就是说，它更可能主动告诉你："这里有个问题，我还没有把握。"

一家做长周期金融分析的公司 Sr. Investment Associate Michael Ran 评价道：

"最大的差异化是 Opus 4.8 倾向于主动标记分析输入输出中的问题，而其他模型通常会遗漏这些，留给用户自己去发现。"

Anthropic 的对齐评估图表清楚地说明了这一点——Opus 4.8 的失调行为率已与 Mythos Preview 持平，远低于 Opus 4.7：

Misaligned behavior 对比图

这对于 Agent 场景尤为关键。一个不会主动报告失败的 Agent，在无人监督运行时可能把错误越滚越大；一个能主动"举手"的 Agent，才是真正可以放手的助手。

二、动态工作流：1000 个子 Agent 并行，重新定义"大任务"

这是这次发布的最大惊喜，也是最值得开发者深入了解的新功能。

Introducing dynamic workflows in Claude Code

什么是动态工作流？

以前，Claude 在 Claude Code 中处理复杂任务时，基本上是"一个人干完所有事"——顺序思考、顺序执行，遇到需要并行处理的环节也只能等待。

动态工作流改变了这个模式：Claude 会先规划整个任务，写出一个 JavaScript 编排脚本，然后同时启动数十到数百个子 Agent 并行推进。中间状态保存在脚本变量里，最终结果经过交叉验证后才返回给用户。

官方给出的一个典型场景：百万行级别的代码库迁移。从启动到合并，全程由 Claude Code 自主完成，以现有测试套件作为验收标准。

动态工作流实际运行截图

关键参数

最多 1000 个子 Agent / 次运行
最多 16 个并发 子 Agent
子 Agent 之间可以"互相验证"，一组找解法，另一组专门挑错
目前处于研究预览阶段，仅限 Claude Code Enterprise、Team 和 Max 计划

Devin CEO Scott Wu 的评价揭示了这一功能在实际工程中的价值：

"它使工具调用更简洁，指令执行更一致，正是我们自动化工程工作流需要的那种可靠性。这次发布直接转化为我们工程师更快的能力提升。"

和 Effort 控制搭配使用

与动态工作流同期发布的还有 Effort 控制，让用户可以调节 Claude 的推理深度：

Low：响应快，消耗 token 少，适合简单查询
High（默认）：Anthropic 认为最均衡的体验，性能与 Opus 4.7 相近但表现更好
Extra（Claude Code 中为 xhigh）：更深入思考，适合复杂任务和长时间异步工作流
Max：最高推理强度，适合最难的任务

官方特别说明：高 Effort 模式不只是"多想一会儿"，而是更频繁、更深入地推理——对应的 rate limit 也已上调以适应更高的 token 消耗。

三、Fast Mode 大幅降价：性价比新选择

Fast Mode 在 Opus 4.8 上迎来了重大调整：速度提升 2.5 倍，价格相比上一代 Fast Mode 降低三倍。

从定价角度看：

标准模式：$5/M 输入，$25/M 输出
Fast Mode：$10/M 输入，$50/M 输出

乍看 Fast Mode 更贵，但要注意：Fast Mode 完成同一任务需要的 token 更少（因为响应更直接、推理链更短），加上速度优势，整体成本和时间效益对于高并发场景非常可观。

Databricks CTO Hanlin Tang 也提到了一个相关数据：Opus 4.8 的多模态能力相比 Opus 4.7 在 token 成本上便宜了 61%——这对需要处理大量 PDF、图表等非结构化内容的企业客户来说意义重大。

一个对开发者很实用的新 API 功能

除了上述功能，这次还有一个低调但重要的更新：Messages API 现在支持在消息数组中插入 system 条目。

这意味着什么？开发者可以在 Agent 运行过程中，动态更新 Claude 的指令（比如权限、token 预算、环境上下文），而不会打断 prompt cache，也不需要绕道走 user turn。对于复杂的 Agent 框架来说，这极大降低了架构设计的复杂度。

四、彩蛋：Mythos 级别模型，数周内全面开放

如果说 Opus 4.8 是一次扎实的迭代，那么 Anthropic 在发布文末埋下的这枚"炸弹"才是真正让行业绷紧神经的信息。

官方博客原文：

"我们计划发布一个比 Opus 智能水平更高的新模型类别。作为 Project Glasswing 的一部分，少数组织正在将 Claude Mythos Preview 用于网络安全工作。这一能力级别的模型在正式发布前需要更强的网络安全保障。我们正在快速推进这些保障措施的开发，预计在未来数周内将 Mythos 级别模型带给所有用户。"

这里有几个值得关注的信息点：

Mythos 不是 Opus 的下一代命名，而是一个全新的能力级别。Opus 系列继续迭代，Mythos 是独立于 Opus 之上的更高层级。
Opus 4.8 的对齐表现已接近 Mythos Preview。Anthropic 内部评估显示，Opus 4.8 的失调行为（如欺骗、配合滥用等）率"与我们最佳对齐模型 Claude Mythos Preview 相近"。这是一个很强的信号：Mythos 的差距主要在智能水平上，而非安全性。
Project Glasswing 的背后逻辑：更强大的模型需要更严格的网络安全保障才能开放，这正是 Anthropic"负责任扩展政策"的实践体现。

对比当下 AI 行业的竞争格局——OpenAI 正在备战 IPO、Google 频繁更新 Gemini 系列——Anthropic 这波节奏明显在加速。Opus 4.8 打好基础，Mythos 压轴登场，攻势清晰。

什么时候该升级到 Opus 4.8？

对于不同场景的建议：

立即升级：

在做代码库级别的大型重构或迁移
使用 Claude Code 处理复杂 Agent 任务
对代码准确性和 AI 诚实度要求高

可以等等看：

日常轻量级问答和写作，Sonnet 系列性价比更高
预算敏感型项目，等 Mythos 发布后再做整体评估

开发者行动清单：

将 API 调用中的模型 ID 更新为 claude-opus-4-8
尝试 xhigh Effort 模式用于复杂推理任务
如果是 Enterprise/Team/Max 用户，申请动态工作流研究预览

总结

Claude Opus 4.8 不是一次颠覆性发布，但是一次密度很高的实用性升级：代码准确率新高、诚实度大幅提升、动态工作流开创并行 Agent 新范式、Fast Mode 性价比改善——每一项都指向更可靠、更实用的 AI 协作体验。

更重要的是，这次发布传递了一个信号：Anthropic 正在加速。距离 Mythos 全面开放，可能真的只剩几周了。