开发者Club开发者Club
资讯AI 资讯

Claude Opus 4.8 正式发布!代码能力暴涨、1000 个子 Agent 并行,还预告了更强的 Mythos

昨天(2026 年 5 月 28 日),Anthropic 悄悄发布了 Claude Opus 4.8。

FTD DevClub
Claude Opus 4.8Anthropic动态工作流AI 编程MythosAgent

Introducing Claude Opus 4.8

昨天(2026 年 5 月 28 日),Anthropic 悄悄发布了 Claude Opus 4.8。

说"悄悄",是因为没有发布会、没有大型活动——只是一篇官方博客,直接宣布新模型今日可用。但 AI 圈的反应一点都不低调:开发者论坛刷屏,技术社区热议,TechCrunch、Axios、9to5Google 等媒体在同一时间密集报道。

距离 Opus 4.7 发布仅六周,Anthropic 就交出了这份成绩单。不是小修小补,而是几项实实在在的突破:代码能力跨越式提升、诚实度提升四倍、动态工作流让 1000 个子 Agent 并行成为现实——以及一个让整个行业绷紧神经的预告:比 Opus 更强的 Mythos 级别模型,数周内将向所有用户开放。

这篇文章,带你把这次发布吃透。

核心亮点速览

先看官方 benchmark 对比表,直观感受 Opus 4.8 的进步幅度:

Opus 4.8 官方 benchmark 对比表

评测指标Opus 4.7Opus 4.8提升
SWE-Bench Pro(代码)64.3%69.2%+4.9%
多学科推理(带工具)54.7%57.9%+3.2%
Agent 电脑操作(OSWorld)82.3%83.4%+1.1%
知识工作评分17531890+7.8%
代码漏洞漏报率基准降低 4 倍显著改善
Online-Mind2Web(浏览器 Agent)未公开84%超越 GPT-5.5

定价方面,标准模式与 Opus 4.7 完全相同:输入 $5/M token,输出 $25/M token。Fast Mode 定价为输入 $10/M、输出 $50/M,但相比上一代的 Fast Mode,价格降低了三倍

一、代码能力:不只是涨分,更是"不再说谎"

SWE-Bench Pro 69.2%,超越 GPT-5.5

SWE-Bench Pro 是目前最权威的真实世界代码修复评测之一,要求模型在真实开源项目的 GitHub Issue 中完成 bug 修复。Opus 4.8 的 69.2% 不仅超过了 Opus 4.7 的 64.3%,也超过了 GPT-5.5 和 Gemini 3.1 Pro。

官方收录了来自 Shopify、Cursor、Devin、Databricks 等 11 家公司的真实评价:

早期测试者评价

Cursor 联合创始人兼 CEO Michael Truell 在官方评价中写道:

"在 CursorBench 上,Claude Opus 4.8 在每个 effort 级别都超过了先前的 Opus 模型。工具调用效率明显提升,完成同等难度任务所需步骤更少,并且能持续推进端到端任务。"

一个细节值得注意:GPT-5.5 在终端编码基准 Terminal-Bench 2.1 上仍以 83.4% 领先(Opus 4.8 为 79.4%)。这说明两家在代码方向的竞争仍在你追我赶——但 Opus 4.8 在真实工程场景下的综合表现已经明确占优。

诚实度提升四倍:AI 终于学会说"我不确定"

这是这次发布中最被忽视、却可能最重要的改进。

过去用 AI 写代码,一个令人头疼的问题是:模型在出错时往往不承认,甚至主动掩盖问题。代码跑不通,它可能告诉你"已经修好了";逻辑有漏洞,它可能直接略过不提。

Anthropic 的测评数据显示,Opus 4.8 在代码缺陷漏报方面比 Opus 4.7 降低了四倍——也就是说,它更可能主动告诉你:"这里有个问题,我还没有把握。"

一家做长周期金融分析的公司 Sr. Investment Associate Michael Ran 评价道:

"最大的差异化是 Opus 4.8 倾向于主动标记分析输入输出中的问题,而其他模型通常会遗漏这些,留给用户自己去发现。"

Anthropic 的对齐评估图表清楚地说明了这一点——Opus 4.8 的失调行为率已与 Mythos Preview 持平,远低于 Opus 4.7:

Misaligned behavior 对比图

这对于 Agent 场景尤为关键。一个不会主动报告失败的 Agent,在无人监督运行时可能把错误越滚越大;一个能主动"举手"的 Agent,才是真正可以放手的助手。

二、动态工作流:1000 个子 Agent 并行,重新定义"大任务"

这是这次发布的最大惊喜,也是最值得开发者深入了解的新功能。

Introducing dynamic workflows in Claude Code

什么是动态工作流?

以前,Claude 在 Claude Code 中处理复杂任务时,基本上是"一个人干完所有事"——顺序思考、顺序执行,遇到需要并行处理的环节也只能等待。

动态工作流改变了这个模式:Claude 会先规划整个任务,写出一个 JavaScript 编排脚本,然后同时启动数十到数百个子 Agent 并行推进。中间状态保存在脚本变量里,最终结果经过交叉验证后才返回给用户。

官方给出的一个典型场景:百万行级别的代码库迁移。从启动到合并,全程由 Claude Code 自主完成,以现有测试套件作为验收标准。

动态工作流实际运行截图

关键参数

  • 最多 1000 个子 Agent / 次运行
  • 最多 16 个并发 子 Agent
  • 子 Agent 之间可以"互相验证",一组找解法,另一组专门挑错
  • 目前处于研究预览阶段,仅限 Claude Code Enterprise、Team 和 Max 计划

Devin CEO Scott Wu 的评价揭示了这一功能在实际工程中的价值:

"它使工具调用更简洁,指令执行更一致,正是我们自动化工程工作流需要的那种可靠性。这次发布直接转化为我们工程师更快的能力提升。"

和 Effort 控制搭配使用

与动态工作流同期发布的还有 Effort 控制,让用户可以调节 Claude 的推理深度:

  • Low:响应快,消耗 token 少,适合简单查询
  • High(默认):Anthropic 认为最均衡的体验,性能与 Opus 4.7 相近但表现更好
  • Extra(Claude Code 中为 xhigh):更深入思考,适合复杂任务和长时间异步工作流
  • Max:最高推理强度,适合最难的任务

官方特别说明:高 Effort 模式不只是"多想一会儿",而是更频繁、更深入地推理——对应的 rate limit 也已上调以适应更高的 token 消耗。

三、Fast Mode 大幅降价:性价比新选择

Fast Mode 在 Opus 4.8 上迎来了重大调整:速度提升 2.5 倍,价格相比上一代 Fast Mode 降低三倍

从定价角度看:

  • 标准模式:$5/M 输入,$25/M 输出
  • Fast Mode:$10/M 输入,$50/M 输出

乍看 Fast Mode 更贵,但要注意:Fast Mode 完成同一任务需要的 token 更少(因为响应更直接、推理链更短),加上速度优势,整体成本和时间效益对于高并发场景非常可观。

Databricks CTO Hanlin Tang 也提到了一个相关数据:Opus 4.8 的多模态能力相比 Opus 4.7 在 token 成本上便宜了 61%——这对需要处理大量 PDF、图表等非结构化内容的企业客户来说意义重大。

一个对开发者很实用的新 API 功能

除了上述功能,这次还有一个低调但重要的更新:Messages API 现在支持在消息数组中插入 system 条目

这意味着什么?开发者可以在 Agent 运行过程中,动态更新 Claude 的指令(比如权限、token 预算、环境上下文),而不会打断 prompt cache,也不需要绕道走 user turn。对于复杂的 Agent 框架来说,这极大降低了架构设计的复杂度。

四、彩蛋:Mythos 级别模型,数周内全面开放

如果说 Opus 4.8 是一次扎实的迭代,那么 Anthropic 在发布文末埋下的这枚"炸弹"才是真正让行业绷紧神经的信息。

官方博客原文:

"我们计划发布一个比 Opus 智能水平更高的新模型类别。作为 Project Glasswing 的一部分,少数组织正在将 Claude Mythos Preview 用于网络安全工作。这一能力级别的模型在正式发布前需要更强的网络安全保障。我们正在快速推进这些保障措施的开发,预计在未来数周内将 Mythos 级别模型带给所有用户。"

这里有几个值得关注的信息点:

  1. Mythos 不是 Opus 的下一代命名,而是一个全新的能力级别。Opus 系列继续迭代,Mythos 是独立于 Opus 之上的更高层级。

  2. Opus 4.8 的对齐表现已接近 Mythos Preview。Anthropic 内部评估显示,Opus 4.8 的失调行为(如欺骗、配合滥用等)率"与我们最佳对齐模型 Claude Mythos Preview 相近"。这是一个很强的信号:Mythos 的差距主要在智能水平上,而非安全性。

  3. Project Glasswing 的背后逻辑:更强大的模型需要更严格的网络安全保障才能开放,这正是 Anthropic"负责任扩展政策"的实践体现。

对比当下 AI 行业的竞争格局——OpenAI 正在备战 IPO、Google 频繁更新 Gemini 系列——Anthropic 这波节奏明显在加速。Opus 4.8 打好基础,Mythos 压轴登场,攻势清晰。

什么时候该升级到 Opus 4.8?

对于不同场景的建议:

立即升级

  • 在做代码库级别的大型重构或迁移
  • 使用 Claude Code 处理复杂 Agent 任务
  • 对代码准确性和 AI 诚实度要求高

可以等等看

  • 日常轻量级问答和写作,Sonnet 系列性价比更高
  • 预算敏感型项目,等 Mythos 发布后再做整体评估

开发者行动清单

  1. 将 API 调用中的模型 ID 更新为 claude-opus-4-8
  2. 尝试 xhigh Effort 模式用于复杂推理任务
  3. 如果是 Enterprise/Team/Max 用户,申请动态工作流研究预览

总结

Claude Opus 4.8 不是一次颠覆性发布,但是一次密度很高的实用性升级:代码准确率新高、诚实度大幅提升、动态工作流开创并行 Agent 新范式、Fast Mode 性价比改善——每一项都指向更可靠、更实用的 AI 协作体验。

更重要的是,这次发布传递了一个信号:Anthropic 正在加速。距离 Mythos 全面开放,可能真的只剩几周了。


参考来源