Opus 4.6 发布才十几天,Anthropic 又发布了 Claude Sonnet 4.6。
官方的定位很明确:Sonnet 4.6 在编码、办公任务等实际场景中能达到 Opus 级别的性能,定价和上一代 Sonnet 4.5 一样,输入 $3、输出 $15 每百万 token。

先看数据
编码基准 SWE-bench Verified 上,Sonnet 4.6 拿到 79.6%,Opus 4.6 是 80.8%,差距只有 1.2 个百分点。

计算机使用能力测试 OSWorld-Verified 上,Sonnet 4.6 得分 72.5%,Opus 4.6 是 72.7%,基本打平。
不过在某些实际任务上 Sonnet 4.6 反而超过了 Opus 4.6,比如办公任务基准GDPval-AA 和金融分析基准 Finance Agent。

当然 Opus 在纯推理任务上仍然有明显优势,比如 ARC-AGI-2 上 Opus 4.6 是 75.2%,Sonnet 4.6 是 58.3%。
不过 Sonnet 4.6 这个 58.3% 本身已经是一个很大的飞跃了,上代 Sonnet 4.5 只有 13.6%,单代提升了 4.3 倍,是这个基准历史上最大的单代进步。
编码和实际使用体验
编码是 Sonnet 4.6 提升最明显的方向。
Claude Code 的早期测试中,用户 70% 的时候更喜欢 Sonnet 4.6 而不是上代的 Sonnet 4.5,59% 的时候甚至更喜欢它而不是去年 11 月的旗舰模型 Opus 4.5。
用户反馈说它修改代码前会先读上下文,不再像之前那样容易过度工程化,幻觉更少了,多步骤任务也能更好地执行到底。
计算机使用能力的进步同样值得关注。OSWorld 基准中 Sonnet 系列的得分变化很能说明问题:2024 年 10 月 Sonnet 3.5 只有 14.9%,到 Sonnet 4.5 涨到 61.4%,现在 Sonnet 4.6 达到 72.5%。16 个月翻了近 5 倍。横向对比的话,GPT-5.2 在同一基准上是 38.2%,Sonnet 4.6 差不多是它的两倍。

100 万 Token 上下文窗口
Sonnet 4.6 的标准上下文窗口是 200K token,同时提供了 100 万 token 的 beta 版本,通过 API 使用。这是之前 Sonnet 系列最大上下文窗口的两倍。
100 万 token 大概能装下一整个中型代码库,或者几十万字的文档,对代码审计、合同审查、长文档处理这类需要 AI 通读大量材料的场景比较实用。
另外 Sonnet 4.6 还支持 context compaction(上下文压缩),对话接近窗口限制时会自动总结较早的内容。
这个功能对 agent 场景特别有用,比如在 Claude Code 里连续工作几个小时,早期的具体调试细节会被总结掉,但关键的架构决策会保留下来,相当于有了一个无限长的对话能力。
价格和可用性
定价和 Sonnet 4.5 一样:输入 $3/百万 token,输出 $15/百万 token。
对比一下,Opus 4.6 是 $5/$25。虽然绝对值差距看起来不大,但调用量上去之后能省不少。
免费用户和 Pro 用户现在打开 claude.ai 默认就是 Sonnet 4.6,不需要额外操作。
开发者方面,除了 Anthropic 自己的 API,Sonnet 4.6 也上线了 Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 和 GitHub Copilot。

Opus 在最复杂的推理任务上还是有优势,但大多数实际场景下 Sonnet 4.6 的性价比更高。AI 模型的竞争除了比谁更强,也在比谁能用更低的成本提供足够好的性能。
💡 AI 工具的爆发,让普通人也能快速做出产品。
但如何做?如何变现?如何真正走向海外市场?
👇 想了解更多 AI 编程 & 出海实战信息,扫码添加好友了解更多
🔗 更多教程请访问 ipengtao.com
文章评论