Sonnet 4.6 来了！花 Sonnet 的钱，干 Opus 的活

2026年2月19日 369点热度 0人点赞 0条评论

Opus 4.6 发布才十几天，Anthropic 又发布了 Claude Sonnet 4.6。

官方的定位很明确：Sonnet 4.6 在编码、办公任务等实际场景中能达到 Opus 级别的性能，定价和上一代 Sonnet 4.5 一样，输入 $3、输出 $15 每百万 token。

先看数据

编码基准 SWE-bench Verified 上，Sonnet 4.6 拿到 79.6%，Opus 4.6 是 80.8%，差距只有 1.2 个百分点。

A table of popular benchmarks and Sonnet 4.6's relative performance compared to other frontier models

计算机使用能力测试 OSWorld-Verified 上，Sonnet 4.6 得分 72.5%，Opus 4.6 是 72.7%，基本打平。

不过在某些实际任务上 Sonnet 4.6 反而超过了 Opus 4.6，比如办公任务基准GDPval-AA 和金融分析基准 Finance Agent。

当然 Opus 在纯推理任务上仍然有明显优势，比如 ARC-AGI-2 上 Opus 4.6 是 75.2%，Sonnet 4.6 是 58.3%。

不过 Sonnet 4.6 这个 58.3% 本身已经是一个很大的飞跃了，上代 Sonnet 4.5 只有 13.6%，单代提升了 4.3 倍，是这个基准历史上最大的单代进步。

编码和实际使用体验

编码是 Sonnet 4.6 提升最明显的方向。

Claude Code 的早期测试中，用户 70% 的时候更喜欢 Sonnet 4.6 而不是上代的 Sonnet 4.5，59% 的时候甚至更喜欢它而不是去年 11 月的旗舰模型 Opus 4.5。

用户反馈说它修改代码前会先读上下文，不再像之前那样容易过度工程化，幻觉更少了，多步骤任务也能更好地执行到底。

计算机使用能力的进步同样值得关注。OSWorld 基准中 Sonnet 系列的得分变化很能说明问题：2024 年 10 月 Sonnet 3.5 只有 14.9%，到 Sonnet 4.5 涨到 61.4%，现在 Sonnet 4.6 达到 72.5%。16 个月翻了近 5 倍。横向对比的话，GPT-5.2 在同一基准上是 38.2%，Sonnet 4.6 差不多是它的两倍。