彭涛

  • 首页
  • AI编程出海
  • 千里会
  • 博客
    • Github 精选项目
    • Python 资料领取
    • 个人IP
  • 关于我
聚焦 AI 编程与出海实战,分享实用方法与创业经验,还有很多副业玩法。

首页 » 未分类 » Gemini 3.1 Pro 来了!推理翻倍、SVG 能力惊艳、价格只要Claude 一半

Gemini 3.1 Pro 来了!推理翻倍、SVG 能力惊艳、价格只要Claude 一半

2026年2月24日 26点热度 0人点赞 0条评论

Google 深夜发布了 Gemini 3.1 Pro。距离上一代 Gemini 3 Pro 上线才三个月,这次版本号只升了 0.1,但实际升级幅度远超"小版本更新"的预期。先不看跑分,直接看 Google 这次放出来的几个 Demo,感受会更直接。

image-20260220165604442

先看效果:这次 3.1 Pro 能干什么

SVG 动画生成是这次最出圈的能力。给一段文字描述,3.1 Pro 可以直接生成能用在网页上的 SVG 动画。SVG 是纯代码构建的矢量图形,任意缩放不失真,文件体积也比传统视频小得多。

Google 官方博客里给了 3 Pro 和 3.1 Pro 用同一个 prompt 生成的对比,3 Pro 的输出还停留在"能看"的水平,3.1 Pro 则在细节、层次感和代码结构上都有了明显提升。

Jeff Dean 分享的 3 Pro vs 3.1 Pro SVG 对比

图:Jeff Dean 在推特分享的 Gemini 3 Pro 与 3.1 Pro SVG 动画对比——同一个 prompt,3.1 Pro 的细节和创意明显更好。

SVGs_keyword_v3

图:Google 官方博客中的 SVG 动画 Demo 对比,左侧 Gemini 3 Pro,右侧 Gemini 3.1 Pro。

航天仪表盘展示的是复杂系统整合能力。3.1 Pro 直接调用了公开的遥测数据 API,搭了一个实时追踪国际空间站轨道的仪表盘。模型理解了复杂的 API 文档,完成了数据流的配置,还把结果呈现成了一个用户友好的界面。以前这种活需要前端+后端配合才能做,现在一个 prompt 就能出一个可用的原型。

image-20260220162832108

3D 椋鸟群舞更偏概念验证。3.1 Pro 用纯代码实现了 3D 鸟群模拟,支持手势追踪来操控鸟群运动方向,还配了一段随鸟群动态实时变化的生成式配乐。

Google 官方博客原文说的是"for researchers and designers, this provides a powerful way to prototype sensory-rich interfaces",给做多感官交互原型的研究人员和设计师提供了一种新的可能性。

Mumuration_SIM

文学风格转网站也很有意思。让 3.1 Pro 为《呼啸山庄》设计一个现代个人主页。根据 Google 官方博客的描述,模型没有简单概括情节,而是"reasoned through the novel's atmospheric tone to design a sleek, contemporary interface",分析了小说阴郁压抑的整体基调,设计出了贴合主人公气质的界面风格。

catherineearnshaw_web_design

以上四个 Demo 都可以在 Google 官方博客中找到:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

社区实测:推特上已经玩疯了

发布后推特上出现了大量实测,SVG 生成是被测试最多的方向。

Simon Willison 有一个经典测试:"画一只骑自行车的鹈鹕",专门用来检验模型的空间推理和细节表达能力。3.1 Pro 在这个测试上花了 5 分多钟思考(323.9 秒),但生成的结果质量很高,说明模型在生成代码时是有结构化思考的。

Jeff Dean 也在推特上转发了一组动画 SVG:鹈鹕骑自行车、青蛙骑高轮车、长颈鹿开小汽车、鸵鸟穿旱冰鞋、腊肠犬开加长车,视觉效果都不错。

Simon Willison 的鹈鹕 SVG 测试

图:Simon Willison 用 "Generate an SVG of a pelican riding a bicycle" 测试 3.1 Pro,生成结果细节丰富——腿部结构清晰,篮子里还有一条鱼。

@Lentils80 做了多组 3 Pro 和 3.1 Pro 的同 prompt 对比测试,评价是"a large improvement"。他观察到 3.1 Pro 的输出代码量比 3 Pro 更精简(1000 行 vs 700 行),但效果反而更好,说明模型在代码效率上也有提升。

Lentils80 的 3 Pro vs 3.1 Pro 对比

@ai_for_success 用一句 prompt"Create an animated SVG loop of a ghost hunter walking through a haunted house"让 3.1 Pro 生成了一段 11 秒的循环动画,整个过程只花了 3 分钟。还有网友测试了种子从破土到长成大树的全过程交互动画,每个生长阶段的过渡都很流畅,被评价为"见过的同类效果中最好的"。

ai_for_success 的鬼屋 SVG 动画

不过也有槽点。Simon Willison 发布当天测试时,一个简单的"hi"等了 104 秒才回复,还遇到了多次"high demand"和"deadline expired"的报错。他自己判断大概率是首日流量过大导致的临时问题。但对于想第一时间接入使用的开发者来说,初期的稳定性确实需要再观察。

跑分数据:到底提升了多少

看完效果再看数据,会更有体感。

ARC-AGI-2 是目前公认最能考验模型抽象推理能力的测试,给模型一组图形示例,要求归纳规律后应用到全新问题上。这个测试难到什么程度呢,人类在上面的平均正确率大约 60%。Gemini 3 Pro 只能做到 31.1%,而 3.1 Pro 直接跳到了 77.1%,不仅翻了一倍多,还超过了人类平均水平。作为对比,目前 Anthropic 最强的 Claude Opus 4.6 是 68.8%,OpenAI 的 GPT-5.2 是 52.9%。

推理能力的代际跃升

概念图:左侧简单晶体代表 Gemini 3 Pro 的推理能力,右侧复杂多彩晶体代表 3.1 Pro 系统性升级后的推理能力。

Gemini 3.1 Pro 基准测试对比表格

图:Google 官方博客中的 benchmark 对比表格,Gemini 3.1 Pro 在 ARC-AGI-2 上达到 77.1%,远超其他模型。

这个提升从哪来的?Google 官方表示,上周刚更新的 Deep Think 模型是专门为科研和工程场景设计的"天花板",3.1 Pro 则是把 Deep Think 的核心推理能力"下沉"到了基础模型层面。DeepMind Model Card 也明确写了,3.1 Pro 是基于 3 Pro 构建的,但在推理能力上做了系统性升级。换个说法,Deep Think 先探了路,证明了这条技术路线可行,3.1 Pro 再把这些能力用更低的成本和更快的速度提供给所有人。

根据 DeepMind Model Card 公布的 16 项基准测试数据,3.1 Pro 在其中 12 项排名第一。

在科学知识方面,GPQA Diamond 测试拿到了 94.3%,这是目前所有模型中的最高分。Humanity's Last Exam(学术推理)在不使用工具的情况下得分 44.4%,高于 GPT-5.2 的 34.5%。这两个测试考的是模型对专业学科知识的掌握深度,如果你平时用 AI 处理医学、物理、法律这类专业领域的问题,这个进步会比较有感。

编码能力上,SWE-Bench Verified 拿到 80.6%,和 Claude Opus 4.6 的 80.8% 基本打平。竞赛编程 LiveCodeBench Pro 的 Elo 从 3 Pro 的 2439 跳到了 2887,GPT-5.2 是 2393。Terminal-Bench 2.0(终端编码场景)68.5%,也高于 Opus 4.6。简单说,3.1 Pro 的代码能力已经到了和 Claude 最强模型同一梯队的水平。

Agent 和工具使用方面的提升可能是这次最值得关注的。APEX-Agents 测试考的是模型执行长链专业任务的能力,3.1 Pro 从 3 Pro 的 18.4% 直接跳到 33.5%,接近翻倍,超过了 Opus 4.6 的 29.8%。MCP Atlas(多步工具调用)69.2%,BrowseComp(Agent 搜索)85.9%,都是第一名。对于在做 AI Agent 开发的人来说,这些数据意味着 Gemini 在 Agent 场景中已经具备了很强的竞争力。

长上下文处理也有亮点。在 128K 长度的 MRCR v2 测试中得分 84.9%,更值得注意的是它独家支持了 1M token 级别的测试并拿到了 26.3%,而 GPT-5.2 和 Opus 4.6 在这个级别直接显示"不支持"。虽然 26.3% 的绝对值不高,但至少说明 Gemini 在超长上下文这件事上走在了前面。

DeepMind Model Card 详细评测数据(上)
DeepMind Model Card 详细评测数据(下)

图:DeepMind Model Card 中的完整评测数据表格,涵盖推理、编码、Agent、多模态和长上下文等 16 项基准测试。

技术规格的几个关键变化

除了模型能力本身,这次有几个技术规格层面的更新值得注意。

输出上限从之前的水平提到了 65K token。 之前用 Gemini 生成长内容写到一半可能就被截断,需要手动让它继续。65K 的输出上限基本覆盖了大部分长文、完整代码文件和详细分析报告的需求,对于开发者来说是一个直接影响使用体验的改进。

API 上传上限从 20MB 涨到了 100MB,并且支持直接传 YouTube URL 作为输入。 说白了以前想让模型分析一个视频,需要先下载、转写、再喂给模型。现在直接扔一个 YouTube 链接就行,模型会自己看视频内容。100MB 的上传上限也意味着可以一次性传入更大的文档、音频或代码仓库。这些更新放在一起看,Google 明显是在为 Agent 场景做准备,让模型能处理更丰富、更大规模的输入。

新增了三档可调的思考深度:low / medium / high。 Gemini 3 Pro 只有 low 和 high 两档。这次新增了 medium,并且重新定义了 high 模式的行为。根据 VentureBeat 的报道,high 模式下的 3.1 Pro 相当于一个轻量版 Deep Think,他们管它叫"Deep Think Mini"。模型会花更多 token 做深度推理,换来更准确的输出。这个设计的好处是你可以按任务难度灵活切换:简单的信息查询用 low 省 token 和成本,需要深度分析的场景用 high 拉满思考。

Deep Think Mini 概念图

概念图:3.1 Pro 的 high 模式相当于一个轻量版 Deep Think——小而强大的推理核心,在保持高能力的同时控制成本。

价格和 3 Pro 完全一样,没有涨价。 200K token 以内,输入 $2/百万 token,输出 $12/百万 token。超过 200K 的长上下文场景,输入 $4,输出 $18。能力提升这么大,价格不变,等于白送的升级。第三方评测机构 Artificial Analysis 给了一个很直观的对比数据,他们跑完全套智能指数测试(总计消耗约 5700 万 token),Gemini 3.1 Pro 的总成本不到 Claude Opus 4.6 的一半,但综合智能指数反而高了 4 分。

Artificial Analysis 性价比评测

对于日常大量调用 API 的开发者和企业来说,这个性价比优势非常明显。

架构层面,DeepMind Model Card 提到 3.1 Pro 采用了混合专家架构(Mixture of Experts, MoE)的 Transformer。简单理解就是,模型内部有很多个"专家模块",在生成回复时不是全部激活,而是只调用和当前任务最相关的那几个。这种架构的好处是既能保持很强的综合能力,又能控制每次推理的计算成本。

MoE 混合专家架构示意

概念图:混合专家架构(MoE)——大脑中只有部分专家模块被激活(亮起),其余保持休眠,实现"按需调用"的高效推理。

还有哪些不足

3.1 Pro 也有短板。

在 LM Arena 的人类偏好排名中,Claude Opus 4.6 在文本和编码类目仍然排在第一。LM Arena 的排名是用户投票产生的,反映的是"用起来的体感"。跑分高不一定等于用起来顺手,Claude 在文本表达质量和"人味"上的优势是 Gemini 目前还没完全追上的地方。

在启用工具辅助的 Humanity's Last Exam 中,Opus 4.6 以 53.1% 排第一,3.1 Pro 是 51.4%。工具使用的效率和准确性一直是 Google 被外界批评的点,这次虽然有进步,但还没有完全补上。另外在多模态基准 MMMU Pro 上,老版 3 Pro 的得分反而略高(81.0% vs 80.5%),说明这次升级虽然在大部分维度上都有提升,但并非每个维度都是正向的。

还有一点需要注意,3.1 Pro 目前还是 Preview 状态,不是正式版。Google 官方博客原话是"We are releasing 3.1 Pro in preview today to validate these updates and continue to make further advancements in areas such as ambitious agentic workflows before we make it generally available soon。"也就是说,Google 打算继续打磨 Agent 工作流之后再推正式版。Preview 期间模型的行为可能会有调整,如果要用在生产环境,这个风险需要考虑。

哪些渠道可以用

3.1 Pro 这次是全线铺开的,根据 Google 官方博客和 Cloud 博客的信息,目前这些渠道已经可以使用:

普通用户可以在 Gemini App 中直接使用 3.1 Pro。Google AI Pro 和 Ultra 订阅用户会有更高的使用额度。另外 NotebookLM 也上线了 3.1 Pro,但目前仅限 Pro 和 Ultra 用户。

开发者可以通过 Google AI Studio(https://aistudio.google.com)免费在网页端直接体验,这是最快的上手方式,登录 Google 账号就行。Gemini API 中的模型 ID 是 gemini-3.1-pro-preview,另外还有一个 gemini-3.1-pro-preview-customtools 变体,据说在某些工具调用场景下表现更好。除此之外,Gemini CLI、Google Antigravity(Google 的 Agent 开发平台)和 Android Studio 也都支持了。

企业用户可以通过 Vertex AI 和 Gemini Enterprise 接入。第三方平台方面,GitHub Copilot、Visual Studio 和 VS Code 也已经支持。

相关资源

  • Google 官方博客(发布公告 + Demo 展示):https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
  • DeepMind Model Card(完整 benchmark 数据 + 技术规格):https://deepmind.google/models/model-cards/gemini-3-1-pro/
  • DeepMind 评测方法论(详细测试方法说明):https://deepmind.google/models/evals-methodology/gemini-3-1-pro
  • Gemini API 开发者文档:https://ai.google.dev/gemini-api/docs/models/gemini-3.1-pro-preview
  • Google AI Studio(免费在线体验):https://aistudio.google.com

💡 AI 工具的爆发,让普通人也能快速做出产品。

但如何做?如何变现?如何真正走向海外市场?
    👇 想了解更多 AI 编程 & 出海实战信息,扫码添加好友了解更多

AI出海实战路线图

🔗 更多教程请访问 ipengtao.com
标签: AI 工具推荐
最后更新:2026年2月24日

彭涛

创业者 & Python 工程师 &「AI 出海」实践者。 关注:AI 编程出海 / 爬虫 & RPA / 增长与变现。 📮vx:257735(欢迎交流)

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

文章目录
  • 先看效果:这次 3.1 Pro 能干什么
  • 社区实测:推特上已经玩疯了
  • 跑分数据:到底提升了多少
  • 技术规格的几个关键变化
  • 还有哪些不足
  • 哪些渠道可以用
  • 相关资源
分类
  • AI工具
  • Github 精选项目
  • Python 第三方库
  • Python 资料领取
  • 个人IP
  • 出海实战
  • 实战案例
  • 工具推荐
  • 教程与指南
  • 编程工具
最近评论

COPYRIGHT © 2025 彭涛. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

蜀ICP备14006373号