彭涛

  • 首页
  • AI编程出海
  • 千里会
  • 博客
    • Github 精选项目
    • Python 资料领取
    • 个人IP
  • 关于我
聚焦 AI 编程与出海实战,分享实用方法与创业经验,还有很多副业玩法。

首页 » AI工具 » 把十万字“塞进”一张图:DeepSeek-OCR 为啥被夸爆?

把十万字“塞进”一张图:DeepSeek-OCR 为啥被夸爆?

2025年10月22日 485点热度 0人点赞 0条评论

DeepSeek再一次震撼登场,DeepSeek-OCR 这个新模型确实玩出了新花样。表面上它是个 OCR 工具,但这只是它最不值得一提的小小功能而已。最硬核的它通过把文字内容渲染成图像再理解的方式,,彻底改变了AI处理信息的方式,解决了当前大模型面临的长文本处理难题。

img

下面来聊聊这个被夸爆的新模型。

1. 模型的功能和用途

基础功能:像传统OCR一样识别图片中的文字,但更强大的是能自动生成带格式的Markdown文档,大标题小标题、有序列表、无序列表,连图表都能还原成可编辑的代码。img

核心突破:用“上下文光学压缩”,简单来讲就是把海量文本内容压成极少量视觉 token,再从这些 token 里还原出文字。数据来自官方论文,在10×压缩下 OCR 准确率约96.5%,20×压缩仍可保持约60%。

img

说到这里,先扫个盲补充一下AI 是怎么读信息的。我们平时给大模型喂文字,比如几千字、一万字,其实是在喂它一串串 token。token 可以简单理解成是“词的碎片”,每个字、标点、符号都要占一个位置。

所以当你给它越长的文字,它就得一个一个地读,这就像你让一个人把一整本书从头读到尾,还要记住所有细节。文字越长,算力呈平方级增长,因为每读一个新 token,它都要和前面所有 token 比一遍关系。

而DeepSeek OCR的想法是“干嘛非得一个字一个字读?我能不能把整页内容先拍成一张图,用看图的方式去理解?”

于是,它就把原本要读的那堆文字先渲染成图片。比如你有一页排好版的文档,它就相当于截了一张清晰的截图,文字的内容、段落的结构、图片的位置、表格的形状都在里面。

2. 升级点

1. 创新性地用视觉token替代文本token,将一维文字转化为二维图像处理。

让模型像人一样扫一眼就理解布局和结构。在这张图中,每个区域就变成了一个视觉 Token。

这些 Token 不再代表单个字或词,而是代表一块信息区域,可能是一个段落、一张表格或一段公式。于是,模型只需处理几百个视觉 Token,就能理解几千甚至上万个文字 Token 的内容。

这带来了两大好处:

信息密度更高:同样的上下文内容,用更少的 Token 表达。

结构天然保留:版式、段落、表格关系一目了然。

img

2. 引入多分辨率设计,模拟人类记忆的遗忘机制。

人类在处理信息时,越新的记忆越清晰,越旧的就模糊。比如你能记得昨天看的电影细节,只记得上个月那部的大概情节。

DeepSeek-OCR 在模型结构里也做了类似的事情:它让不同区域、不同阶段的信息用不同的分辨率和 Token 数量来处理。

重要的部分(比如标题、关键段落)高分辨率看清楚,生成更多视觉 Token。不太重要的背景或旧信息低分辨率、模糊处理,占更少 Token。

这就是论文里提到的 Gundam 动态分辨率机制,模型可以根据内容自动选择合适的清晰度,既保证重点清晰,又节省算力。这种设计不仅提升效率,还能让模型在处理报纸、科研论文、长报告等大页面文档时保持稳定表现。

未来他们甚至设想,把这种分辨率衰减应用在大模型记忆中,离当前对话越远的历史,就压得越紧,像人类记忆一样模糊但不消失。

3.开发了专门的DeepEncoder编码器和DeepSeek-3B解码器

image-20251022101250152DeepEncoder:高效的视觉压缩器,它负责把整页图像压缩成极少量、高密度的视觉 Token。

DeepSeek-3B 解码器:聪明的解压器,这个部分负责从视觉 Token 里“讲回文字”,类似人类看完图像之后复述内容。它采用的是一个 3B 参数的混合专家(MoE)结构,推理时只激活约 570M 参数,性能像 3B 大模型,成本却接近 500M 小模型。

这对组合一个“压得狠”、一个“解得准”,共同构成了 DeepSeek-OCR 的底层效率引擎,既节省算力,又保持极高的还原度(上面提到的10× 压缩下仍有 97% 精度)。

这个模型之所以引发轰动,不仅在于技术突破,更在于它挑战了AI处理信息的根本范式。当大家都在卷文本token长度时,DeepSeek另辟蹊径地回归人类最本能的视觉认知方式,这种"降维打击"式的创新,或许正是AI进化的下一个方向。

💡 AI 工具的爆发,让普通人也能快速做出产品。

但如何做?如何变现?如何真正走向海外市场?
👉 想了解更多 AI 编程 & 出海实战信息

扫码或微信搜索 257735,发送暗号 【美金】
了解详情,加入实战社群。

微信二维码

微信扫一扫,了解更多详情


🚀 我们的出海作品展示平台上线啦!

欢迎访问 Showcase 平台, 这里汇聚了学员的出海实战作品,方便大家获得反馈、积累曝光机会。
我们还会定期举办创作活动与奖励计划,欢迎来逛逛!


🔗 更多教程请访问 ipengtao.com
标签: 暂无
最后更新:2025年10月22日

彭涛

创业者 & Python 工程师 &「AI 出海」实践者。 关注:AI 编程出海 / 爬虫 & RPA / 增长与变现。 📮vx:257735(欢迎交流)

点赞

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

文章目录
  • 1. 模型的功能和用途
  • 2. 升级点
分类
  • AI出海
  • AI工具
  • Github 精选项目
  • Python 第三方库
  • Python 资料领取
  • 个人IP
  • 工具推荐
  • 教程与指南
  • 编程工具
最近评论

COPYRIGHT © 2025 彭涛. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

蜀ICP备14006373号