
下面来聊聊这个被夸爆的新模型。
1. 模型的功能和用途
基础功能:像传统OCR一样识别图片中的文字,但更强大的是能自动生成带格式的Markdown文档,大标题小标题、有序列表、无序列表,连图表都能还原成可编辑的代码。
核心突破:用“上下文光学压缩”,简单来讲就是把海量文本内容压成极少量视觉 token,再从这些 token 里还原出文字。数据来自官方论文,在10×压缩下 OCR 准确率约96.5%,20×压缩仍可保持约60%。

说到这里,先扫个盲补充一下AI 是怎么读信息的。我们平时给大模型喂文字,比如几千字、一万字,其实是在喂它一串串 token。token 可以简单理解成是“词的碎片”,每个字、标点、符号都要占一个位置。
所以当你给它越长的文字,它就得一个一个地读,这就像你让一个人把一整本书从头读到尾,还要记住所有细节。文字越长,算力呈平方级增长,因为每读一个新 token,它都要和前面所有 token 比一遍关系。
而DeepSeek OCR的想法是“干嘛非得一个字一个字读?我能不能把整页内容先拍成一张图,用看图的方式去理解?”
于是,它就把原本要读的那堆文字先渲染成图片。比如你有一页排好版的文档,它就相当于截了一张清晰的截图,文字的内容、段落的结构、图片的位置、表格的形状都在里面。
2. 升级点
1. 创新性地用视觉token替代文本token,将一维文字转化为二维图像处理。
让模型像人一样扫一眼就理解布局和结构。在这张图中,每个区域就变成了一个视觉 Token。
这些 Token 不再代表单个字或词,而是代表一块信息区域,可能是一个段落、一张表格或一段公式。于是,模型只需处理几百个视觉 Token,就能理解几千甚至上万个文字 Token 的内容。
这带来了两大好处:
信息密度更高:同样的上下文内容,用更少的 Token 表达。
结构天然保留:版式、段落、表格关系一目了然。

2. 引入多分辨率设计,模拟人类记忆的遗忘机制。
人类在处理信息时,越新的记忆越清晰,越旧的就模糊。比如你能记得昨天看的电影细节,只记得上个月那部的大概情节。
DeepSeek-OCR 在模型结构里也做了类似的事情:它让不同区域、不同阶段的信息用不同的分辨率和 Token 数量来处理。
重要的部分(比如标题、关键段落)高分辨率看清楚,生成更多视觉 Token。不太重要的背景或旧信息低分辨率、模糊处理,占更少 Token。
这就是论文里提到的 Gundam 动态分辨率机制,模型可以根据内容自动选择合适的清晰度,既保证重点清晰,又节省算力。这种设计不仅提升效率,还能让模型在处理报纸、科研论文、长报告等大页面文档时保持稳定表现。
未来他们甚至设想,把这种分辨率衰减应用在大模型记忆中,离当前对话越远的历史,就压得越紧,像人类记忆一样模糊但不消失。
3.开发了专门的DeepEncoder编码器和DeepSeek-3B解码器
DeepEncoder:高效的视觉压缩器,它负责把整页图像压缩成极少量、高密度的视觉 Token。
DeepSeek-3B 解码器:聪明的解压器,这个部分负责从视觉 Token 里“讲回文字”,类似人类看完图像之后复述内容。它采用的是一个 3B 参数的混合专家(MoE)结构,推理时只激活约 570M 参数,性能像 3B 大模型,成本却接近 500M 小模型。
这对组合一个“压得狠”、一个“解得准”,共同构成了 DeepSeek-OCR 的底层效率引擎,既节省算力,又保持极高的还原度(上面提到的10× 压缩下仍有 97% 精度)。
💡 AI 工具的爆发,让普通人也能快速做出产品。
但如何做?如何变现?如何真正走向海外市场?
👉 想了解更多 AI 编程 & 出海实战信息
扫码或微信搜索 257735,发送暗号 【美金】
了解详情,加入实战社群。
微信扫一扫,了解更多详情
🚀 我们的出海作品展示平台上线啦!
欢迎访问 Showcase 平台,
这里汇聚了学员的出海实战作品,方便大家获得反馈、积累曝光机会。
我们还会定期举办创作活动与奖励计划,欢迎来逛逛!
🔗 更多教程请访问 ipengtao.com

文章评论