一图蕴含万语千言!DeepSeek-OCR模型勇闯视觉-文本压缩的未知疆界。凭借极少量视觉token成功解码出超出其数量十倍以上的文本信息,这一全新端到端VLM架构不仅在OmniDocBench基准测试中全面超越GOT-OCR2.0,更为大型语言模型的长上下文挑战开辟了高效解决路径。
DeepSeek再度发布革命性模型!
在Github平台上,DeepSeek全新创建了DeepSeek-OCR代码仓库,致力于探索视觉-文本压缩的极限边界。
古语有云:一图胜万言。对于大型语言模型而言,同样如此!
从理论层面看,DeepSeek-OCR模型初步验证了「上下文光学压缩」的技术可行性——
从有限视觉token中,模型能够高效解码出超过其数量10倍的文本token。
这意味着,承载文档文本的单张图像,可以以远少于等效文本的token数量来表征丰富信息内容。
这充分表明通过视觉token进行光学压缩能够实现更高的信息压缩比率。
作为连接视觉与语言模态的桥梁,OCR任务成为视觉-文本压缩范式的理想试验场——
它在视觉与文本表征之间构建了天然的压缩-解压缩映射关系,同时提供了可量化评估的性能指标。
在OCR实际应用中,DeepSeek-OCR展现出卓越实用价值:在OmniDocBench基准测试中,仅使用100个视觉token即超越GOT-OCR2.0(每页256token);以少于800个视觉token的优异表现,胜过MinerU2.0(平均每页6000+token)。
图(a)呈现了在Fox基准测试中的压缩比(真实文本token数/模型使用的视觉token数);图(b)展示了在OmniDocBench上的性能对比结果
在实际部署中,单张A100-40G显卡,可支持每日超过20万页的大语言模型/视觉语言模型训练数据生成。
新模型还具备解析图表、化学方程式、简单几何图形和自然图像的强大能力:
在不同历史上下文处理阶段中,DeepSeek-OCR的视觉-文本压缩技术可减少7–20倍的token消耗,为解决大语言模型的长上下文问题提供了切实可行的技术方向。
这一创新范式为重新思考视觉与语言模态的协同融合,进而提升大规模文本处理与智能体系统的计算效率,开辟了崭新的可能性。
这一重要发现将有力推动视觉语言模型与大语言模型未来的技术发展。
Github:https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR
当前开源视觉语言模型主要采用三种核心视觉编码器架构,但各自存在技术局限性。
随着视觉语言模型的持续进步,众多端到端OCR模型相继涌现,从根本上改变了传统管道架构,极大简化了OCR系统设计。
但存在一个核心科学问题:
对于包含1000个字符的文档,至少需要多少视觉token才能实现完整解码?
这一问题对于深入研究「一画胜千言」的根本原理具有重大科学价值。
DeepSeek-OCR旨在精准回答这一关键问题。它采用统一的端到端VLM架构,由编码器和解码器两大核心组件构成。
编码器(即DeepEncoder)负责提取图像特征,并对视觉表示进行token化与压缩处理。解码器则根据图像token和提示信息生成所需结构化结果。
为验证「上下文光学压缩」的技术可行性,视觉编码器需要满足以下核心特性:
研究团队提出了全新的视觉编码器DeepEncoder。DeepEncoder总参数量约为3.8亿,主要由串联连接的SAM-base和CLIP-large两大模块构成。
视觉感知特征提取器,主要采用窗口注意力机制(window attention), 核心架构为8000万参数的SAM-base(patch-size 16);
视觉知识特征提取器,采用密集全局注意力机制(dense global attention),核心架构为3亿参数的CLIP-large模型。
在这两个核心组件之间是一个2层卷积模块,对视觉token进行16×下采样压缩处理。
DeepEncoder会对输入图像进行有效压缩,例如将输入大小为1024×1024的图像划分为1024/16×1024/16=4096个patch token。
编码器的前半部分由窗口注意力主导且仅有80M参数,因此激活内存消耗保持在可接受范围内。
在进入全局注意力模块之前,4096个token通过压缩模块,最终token数量会减少为4096/16=256,从而确保整体激活内存消耗完全可控。
假设有一张包含1000个光学字符的图像,要测试解码所需视觉token数量,要求模型必须支持可变数量的视觉token处理。
这意味着,DeepEncoder需要具备多分辨率支持能力。
动态插值位置编码技术可充分满足上述需求。
研究团队设计了多种分辨率模式,以便在模型训练过程中同步支持多分辨率输入,从而实现单个DeepSeek-OCR模型支持多种分辨率处理的能力。
如下图4所示,DeepEncoder主要支持两种输入模式:原生分辨率和动态分辨率。每种模式下又包含多个子模式。
原生分辨率支持四种子模式:Tiny、Small、Base和Large。
动态分辨率由两种原生分辨率组合构建而成。
支持动态分辨率主要为了应对超高分辨率输入(例如报纸图像)的实际应用需求。瓦片化(tiling)作为一种二级窗口注意力方法,可进一步有效减少激活内存消耗。
在Gundam模式下,DeepEncoder输出的视觉token数量为n×100+256,其中n为瓦片的数量
Gundam模式与四种原生分辨率模式共同训练,以实现单一模型支持多种分辨率的核心目标。
值得关注的是,Gundam-master模式(1024×1024的局部视图+1280×1280 的全局视图)是通过在已训练的DeepSeek-OCR模型上继续进行训练获得的。
下表1全面总结了各模式下的分辨率和token数量。
解码器采用DeepSeekMoE架构,具体为DeepSeek-3B-MoE模型。
在推理过程中,该模型激活了6个路由专家和2个共享专家,总计激活约5.7亿参数。
3B规模的DeepSeekMoE非常适合于以领域为中心的视觉语言模型研究——
它能够获得3B模型的强大表达能力,同时享受类似500M小型模型的高推理效率。
在Fox基准测试集,研究团队验证DeepSeek-OCR在文本密集型文档上的压缩与解压能力,初步探索「上下文光学压缩」的可行性与技术边界。
如下表2所示,在10×压缩比范围内,模型的解码精度可达约97%,这一结果展现出巨大技术潜力。
而且输出格式仍与Fox基准的格式并不完全一致,因此实际性能可能略高于当前测试结果。
未来,或可通过文本到图像(text-to-image)创新方法实现接近10×无损上下文压缩的技术突破。
当压缩比超过10×时,模型性能开始逐步下降,主要原因可能有二:
第一个问题可以通过将文本渲染到单页布局来有效缓解,而第二个问题则可能成为一种「自然遗忘机制」(natural forgetting mechanism)的内在表现。
当压缩比接近20× 时,模型精度仍可维持在60%左右的高水平。
这些重要结果表明,光学上下文压缩(optical contexts compression)是一种极具前景且值得深入探索的技术方向。
更重要的是,这种方法不会带来额外的计算开销,因为它能够直接利用现有VLM基础设施——
多模态系统本身就内置视觉编码器,从而具备天然的硬件支持条件。
DeepSeek-OCR还具备强大实用价值,能够为LLM/VLM预训练高效构建高质量数据。
在实际部署中,DeepSeek-OCR使用20个计算节点(每节点配备8张A100-40G GPU)每日可为LLM/VLM生成高达3300万页的训练数据。
为量化OCR性能表现,研究团队在OmniDocBench基准上全面测试了DeepSeek-OCR,详细结果如表3所示。
这些结果表明,DeepSeek-OCR 在实际应用中展现出强大性能,且由于更高的 token 压缩效率,模型具有更高的研究上限和技术潜力。
如下表4所示,某些特定类型的文档,只需要非常少的token即可获得令人满意的识别性能。
对于书籍和报告类型文档,DeepSeek-OCR仅需100个视觉token即可达到良好的性能表现。这可能是因为这类文档中的大多数文本token数量在1,000以内,意味着视觉token压缩比不超过10×。
除了解析图表、化学方程式、简单几何图形和自然图像外,对于PDF文档,DeepSeek-OCR可以处理近100种不同语言。
如下图11所示,DeepSeek-OCR不仅在常见语言处理上表现出色,而且在多语言处理能力上也具有广泛的适用性,进一步增强了其在全球范围内的实际应用潜力。
DeepSeek-OCR具备相当程度的通用图像理解能力。
相关的可视化结果如图12所示,清晰展示了该模型在图像描述、物体检测和语境定位(grounding)等多样化任务中的卓越表现。
详细实验结果和完整技术内容,请参考下列研究资料。
https://github.com/deepseek-ai/DeepSeek-OCR
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260116761.html