当前位置:首页 > 科技资讯 > 正文

OCRBench v2发布:全面评估多模态大模型OCR能力的新一代评测基准

华中科技大学白翔团队携手华南理工大学、阿德莱德大学及字节跳动,正式推出了新一代OCR评测基准OCRBench v2。该基准针对中文和英语两种语言,对2023年至2025年间全球58个主流多模态大模型进行了系统性的测评。

在过去的几十年里,光学字符识别(OCR)技术已经从传统的图像识别工具,演进为智能信息系统的核心能力。最初,OCR主要专注于将印刷体或手写文字从图像中提取并转换为计算机可理解的文本数据。如今,随着深度学习和多模态模型的飞速发展,在多样化需求的推动下,OCR的技术边界不断拓展,它不仅需要识别字符,还必须深入理解文档的结构与语义——在复杂场景中精确解析表格、版面布局以及图文混排内容。

更进一步,在大规模多模态预训练过程中,模型接触到了海量包含文字的图像数据,例如网页截图、用户界面、海报和文档等,这使得OCR能力在无监督学习中自然涌现。因此,大模型不再依赖于外部OCR模块,而是能够通过端到端的推理过程直接完成识别、理解和应答。更重要的是,OCR技术正成为上层智能任务的基础前提——只有当模型能够准确识别图像中的文本时,它才能进一步执行图表解析、文档问答、知识抽取乃至代码理解等高级功能。

可以说,OCR任务的表现已成为评价多模态大模型能力的关键指标之一,而当前的需求早已超越“单纯读出文字”。文档中的表格、图表、手写笔记、复杂版式、文字图像的文本定位,以及基于文本的推理等,都是模型必须应对的挑战。然而,传统的OCR评测基准往往任务单一、场景有限,导致模型得分迅速饱和,难以真实反映其在复杂实际应用中的能力。

针对这一问题,华中科技大学白翔团队联合华南理工大学、阿德莱德大学和字节跳动推出了新一代OCR评测基准OCRBench v2,分别从中文和英语两个语种出发,对2023年至2025年间的全球58个主流多模态大模型进行了测评,各榜单得分前十名的模型如下图所示:

OCRBench v2发布:全面评估多模态大模型OCR能力的新一代评测基准 v2  多模态大模型 文本识别评测 中英文榜单 第1张

OCRBench v2 中文榜单

OCRBench v2发布:全面评估多模态大模型OCR能力的新一代评测基准 v2  多模态大模型 文本识别评测 中英文榜单 第2张

OCRBench v2 英文榜单

* 查看英文榜单:https://go.hyper.ai/wlGTR

* 查看中文榜单:https://go.hyper.ai/HZenn

* 项目开源地址:https://github.com/Yuliang-Liu/MultimodalOCR

23 种细分任务,覆盖多样化场景

OCRBench v2 涵盖了 23 种细分任务,覆盖 8 大核心能力维度——文本识别、文本定位、文本检测识别、关系抽取、元素解析、数学计算、视觉文本理解和知识推理。

OCRBench v2发布:全面评估多模态大模型OCR能力的新一代评测基准 v2  多模态大模型 文本识别评测 中英文榜单 第3张

OCRBench v2 涵盖任务的典型样例

OCRBench v2 的公开数据集包含来自80余个学术数据集及部分自有数据的1万条高质量问答对,并经过人工审核,确保覆盖真实OCR应用中的多样化场景。此外,OCRBench v2 还包含了独立的私有数据,这部分数据由人工采集并标注了1,500条问答对,其任务设置和场景覆盖范围均与公开数据保持一致。

* 数据集下载地址:https://go.hyper.ai/VNHSX

团队实验发现,公开数据与私有数据在榜单排名上表现出较高的一致性,这验证了 OCRBench v2 在任务设计、数据构造和评价指标方面的合理性,凸显了其在衡量多模态大模型现有局限性方面的重要价值。

相关研究论文以「OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning」为题,已被 NeurIPS 2025(Datasets and Benchmarks Track)收录。

* 论文地址:https://go.hyper.ai/VNHSX

主流模型普遍偏科,最高得分仅及格

在 OCRBench v2 最新发布的评测榜单中,Gemini-2.5-Pro 获得了中文榜单的冠军和英文榜单的季军,而 Seed1.6-vision 则荣登英文榜冠军和中文榜亚军。在开源模型阵营中,Qwen3-Omni-30B-A3B-Instruct 分别取得了英文榜第二名和中文榜第三名的优秀成绩。

通过分析模型的各项核心能力表现,可以发现这些多模态大模型普遍存在“偏科”现象,很少有模型能在所有核心能力上都表现卓越,即便是排名领先的模型,在英文和中文任务中的平均分也仅约为60分(满分100)。此外,不同模型的擅长领域各有侧重,例如 Gemini-2.5-Pro 等商用模型在计算类题目上优势明显,展示了强大的逻辑推理能力;而 Llama-3.1-Nemotron-Nano-VL-8B-V1 则凭借其出色的文字定位能力,在英文榜单中取得了第四名的成绩。

大多数模型在基础的文本识别任务上表现尚可,但在文本定位(Referring)、文本检测识别(Spotting)和元素解析(Parsing)等对细粒度空间感知与结构化理解要求较高的任务上,得分普遍偏低。例如,即使是榜单冠军 Seed1.6-vision,在 Spotting 任务上的得分也仅为38.0,这限制了其在场景文字识别和图文混杂文档处理等真实场景中的应用效果。

此外,通过对比中英文榜单,可以发现许多模型的多语言能力并不均衡。例如,Llama-3.1-Nemotron-Nano-VL-8B-V1 在英文榜单上高居第四名(平均分56.4),但在中文榜单上仅排第31名(平均分40.1),显示出其在英文场景中的明显优势,这可能与数据分布或训练策略有关。

与此同时,尽管闭源模型整体保持领先,但优秀的开源模型已展现出强大的竞争力。从榜单来看,Gemini 系列、GPT5、Seed1.6-vision 等闭源模型的整体性能更为突出,但 Qwen-Omni、InternVL、SAIL-VL、Ovis 等系列的开源模型已具备强劲实力,英文榜单前十名中有五个为开源模型,而中文榜单前十名中则有七个为开源模型。开源模型在诸如文字定位、元素提取、视觉文字理解等任务上同样能够达到顶尖水平。

OCRBench v2 榜单将按季度进行更新,HyperAI 也将持续追踪最新的评测结果。