title

OCR已死?别急着下结论——深度解读+批判性分析

论文:OCR or Not? Rethinking Document Information Extraction in the MLLMs Era
作者:Jiyuan Shen 等(SAP + Stanford)
链接:arxiv.org/abs/2603.02789

一句话总结

SAP团队拿内部商业文档测了11个多模态大模型,发现强MLLM直接看图片就能做信息抽取,OCR反而可能帮倒忙。结论很诱人,但细看之下,实验设计和结论推导都有不少问题。

论文做了什么?

在两个内部商业文档数据集上(C1=供应链、C2=金融,共约1000份文档),测试了11个MLLM,每个模型跑三种输入:只给图片、只给OCR文字、图片+OCR都给。

模型Image-onlyOCR-onlyImage+OCR
Gemini 1.5 Pro76.874.175.6
Gemini 2.0 Pro74.373.675.2
Gemini 2.5 Flash72.672.172.2
GPT-4o70.172.873.0
Claude 3.5 Sonnet67.272.871.6
Claude 3 Opus50.170.171.5
Llama 4 Scout68.468.968.6

关键数据:Claude 3 Opus加了OCR涨了整整20个百分点

学术批判:论证科学吗?

challenge
🔴 致命问题:数据集不公开
整篇论文用的是SAP的内部数据集。别人无法复现、无法验证、无法比较。论文里的文档示例还特意打了码。学术论文的核心价值是可复现性,这篇在这一点上完全不及格。
🔴 只测通用大模型,没测专用文档模型
没有dots.ocr、没有MonkeyOCR、没有Mistral OCR、没有LightOnOCR。PDF Bench那篇论文测了21个解析器,其中1B参数的LightOnOCR就拿到了9.08的高分。只测通用大模型就说"OCR不需要了",这是选择性论证。
🟡 结论过度外推
论文标题是"OCR or Not?",但实际只测了结构化信息抽取(KV对提取)这一个任务。文档智能还包括全文OCR、版面分析、表格结构识别、公式识别等。一个任务的结论不能代表整个领域。
🟡 性能差距被轻描淡写
Claude 3 Opus image-only只有50.1%,加OCR涨到70.1%——差了20个百分点!"OCR may not be necessary"只对最强的1-2个模型成立,但标题给人的印象是普适性结论。
🟢 错误分析框架有价值
论文提出的层次化错误分析框架(Handler → LLM Reasoning → Attribution)是个好想法,可以复用到其他评测任务中。
scaling

不同大小模型在三种输入方式下的表现——强模型差距小,弱模型差距大

商业应用批判:实际能用吗?

cost
🔴 成本分析严重缺失
论文说Gemini 1.5 Pro每页$0.001。但日处理10万页就是$100/天 = $3000/月。本地OCR+小模型一台GPU服务器只要$200-500/月。大规模场景成本差5-10倍。
🔴 数据隐私完全没讨论
发票、合同、财务报表发到第三方API?在金融、医疗、政府行业这是合规红线。讽刺的是,SAP的客户恰恰是最在意数据隐私的企业。
🟡 78.9%的F1够用吗?
最强模型优化后也只有78.9%的F1。每5个字段约1个抽错或漏掉。发票金额错了、合同日期错了,在生产环境中需要大量人工校验。
🟢 简化流程确实有价值
对于中小规模、文档类型多变、不需要100%准确的场景(内部文档搜索、辅助分类),直接用MLLM确实比搭建OCR pipeline简单得多。

跟其他论文的对比

维度OCR or NotPDF BenchMOCR
任务KV抽取表格提取全文档解析
数据集内部不公开合成+开源公开benchmark
可复现性
模型覆盖只有通用大模型21个(含专用)多个专用模型
结论OCR可能不需要选对工具很重要OCR需要扩展

我的判断

好问题,但过于自信的回答。

"强MLLM自带OCR能力"——观察正确。但跳到"OCR不需要了",跳过了太多:

1. 只在一个任务(KV抽取)上验证
2. 只用内部数据集,不可复现
3. 只测通用大模型,没测专用方案
4. 完全没讨论成本、延迟、隐私
5. 最强模型也只有78.9% F1

实践建议

小规模探索性场景 → 直接用MLLM,别折腾OCR

大规模生产、高精度、成本敏感、有隐私要求 → OCR+专用模型仍然更好

不管哪种方案,都要先在你自己的数据上做对比测试

一句话点评

OCR在evolving,不是dying。