OCR已死？别急着下结论——深度解读+批判性分析

论文：OCR or Not? Rethinking Document Information Extraction in the MLLMs Era
作者：Jiyuan Shen 等（SAP + Stanford）
链接：arxiv.org/abs/2603.02789

一句话总结

SAP团队拿内部商业文档测了11个多模态大模型，发现强MLLM直接看图片就能做信息抽取，OCR反而可能帮倒忙。结论很诱人，但细看之下，实验设计和结论推导都有不少问题。

论文做了什么？

在两个内部商业文档数据集上（C1=供应链、C2=金融，共约1000份文档），测试了11个MLLM，每个模型跑三种输入：只给图片、只给OCR文字、图片+OCR都给。

模型	Image-only	OCR-only	Image+OCR
Gemini 1.5 Pro	76.8	74.1	75.6
Gemini 2.0 Pro	74.3	73.6	75.2
Gemini 2.5 Flash	72.6	72.1	72.2
GPT-4o	70.1	72.8	73.0
Claude 3.5 Sonnet	67.2	72.8	71.6
Claude 3 Opus	50.1	70.1	71.5
Llama 4 Scout	68.4	68.9	68.6

关键数据：Claude 3 Opus加了OCR涨了整整20个百分点

学术批判：论证科学吗？

🔴 致命问题：数据集不公开
整篇论文用的是SAP的内部数据集。别人无法复现、无法验证、无法比较。论文里的文档示例还特意打了码。学术论文的核心价值是可复现性，这篇在这一点上完全不及格。

🔴 只测通用大模型，没测专用文档模型
没有dots.ocr、没有MonkeyOCR、没有Mistral OCR、没有LightOnOCR。PDF Bench那篇论文测了21个解析器，其中1B参数的LightOnOCR就拿到了9.08的高分。只测通用大模型就说"OCR不需要了"，这是选择性论证。

🟡 结论过度外推
论文标题是"OCR or Not?"，但实际只测了结构化信息抽取（KV对提取）这一个任务。文档智能还包括全文OCR、版面分析、表格结构识别、公式识别等。一个任务的结论不能代表整个领域。

🟡 性能差距被轻描淡写
Claude 3 Opus image-only只有50.1%，加OCR涨到70.1%——差了20个百分点！"OCR may not be necessary"只对最强的1-2个模型成立，但标题给人的印象是普适性结论。

🟢 错误分析框架有价值
论文提出的层次化错误分析框架（Handler → LLM Reasoning → Attribution）是个好想法，可以复用到其他评测任务中。

不同大小模型在三种输入方式下的表现——强模型差距小，弱模型差距大

商业应用批判：实际能用吗？

🔴 成本分析严重缺失
论文说Gemini 1.5 Pro每页$0.001。但日处理10万页就是$100/天 = $3000/月。本地OCR+小模型一台GPU服务器只要$200-500/月。大规模场景成本差5-10倍。

🔴 数据隐私完全没讨论
发票、合同、财务报表发到第三方API？在金融、医疗、政府行业这是合规红线。讽刺的是，SAP的客户恰恰是最在意数据隐私的企业。

🟡 78.9%的F1够用吗？
最强模型优化后也只有78.9%的F1。每5个字段约1个抽错或漏掉。发票金额错了、合同日期错了，在生产环境中需要大量人工校验。

🟢 简化流程确实有价值
对于中小规模、文档类型多变、不需要100%准确的场景（内部文档搜索、辅助分类），直接用MLLM确实比搭建OCR pipeline简单得多。

跟其他论文的对比

维度	OCR or Not	PDF Bench	MOCR
任务	KV抽取	表格提取	全文档解析
数据集	内部不公开	合成+开源	公开benchmark
可复现性	❌	✅	✅
模型覆盖	只有通用大模型	21个(含专用)	多个专用模型
结论	OCR可能不需要	选对工具很重要	OCR需要扩展

我的判断

好问题，但过于自信的回答。

"强MLLM自带OCR能力"——观察正确。但跳到"OCR不需要了"，跳过了太多：

1. 只在一个任务(KV抽取)上验证
2. 只用内部数据集，不可复现
3. 只测通用大模型，没测专用方案
4. 完全没讨论成本、延迟、隐私
5. 最强模型也只有78.9% F1

实践建议

小规模探索性场景 → 直接用MLLM，别折腾OCR

大规模生产、高精度、成本敏感、有隐私要求 → OCR+专用模型仍然更好

不管哪种方案，都要先在你自己的数据上做对比测试

一句话点评

OCR在evolving，不是dying。