OCR已死?别急着下结论——深度解读+批判性分析
论文:OCR or Not? Rethinking Document Information Extraction in the MLLMs Era
作者:Jiyuan Shen 等(SAP + Stanford)
链接:arxiv.org/abs/2603.02789
一句话总结
SAP团队拿内部商业文档测了11个多模态大模型,发现强MLLM直接看图片就能做信息抽取,OCR反而可能帮倒忙。结论很诱人,但细看之下,实验设计和结论推导都有不少问题。
论文做了什么?
在两个内部商业文档数据集上(C1=供应链、C2=金融,共约1000份文档),测试了11个MLLM,每个模型跑三种输入:只给图片、只给OCR文字、图片+OCR都给。
| 模型 | Image-only | OCR-only | Image+OCR |
| Gemini 1.5 Pro | 76.8 | 74.1 | 75.6 |
| Gemini 2.0 Pro | 74.3 | 73.6 | 75.2 |
| Gemini 2.5 Flash | 72.6 | 72.1 | 72.2 |
| GPT-4o | 70.1 | 72.8 | 73.0 |
| Claude 3.5 Sonnet | 67.2 | 72.8 | 71.6 |
| Claude 3 Opus | 50.1 | 70.1 | 71.5 |
| Llama 4 Scout | 68.4 | 68.9 | 68.6 |
关键数据:Claude 3 Opus加了OCR涨了整整20个百分点
学术批判:论证科学吗?
🔴 致命问题:数据集不公开
整篇论文用的是SAP的内部数据集。别人无法复现、无法验证、无法比较。论文里的文档示例还特意打了码。学术论文的核心价值是可复现性,这篇在这一点上完全不及格。
🔴 只测通用大模型,没测专用文档模型
没有dots.ocr、没有MonkeyOCR、没有Mistral OCR、没有LightOnOCR。PDF Bench那篇论文测了21个解析器,其中1B参数的LightOnOCR就拿到了9.08的高分。只测通用大模型就说"OCR不需要了",这是选择性论证。
🟡 结论过度外推
论文标题是"OCR or Not?",但实际只测了结构化信息抽取(KV对提取)这一个任务。文档智能还包括全文OCR、版面分析、表格结构识别、公式识别等。一个任务的结论不能代表整个领域。
🟡 性能差距被轻描淡写
Claude 3 Opus image-only只有50.1%,加OCR涨到70.1%——差了20个百分点!"OCR may not be necessary"只对最强的1-2个模型成立,但标题给人的印象是普适性结论。
🟢 错误分析框架有价值
论文提出的层次化错误分析框架(Handler → LLM Reasoning → Attribution)是个好想法,可以复用到其他评测任务中。
不同大小模型在三种输入方式下的表现——强模型差距小,弱模型差距大
商业应用批判:实际能用吗?
🔴 成本分析严重缺失
论文说Gemini 1.5 Pro每页$0.001。但日处理10万页就是$100/天 = $3000/月。本地OCR+小模型一台GPU服务器只要$200-500/月。大规模场景成本差5-10倍。
🔴 数据隐私完全没讨论
发票、合同、财务报表发到第三方API?在金融、医疗、政府行业这是合规红线。讽刺的是,SAP的客户恰恰是最在意数据隐私的企业。
🟡 78.9%的F1够用吗?
最强模型优化后也只有78.9%的F1。每5个字段约1个抽错或漏掉。发票金额错了、合同日期错了,在生产环境中需要大量人工校验。
🟢 简化流程确实有价值
对于中小规模、文档类型多变、不需要100%准确的场景(内部文档搜索、辅助分类),直接用MLLM确实比搭建OCR pipeline简单得多。
跟其他论文的对比
| 维度 | OCR or Not | PDF Bench | MOCR |
| 任务 | KV抽取 | 表格提取 | 全文档解析 |
| 数据集 | 内部不公开 | 合成+开源 | 公开benchmark |
| 可复现性 | ❌ | ✅ | ✅ |
| 模型覆盖 | 只有通用大模型 | 21个(含专用) | 多个专用模型 |
| 结论 | OCR可能不需要 | 选对工具很重要 | OCR需要扩展 |
我的判断
好问题,但过于自信的回答。
"强MLLM自带OCR能力"——观察正确。但跳到"OCR不需要了",跳过了太多:
1. 只在一个任务(KV抽取)上验证
2. 只用内部数据集,不可复现
3. 只测通用大模型,没测专用方案
4. 完全没讨论成本、延迟、隐私
5. 最强模型也只有78.9% F1
实践建议
小规模探索性场景 → 直接用MLLM,别折腾OCR
大规模生产、高精度、成本敏感、有隐私要求 → OCR+专用模型仍然更好
不管哪种方案,都要先在你自己的数据上做对比测试
一句话点评
OCR在evolving,不是dying。