title

21款PDF表格解析器大比拼:LLM当裁判,谁才是真正的王者?

论文:Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation
作者:Pius Horn, Jürgen Keuper(德国奥芬堡大学 IMLA / 曼海姆大学)
链接:arxiv.org/abs/2603.18652 | 代码:github.com/phorn1/pdf-parse-bench

一句话总结

传统指标(TEDS、GriTS)评表格提取效果,跟人类判断的相关性只有0.68-0.70;换成LLM当裁判,相关性飙到0.93。用这个新方法一测,21款解析器的真实水平差距巨大——从2.1分到9.6分(满分10),选错工具等于白干。

为什么需要这篇论文?

LLM judge

AI裁判 vs 传统指标

PDF表格提取是数据挖掘、RAG、知识库建设的基础环节。市面上工具很多——从PyMuPDF到Gemini 3 Pro——但到底哪个好?现有评测有两个痛点:

痛点一:评价指标不靠谱。主流的TEDS和GriTS都是基于字符串匹配的规则指标。它们会因为无关紧要的格式差异(比如α写成$\alpha$85.0%写成85%)疯狂扣分,却对真正的语义错误(小数点丢失、正负号反转)不敏感。

痛点二:缺乏大规模可复现的基准。手工标注成本太高,现有数据集要么只有裁剪过的表格图片(不适合端到端评测),要么标注不够精确。

核心方法

1. 合成PDF + 精确Ground Truth

从arXiv论文中提取真实的LaTeX表格源码,按复杂度分为简单/中等/复杂三类,然后嵌入到随机生成的PDF页面中。因为原始LaTeX就是ground truth,完全不需要人工标注。最终生成了100个合成PDF页面,包含451张表格。

2. LLM当裁判评分

让LLM同时看ground truth表格和解析器输出,在0-10分的量表上评估内容准确性结构保真度。测了4个LLM裁判:

scatter plots

LLM评分 vs 传统指标与人类判断的相关性对比

评价方法类型Pearson r
Claude Opus 4.6LLM0.939
Gemini 3 FlashLLM0.927
GPT-5 miniLLM0.888
DeepSeek-v3.2LLM0.802
GriTS-Avg规则0.698
TEDS规则0.684
SCORE-Avg规则0.637

最弱的LLM裁判都比最强的规则指标好。

21款解析器排行榜

race

21款解析器赛跑

🏆 第一梯队(8.5+分)

#解析器总分简单复杂类型100页成本
1Gemini 3 Pro9.559.589.49通用大模型$10.00
2Gemini 3 Flash9.509.539.61通用大模型$0.57
3LightOnOCR-2-1B9.089.418.91专用OCRGPU 30min
4Mistral OCR 38.898.929.07商业API$0.20
5dots.ocr8.739.018.76专用OCRGPU 20min
6Mathpix8.539.327.77商业API$0.35-0.50

🥈 第二梯队(7.0-8.5分)

#解析器总分类型成本
7Chandra8.43专用OCRGPU 4h
8Qwen3-VL-235B8.43通用大模型$0.20
9MonkeyOCR-3B8.39专用OCRGPU 20min
10GLM-4.5V7.98通用大模型$0.60
11GPT-5 mini7.14通用大模型$1.00
12Claude Sonnet 4.67.02通用大模型$3.00

🥉 第三梯队(<7.0分)

#解析器总分类型
13Nanonets-OCR-s6.92专用OCR
14Gemini 2.5 Flash6.85通用大模型
15MinerU2.56.49混合
16GPT-5 nano6.48通用大模型
17DeepSeek-OCR5.75专用OCR
18PyMuPDF4LLM5.25规则
19GOT-OCR2.05.13专用OCR
20olmOCR-2-7B4.05专用OCR
21GROBID2.10规则

关键发现

distributions

各解析器的得分分布——有些"要么满分要么零分"

1. 通用大模型并不总是碾压

1B参数的LightOnOCR就拿到了9.08,在单卡4090上30分钟跑完100页。精心设计的小模型完全可以逼近甚至超越巨型通用模型。

2. 复杂表格是分水岭

大多数解析器在简单表格上都能拿到8-9分,但遇到多维合并单元格:GLM-4.5V 从9.19暴跌到7.00(-2.19),Qwen3-VL 从9.23跌到7.67(-1.56),而Gemini 3 Flash反而在复杂表格上更强(9.61 vs 9.53)。

3. TEDS给出了错误的印象

排除完全失败的解析器后,TEDS分数挤在0.66-0.88之间(22%的区间),看起来大家差不多。但LLM评分的区间是5.75-9.55(38%),真实差距大得多

4. 有些解析器"要么完美要么完蛋"

Claude Sonnet 4.6和olmOCR展现出明显的双峰分布——表格要么拿满分10,要么拿0分。漏掉一张表比搞出一张错表要安全。

性价比之王

🥇 Gemini 3 Flash:$0.57/100页,9.50分,几乎和Pro一样好但便宜17倍

🥈 Mistral OCR 3:$0.20/100页,8.89分,最便宜的商业API

🥉 LightOnOCR-2-1B:免费开源,9.08分,需要GPU但无API费用

实践建议

如果你在选PDF表格提取工具:

1. 预算充足选 Gemini 3 Flash:性价比最优

2. 需要自部署选 LightOnOCR-2-1B:1B参数,单卡可跑

3. 商业API预算有限选 Mistral OCR 3:$0.20/100页

4. 不要只看TEDS分数:它可能给你错误的信心

5. 关注复杂表格表现:这才是区分度最高的指标

table

总结

选对工具,事半功倍;选错工具,事倍功半。这篇论文用LLM裁判替代字符串匹配,第一次给出了跟人类感知一致的表格提取评分,揭示了21款解析器之间被传统指标掩盖的巨大差距。

如果你的工作涉及PDF数据提取,这份排行榜值得收藏。