21款PDF表格解析器大比拼：LLM当裁判，谁才是真正的王者？

论文：Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation
作者：Pius Horn, Jürgen Keuper（德国奥芬堡大学 IMLA / 曼海姆大学）
链接：arxiv.org/abs/2603.18652 | 代码：github.com/phorn1/pdf-parse-bench

一句话总结

传统指标（TEDS、GriTS）评表格提取效果，跟人类判断的相关性只有0.68-0.70；换成LLM当裁判，相关性飙到0.93。用这个新方法一测，21款解析器的真实水平差距巨大——从2.1分到9.6分（满分10），选错工具等于白干。

为什么需要这篇论文？

AI裁判 vs 传统指标

PDF表格提取是数据挖掘、RAG、知识库建设的基础环节。市面上工具很多——从PyMuPDF到Gemini 3 Pro——但到底哪个好？现有评测有两个痛点：

痛点一：评价指标不靠谱。主流的TEDS和GriTS都是基于字符串匹配的规则指标。它们会因为无关紧要的格式差异（比如α写成 $\alpha$ 、85.0%写成85%）疯狂扣分，却对真正的语义错误（小数点丢失、正负号反转）不敏感。

痛点二：缺乏大规模可复现的基准。手工标注成本太高，现有数据集要么只有裁剪过的表格图片（不适合端到端评测），要么标注不够精确。

核心方法

1. 合成PDF + 精确Ground Truth

从arXiv论文中提取真实的LaTeX表格源码，按复杂度分为简单/中等/复杂三类，然后嵌入到随机生成的PDF页面中。因为原始LaTeX就是ground truth，完全不需要人工标注。最终生成了100个合成PDF页面，包含451张表格。

2. LLM当裁判评分

让LLM同时看ground truth表格和解析器输出，在0-10分的量表上评估内容准确性和结构保真度。测了4个LLM裁判：

LLM评分 vs 传统指标与人类判断的相关性对比

评价方法	类型	Pearson r
Claude Opus 4.6	LLM	0.939
Gemini 3 Flash	LLM	0.927
GPT-5 mini	LLM	0.888
DeepSeek-v3.2	LLM	0.802
GriTS-Avg	规则	0.698
TEDS	规则	0.684
SCORE-Avg	规则	0.637

最弱的LLM裁判都比最强的规则指标好。

21款解析器排行榜

21款解析器赛跑

🏆 第一梯队（8.5+分）

#	解析器	总分	简单	复杂	类型	100页成本
1	Gemini 3 Pro	9.55	9.58	9.49	通用大模型	$10.00
2	Gemini 3 Flash	9.50	9.53	9.61	通用大模型	$0.57
3	LightOnOCR-2-1B	9.08	9.41	8.91	专用OCR	GPU 30min
4	Mistral OCR 3	8.89	8.92	9.07	商业API	$0.20
5	dots.ocr	8.73	9.01	8.76	专用OCR	GPU 20min
6	Mathpix	8.53	9.32	7.77	商业API	$0.35-0.50

🥈 第二梯队（7.0-8.5分）

#	解析器	总分	类型	成本
7	Chandra	8.43	专用OCR	GPU 4h
8	Qwen3-VL-235B	8.43	通用大模型	$0.20
9	MonkeyOCR-3B	8.39	专用OCR	GPU 20min
10	GLM-4.5V	7.98	通用大模型	$0.60
11	GPT-5 mini	7.14	通用大模型	$1.00
12	Claude Sonnet 4.6	7.02	通用大模型	$3.00

🥉 第三梯队（<7.0分）

#	解析器	总分	类型
13	Nanonets-OCR-s	6.92	专用OCR
14	Gemini 2.5 Flash	6.85	通用大模型
15	MinerU2.5	6.49	混合
16	GPT-5 nano	6.48	通用大模型
17	DeepSeek-OCR	5.75	专用OCR
18	PyMuPDF4LLM	5.25	规则
19	GOT-OCR2.0	5.13	专用OCR
20	olmOCR-2-7B	4.05	专用OCR
21	GROBID	2.10	规则

关键发现

各解析器的得分分布——有些"要么满分要么零分"

1. 通用大模型并不总是碾压

1B参数的LightOnOCR就拿到了9.08，在单卡4090上30分钟跑完100页。精心设计的小模型完全可以逼近甚至超越巨型通用模型。

2. 复杂表格是分水岭

大多数解析器在简单表格上都能拿到8-9分，但遇到多维合并单元格：GLM-4.5V 从9.19暴跌到7.00（-2.19），Qwen3-VL 从9.23跌到7.67（-1.56），而Gemini 3 Flash反而在复杂表格上更强（9.61 vs 9.53）。

3. TEDS给出了错误的印象

排除完全失败的解析器后，TEDS分数挤在0.66-0.88之间（22%的区间），看起来大家差不多。但LLM评分的区间是5.75-9.55（38%），真实差距大得多。

4. 有些解析器"要么完美要么完蛋"

Claude Sonnet 4.6和olmOCR展现出明显的双峰分布——表格要么拿满分10，要么拿0分。漏掉一张表比搞出一张错表要安全。

性价比之王

🥇 Gemini 3 Flash：$0.57/100页，9.50分，几乎和Pro一样好但便宜17倍

🥈 Mistral OCR 3：$0.20/100页，8.89分，最便宜的商业API

🥉 LightOnOCR-2-1B：免费开源，9.08分，需要GPU但无API费用

实践建议

如果你在选PDF表格提取工具：

1. 预算充足选 Gemini 3 Flash：性价比最优

2. 需要自部署选 LightOnOCR-2-1B：1B参数，单卡可跑

3. 商业API预算有限选 Mistral OCR 3：$0.20/100页

4. 不要只看TEDS分数：它可能给你错误的信心

5. 关注复杂表格表现：这才是区分度最高的指标

总结

选对工具，事半功倍；选错工具，事倍功半。这篇论文用LLM裁判替代字符串匹配，第一次给出了跟人类感知一致的表格提取评分，揭示了21款解析器之间被传统指标掩盖的巨大差距。

如果你的工作涉及PDF数据提取，这份排行榜值得收藏。