论文:Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation
作者:Pius Horn, Jürgen Keuper(德国奥芬堡大学 IMLA / 曼海姆大学)
链接:arxiv.org/abs/2603.18652 | 代码:github.com/phorn1/pdf-parse-bench
AI裁判 vs 传统指标
PDF表格提取是数据挖掘、RAG、知识库建设的基础环节。市面上工具很多——从PyMuPDF到Gemini 3 Pro——但到底哪个好?现有评测有两个痛点:
痛点一:评价指标不靠谱。主流的TEDS和GriTS都是基于字符串匹配的规则指标。它们会因为无关紧要的格式差异(比如α写成$\alpha$、85.0%写成85%)疯狂扣分,却对真正的语义错误(小数点丢失、正负号反转)不敏感。
痛点二:缺乏大规模可复现的基准。手工标注成本太高,现有数据集要么只有裁剪过的表格图片(不适合端到端评测),要么标注不够精确。
从arXiv论文中提取真实的LaTeX表格源码,按复杂度分为简单/中等/复杂三类,然后嵌入到随机生成的PDF页面中。因为原始LaTeX就是ground truth,完全不需要人工标注。最终生成了100个合成PDF页面,包含451张表格。
让LLM同时看ground truth表格和解析器输出,在0-10分的量表上评估内容准确性和结构保真度。测了4个LLM裁判:
LLM评分 vs 传统指标与人类判断的相关性对比
| 评价方法 | 类型 | Pearson r |
|---|---|---|
| Claude Opus 4.6 | LLM | 0.939 |
| Gemini 3 Flash | LLM | 0.927 |
| GPT-5 mini | LLM | 0.888 |
| DeepSeek-v3.2 | LLM | 0.802 |
| GriTS-Avg | 规则 | 0.698 |
| TEDS | 规则 | 0.684 |
| SCORE-Avg | 规则 | 0.637 |
最弱的LLM裁判都比最强的规则指标好。
21款解析器赛跑
| # | 解析器 | 总分 | 简单 | 复杂 | 类型 | 100页成本 |
|---|---|---|---|---|---|---|
| 1 | Gemini 3 Pro | 9.55 | 9.58 | 9.49 | 通用大模型 | $10.00 |
| 2 | Gemini 3 Flash | 9.50 | 9.53 | 9.61 | 通用大模型 | $0.57 |
| 3 | LightOnOCR-2-1B | 9.08 | 9.41 | 8.91 | 专用OCR | GPU 30min |
| 4 | Mistral OCR 3 | 8.89 | 8.92 | 9.07 | 商业API | $0.20 |
| 5 | dots.ocr | 8.73 | 9.01 | 8.76 | 专用OCR | GPU 20min |
| 6 | Mathpix | 8.53 | 9.32 | 7.77 | 商业API | $0.35-0.50 |
| # | 解析器 | 总分 | 类型 | 成本 |
|---|---|---|---|---|
| 7 | Chandra | 8.43 | 专用OCR | GPU 4h |
| 8 | Qwen3-VL-235B | 8.43 | 通用大模型 | $0.20 |
| 9 | MonkeyOCR-3B | 8.39 | 专用OCR | GPU 20min |
| 10 | GLM-4.5V | 7.98 | 通用大模型 | $0.60 |
| 11 | GPT-5 mini | 7.14 | 通用大模型 | $1.00 |
| 12 | Claude Sonnet 4.6 | 7.02 | 通用大模型 | $3.00 |
| # | 解析器 | 总分 | 类型 |
|---|---|---|---|
| 13 | Nanonets-OCR-s | 6.92 | 专用OCR |
| 14 | Gemini 2.5 Flash | 6.85 | 通用大模型 |
| 15 | MinerU2.5 | 6.49 | 混合 |
| 16 | GPT-5 nano | 6.48 | 通用大模型 |
| 17 | DeepSeek-OCR | 5.75 | 专用OCR |
| 18 | PyMuPDF4LLM | 5.25 | 规则 |
| 19 | GOT-OCR2.0 | 5.13 | 专用OCR |
| 20 | olmOCR-2-7B | 4.05 | 专用OCR |
| 21 | GROBID | 2.10 | 规则 |
各解析器的得分分布——有些"要么满分要么零分"
1B参数的LightOnOCR就拿到了9.08,在单卡4090上30分钟跑完100页。精心设计的小模型完全可以逼近甚至超越巨型通用模型。
大多数解析器在简单表格上都能拿到8-9分,但遇到多维合并单元格:GLM-4.5V 从9.19暴跌到7.00(-2.19),Qwen3-VL 从9.23跌到7.67(-1.56),而Gemini 3 Flash反而在复杂表格上更强(9.61 vs 9.53)。
排除完全失败的解析器后,TEDS分数挤在0.66-0.88之间(22%的区间),看起来大家差不多。但LLM评分的区间是5.75-9.55(38%),真实差距大得多。
Claude Sonnet 4.6和olmOCR展现出明显的双峰分布——表格要么拿满分10,要么拿0分。漏掉一张表比搞出一张错表要安全。
🥇 Gemini 3 Flash:$0.57/100页,9.50分,几乎和Pro一样好但便宜17倍
🥈 Mistral OCR 3:$0.20/100页,8.89分,最便宜的商业API
🥉 LightOnOCR-2-1B:免费开源,9.08分,需要GPU但无API费用
如果你在选PDF表格提取工具:
1. 预算充足选 Gemini 3 Flash:性价比最优
2. 需要自部署选 LightOnOCR-2-1B:1B参数,单卡可跑
3. 商业API预算有限选 Mistral OCR 3:$0.20/100页
4. 不要只看TEDS分数:它可能给你错误的信心
5. 关注复杂表格表现:这才是区分度最高的指标
选对工具,事半功倍;选错工具,事倍功半。这篇论文用LLM裁判替代字符串匹配,第一次给出了跟人类感知一致的表格提取评分,揭示了21款解析器之间被传统指标掩盖的巨大差距。
如果你的工作涉及PDF数据提取,这份排行榜值得收藏。