程序员谈天 | Coder Says

📝 最新文章

深度解读 2026-03-22

小红书搞了个"万物皆可OCR"：3B小模型干翻一众大模型

小红书hi lab联合华中科大白翔团队提出 MOCR——一个仅3B参数的多模态OCR模型，统一图文解析为SVG，在 olmOCR-Bench 上取得 83.9 分的 SOTA 成绩，超越 GPT-4o、 Gemini 等巨型模型。它如何做到的？我们来深度拆解。

批判性分析 2026-03-22

OCR已死？别急着下结论——深度解读+批判性分析

多模态大模型直接看图做文档信息抽取，能打平甚至超越传统 OCR+LLM 的 pipeline？这篇论文的结论很大胆，但细看之下，事情没那么简单。

工具评测 2026-03-22

21款PDF表格解析器大比拼：LLM当裁判，谁才是真正的王者？

从 PyMuPDF 到 GPT-4o，21个 PDF 解析器全面横评。用 LLM 做裁判打分，结果出乎意料——最贵的不一定最好，开源方案也有惊喜。

📺 视频讲解

MOCR 论文讲解：小红书3B模型如何统一OCR

约3分40秒 · 中文讲解 · 带字幕

OCR已死？——论文深度解读与批判性分析

中文讲解 · 带字幕

21款PDF解析器横评：谁才是王者？

中文讲解 · 带字幕

👋 关于

程序员谈天（Coder Says）是一个专注 AI 技术深度解读的内容频道。

我们关注多模态、OCR、文档智能、大语言模型等前沿方向，用通俗的语言拆解最新论文，辅以代码实践和视频讲解。

📮 微信公众号：coder_says
💬 欢迎关注、交流、投稿

程序员谈天公众号二维码

👆 扫码关注公众号