💻

程序员谈天

Coder Says

聚焦 AI 前沿技术,用程序员的视角解读最新论文和行业动态。
深度解析、代码实践、一手体验。

🔬 AI 论文解读 🧠 多模态 & OCR 🛠️ 工程实践 📺 视频讲解
📝 最新文章
🔍
小红书搞了个"万物皆可OCR":3B小模型干翻一众大模型
小红书hi lab联合华中科大白翔团队提出 MOCR——一个仅3B参数的多模态OCR模型, 统一图文解析为SVG,在 olmOCR-Bench 上取得 83.9 分的 SOTA 成绩,超越 GPT-4o、 Gemini 等巨型模型。它如何做到的?我们来深度拆解。
OCR已死?别急着下结论——深度解读+批判性分析
多模态大模型直接看图做文档信息抽取,能打平甚至超越传统 OCR+LLM 的 pipeline? 这篇论文的结论很大胆,但细看之下,事情没那么简单。
📊
21款PDF表格解析器大比拼:LLM当裁判,谁才是真正的王者?
从 PyMuPDF 到 GPT-4o,21个 PDF 解析器全面横评。用 LLM 做裁判打分, 结果出乎意料——最贵的不一定最好,开源方案也有惊喜。
📺 视频讲解
MOCR 论文讲解:小红书3B模型如何统一OCR
约3分40秒 · 中文讲解 · 带字幕
OCR已死?——论文深度解读与批判性分析
中文讲解 · 带字幕
21款PDF解析器横评:谁才是王者?
中文讲解 · 带字幕
👋 关于

程序员谈天(Coder Says)是一个专注 AI 技术深度解读的内容频道。

我们关注多模态、OCR、文档智能、大语言模型等前沿方向,用通俗的语言拆解最新论文,辅以代码实践和视频讲解。

📮 微信公众号:coder_says
💬 欢迎关注、交流、投稿

程序员谈天 公众号二维码

👆 扫码关注公众号