小红书搞了个"万物皆可OCR":3B小模型干翻一众大模型
小红书hi lab联合华中科大白翔团队提出 MOCR——一个仅3B参数的多模态OCR模型,
统一图文解析为SVG,在 olmOCR-Bench 上取得 83.9 分的 SOTA 成绩,超越 GPT-4o、
Gemini 等巨型模型。它如何做到的?我们来深度拆解。
聚焦 AI 前沿技术,用程序员的视角解读最新论文和行业动态。
深度解析、代码实践、一手体验。
程序员谈天(Coder Says)是一个专注 AI 技术深度解读的内容频道。
我们关注多模态、OCR、文档智能、大语言模型等前沿方向,用通俗的语言拆解最新论文,辅以代码实践和视频讲解。
📮 微信公众号:coder_says
💬 欢迎关注、交流、投稿
👆 扫码关注公众号