百度新OCR一次吞下全书

📅 2026-06-24 23:17:54 🏷️ 来源：WZ132游戏网 ⏱️ 阅读约 {READING_TIME} 分钟

作者：百度新OCR一次吞下全书

百度开源了一个新OCR模型 Unlimited OCR，能一次性读完几十页长文档。它在 OmniDocBench 上直接刷到 93.92% 的新高，整体比 DeepSeek OCR 高出 6.22 个百分点。更关键的区别在于工作方式：传统 OCR 是一页一页读、读完拼回去，而这个模型模拟人抄书的状态——原书一直摊开，手边只留最近写下的几行字，更久的内容自然淡出工作记忆。这就是它提出的参考滑动窗口注意力（R-SWA）。靠这套机制，即便一次输入 40 页以上，显存占用量和计算开销几乎不涨，生成 6000 个 Token 时推理速度比 DeepSeek OCR 快约 35%，延迟也没出现长文档常见的飙升。技术报告作者里出现了一个署名 YY 的技术总监，不少人顺着致谢和行文风格猜测，可能是前 DeepSeek OCR 研究员魏浩然。你怎么看这条从 OCR 开始往长记忆机制延伸的研究路线？###