第一次觉得一篇AI论文的灵感比结论更精彩

作者：第一次觉得一篇AI论文的灵感比结论更精彩

过去这一年，OCR突然成了AI圈最卷的赛道之一。 DeepSeek发了OCR专用模型，百度文心PaddleOCR冲上GitHub全球第一，今天百度又更了一份Unlimited OCR。十年前的技术，现在突然都成了刚需、话题、香饽饽。为什么？第一，瞎。 2026年最能打的国产模型模型，没有眼睛。DeepSeek v4、GLM 5.2、Kimi 2.7 Code，这些在coding和agentic任务上都很优秀，但清一色不支持图像输入。但实际业务场景里，读文件的需求是很大的。比如破损运单的扫描、发票的自动管理、合同的合规性检查、简历的自动Review。没有读懂文件的能力，Agent连第一步都迈不出去。第二，贵。你可能会说我们也有多模态模型，但是你把一页PDF直接丢给多模态模型看，走的是图像token通道，价格是纯文本的好几倍。偶尔看一页没感觉，但企业场景是什么量级？几十万份合同、几百万张发票、成吨的法律文件。这个成本的增加是灾难级的。第三，饿。这个可能很多人没意识到，我之前也写过一篇文章说，大模型快"吃"不饱了。互联网上的高质量文本数据基本被刮干净了，大家都在找新的语料来源。Anthropic“手撕”二手书就是这个目的，为了寻求更多的高质量数据。OCR是这条路上把纸质数据转化为电子文本数据的必要渠道。所以OCR的定位开始改变，成为了大模型时代训练和推理的基础工具之一。 DeepSeek OCR的核心贡献其实在Encoder（编码器）那一侧。它设计了一个叫DeepEncoder的高压缩编码器，能把一整页1024×1024的文档图像压缩成仅仅256个token。输入侧的问题，DeepSeek解得很漂亮。但输入压得越狠，输出侧的矛盾就越突出。Unlimited OCR恰好补上了这另一半。它直接沿用了DeepSeek的DeepEncoder，然后把所有精力放在解决Decoder的问题上。接过了DeepSeek OCR的接力棒，你解了输入，我来解输出。百度的研究员就在Decoder这个卡点上停下来想了一个问题：人是怎么抄书的？ #百度 #文心 #文心大模型 #DeepSeek #OCR #效率工具 #论文解读 #一个想法但不一定对 #互联网大厂

⚡ 技术纵深 · 洞见未来

第一次觉得一篇AI论文的灵感比结论更精彩

深度推荐 · 延伸阅读