过去这一年,OCR突然成了AI圈最卷的赛道之一。 DeepSeek发了OCR专用模型,百度文心PaddleOCR冲上GitHub全球第一,今天百度又更了一份Unlimited OCR。十年前的技术,现在突然都成了刚需、话题、香饽饽。 为什么? 第一,瞎。 2026年最能打的国产模型模型,没有眼睛。DeepSeek v4、GLM 5.2、Kimi 2.7 Code,这些在coding和agentic任务上都很优秀,但清一色不支持图像输入。 但实际业务场景里,读文件的需求是很大的。比如破损运单的扫描、发票的自动管理、合同的合规性检查、简历的自动Review。没有读懂文件的能力,Agent连第一步都迈不出去。 第二,贵。 你可能会说我们也有多模态模型,但是你把一页PDF直接丢给多模态模型看,走的是图像token通道,价格是纯文本的好几倍。偶尔看一页没感觉,但企业场景是什么量级?几十万份合同、几百万张发票、成吨的法律文件。这个成本的增加是灾难级的。 第三,饿。 这个可能很多人没意识到,我之前也写过一篇文章说,大模型快"吃"不饱了。互联网上的高质量文本数据基本被刮干净了,大家都在找新的语料来源。Anthropic“手撕”二手书就是这个目的,为了寻求更多的高质量数据。OCR是这条路上把纸质数据转化为电子文本数据的必要渠道。 所以OCR的定位开始改变,成为了大模型时代训练和推理的基础工具之一。 DeepSeek OCR的核心贡献其实在Encoder(编码器)那一侧。它设计了一个叫DeepEncoder的高压缩编码器,能把一整页1024×1024的文档图像压缩成仅仅256个token。输入侧的问题,DeepSeek解得很漂亮。 但输入压得越狠,输出侧的矛盾就越突出。Unlimited OCR恰好补上了这另一半。它直接沿用了DeepSeek的DeepEncoder,然后把所有精力放在解决Decoder的问题上。接过了DeepSeek OCR的接力棒,你解了输入,我来解输出。 百度的研究员就在Decoder这个卡点上停下来想了一个问题:人是怎么抄书的? #百度 #文心 #文心大模型 #DeepSeek #OCR #效率工具 #论文解读 #一个想法但不一定对 #互联网大厂