文心多模态背后，还有这样一层能力在撑

作者：文心多模态背后，还有这样一层能力在撑

AI行业最近很热闹。有人忙着收费，有人忙着筹备上市，但也有人在悄咪卷自己——在过去的短短几天时间里，百度文心正式发布PP-OCRv6，一次性推出了Tiny、Small、Medium三档模型！此次发布的PP-OCRv6“出道即巅峰”，因为在性能上刷新了由PP-OCRv5保持的OCR领域最佳水平——是的，上一代的自家发布的PP-OCRv5已经是全球第一，这次发布的PP-OCRv6又超越了PP-OCRv5，可谓是真正的自己卷自己。这一次发布的PP-OCRv6在性能方面的表现除了超越PP-OCRv5之外，文本检测和文本识别任务还在最新的公开测试中分别取得了86.2和83.2的成绩，这个成绩优于Qwen3-VL-235B、GPT-5.5、Gemini-3.1-Pro等国内外主流多模态大模型，综合实力全球第一也是真实至名归了。但让我惊讶的是，这样一款性能强大的大模型在轻量化方面却达到了令人惊叹的地步——除了Medium和Small分别以34.5MB和7.7MB的体积傲世群雄外，Tiny的体积更是达到了令人难以置信的1.5MB，而且它的单图预测最快仅需97毫秒。在未来的浏览器/极端边缘设备身上，Tiny可能是全球唯一可在浏览器环境运行的高精度OCR模型。简单说，就是Tiny会成为agent时代的“眼睛”，为agent未来在智能办公、教育、工业等场景提供更加轻量和高效的视觉感知能力。作为文心大模型的重要组成部分，此前的模型侧重“思考”，而PP-OCRv6则负责提供“视觉感知”能力。更为重要的是，PP-OCRv6支持50+种语言，覆盖语种除了通用的英语等主流语言外，还支持一些小众语种。在未来的应用场景中，PP-OCRv6在高性能、高精度、轻量化特性外还额外支持丰富语种的特性，也意味着它以后在文档解析、数据处理、知识库构建等场景中将发挥新的特色。期待PP-OCR在接下来的路途中“卷”出更多成果！ #文心 #文心5 #文心大模型 #PaddleOCR #PPOCR #百度 #OCR #AI #AI大模型 #科技

⚡ 技术纵深 · 洞见未来

文心多模态背后，还有这样一层能力在撑

深度推荐 · 延伸阅读