有头有脸的大模型都卷长上下文，真的对吗？

作者：有头有脸的大模型都卷长上下文，真的对吗？

大模型圈又卷疯了。这次，卷的是上下文长度。从Kimi（月之暗面）在周一发布200万字无损上下文内测，引发"Kimi概念股"狂潮后，通义千问、文心一言、360都坐不住了，在一天内推出关于长上下文的新功能。其中，百度宣布将开放200万-500万的长文本能力。360在周六凌晨称正式内测500万字长文本处理功能。最卷的当属阿里，宣布通义千问免费开放1000万字的长文本功能。长上下文不是第一次被卷。去年10月，全球最长的上下文窗口宝座还归属于百川智能。当时，Baichuan2的上下文窗口长度为192K，能一次处理35万个汉字。同期对比对象是支持100K上下文窗口，约8万字的Claude2。之后，全球各家大模型，都在持续上下文窗口数字。2023年11月，零一万物发布Yi-34B，可处理200K上下文，也就是40万字输入。2024年1月，智谱宣布GLM4性能提升，可以支持 128k上下文长度。2月，Google发布拥有100万个Token、超长上下文的Gemini 1.5 Pro。3月，Kimi（月之暗面）宣布开启200万字的无损上下文内测。对大模型来说，支持的长上下文窗口足够长，首先能够提升信息提取、提问回复的质量。另外，如果能构建高质量的上下文处理能力，还能提升模型在多轮对话、复杂prompt中的指令遵循能力。但同时，模型处理长上下文并不是一件容易的事情。它不仅会消耗很多资源，也容易导致模型"变笨"。另外，超长上下文的刚需使用场景也成为一个热议话题——它会是个窄众技术吗？做到无损的长上下文，需要跨越各种技术难关，而且训练和推理环节中，长上下文大模型都需要大量资源。也就是说，长上下文大模型的落地，充满了资源和效果的博弈。这同样意味着，这一类型的产品需求空间至关重要。当前一本小说的字数大约也就在数十万字。在纯文本方面，一次性需要处理数百万字的场景还不多。经过「四木相对论」了解，目前大家认为，如果可以把整个代码库输入给大模型完成写代码的工作，是一个非常适合长上下文的场景。其他的场景暂时还不够清晰。 #人工智能 #大模型 #AI #Kimi #月之暗面 #大厂 #百度 #阿里 #Google #程序员

⚡ 技术纵深 · 洞见未来

有头有脸的大模型都卷长上下文，真的对吗？

深度推荐 · 延伸阅读