有头有脸的大模型都卷长上下文,真的对吗?

作者:有头有脸的大模型都卷长上下文,真的对吗?

大模型圈又卷疯了。这次,卷的是上下文长度。 从Kimi(月之暗面)在周一发布200万字无损上下文内测,引发"Kimi概念股"狂潮后,通义千问、文心一言、360都坐不住了,在一天内推出关于长上下文的新功能。 其中,百度宣布将开放200万-500万的长文本能力。360在周六凌晨称正式内测500万字长文本处理功能。最卷的当属阿里,宣布通义千问免费开放1000万字的长文本功能。 长上下文不是第一次被卷。 去年10月,全球最长的上下文窗口宝座还归属于百川智能。当时,Baichuan2的上下文窗口长度为192K,能一次处理35万个汉字。同期对比对象是支持100K上下文窗口,约8万字的Claude2。 之后,全球各家大模型,都在持续上下文窗口数字。2023年11月,零一万物发布Yi-34B,可处理200K上下文,也就是40万字输入。2024年1月,智谱宣布GLM4性能提升,可以支持 128k上下文长度。2月,Google发布拥有100万个Token、超长上下文的Gemini 1.5 Pro。3月,Kimi(月之暗面)宣布开启200万字的无损上下文内测。 对大模型来说,支持的长上下文窗口足够长,首先能够提升信息提取、提问回复的质量。 另外,如果能构建高质量的上下文处理能力,还能提升模型在多轮对话、复杂prompt中的指令遵循能力。 但同时,模型处理长上下文并不是一件容易的事情。它不仅会消耗很多资源,也容易导致模型"变笨"。 另外,超长上下文的刚需使用场景也成为一个热议话题——它会是个窄众技术吗? 做到无损的长上下文,需要跨越各种技术难关,而且训练和推理环节中,长上下文大模型都需要大量资源。 也就是说,长上下文大模型的落地,充满了资源和效果的博弈。这同样意味着,这一类型的产品需求空间至关重要。 当前一本小说的字数大约也就在数十万字。在纯文本方面,一次性需要处理数百万字的场景还不多。 经过「四木相对论」了解,目前大家认为,如果可以把整个代码库输入给大模型完成写代码的工作,是一个非常适合长上下文的场景。 其他的场景暂时还不够清晰。 #人工智能 #大模型 #AI #Kimi #月之暗面 #大厂 #百度 #阿里 #Google #程序员

📰 返回新闻列表