近年来,大型语言模型(LLM)的性能有了显著提升,并且在各种自然语言处理任务中展示了出色的能力。然而,由于输入长度的限制,它们在处理极长文本(如学术论文、小说和法律文件)时面临挑战。 - 为了解决这个问题,人们开始努力扩展这些模型的上下文长度。例如,OpenAI的GPT-3.5经历了多次升级将上下文输入长度扩展到1.6万个token,而GPT-4进一步扩展到128k个token。此外,Anthropic公司推出了Claude-200K等模型,可以处理高达10万个token的单个上下文。国内的Baichuan2-192K、XVERSE-Long-256K、Yi-34B-200K、InternLM-200K和KimiChat(具有20万个汉字的容量)等模型也都具有处理超长上下文的能力。 - 为了评估这些模型在长文本任务上的性能,开发者们通常使用国外开发者Greg Kamradt设计的测评方法“Needle in A HayStack”,中文一般称之为“大海捞针”。#大模型 #LLM #复旦Nlp #ai #人工智能