【大模型系列】大模型的上下文长度解释与拓展

1 什么是大模型的上下文长度？

大模型的上下文长度（Context Length）是指在自然语言处理（NLP）的大型语言模型（Large Language Models，LLM）中，模型在处理输入信息时能够考虑的最大文本量(一次处理的最大tokens数量)。
超长上下文的优势：

超长上下文的挑战：

大模型在持续推理的过程中，需要缓存一个叫做 KV Cache 的数据快，KV Cache 的大小也与序列长度成正比。以 Llama 2 13B 大模型为例，一个 4K 长的序列大约需要 3G 的显存去缓存 KV Cache，16K 的序列则需要 12G，128K 的序列则需要 100G 显存。

Source: 如何扩展大模型的上下文长度
目前国内外大模型上下文长度支持情况如下：

国内最近(2024)很火的Kimi Chat支持的上下文长度以及拓展到40万tokens。

主要将其分为了Interpolation(插值)和Extrapolation(外推)技术：

其中：

大致可以简单分为以下几种主要的方式：

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。