Streaming-Llm:可以让大型语言模型处理无限长度的输入,同时不牺牲效率和性能,速度提升22倍。
LLMs通常遇到两个问题:一是它会“忘记”你之前说过什么,因为它的记忆有限;二是如果对话太长,它可能会变得很慢或者出错。
该框架可以让原本只能处理有限长度的LLMs处理无限长度的序列,而无需任何微调。Streaming-Llm在流式设置中,与滑动窗口重计算基线相比,速度提高了多达22.2倍。
Streaming-Llm就像是给大型语言模型装了一个“超级引擎”,让它们可以更快、更好地处理长文本或者连续的对话。这样,不仅可以节省计算资源,还能让这些模型做更多的事情。
作者:MIT Han Lab
GitHub:https://t.co/7Z3FOLpLvX
论文:https://t.co/jxb7175Eup