昨晚圈子被一个叫MoE 8x7B模型刷屏了,这应该是第个一个开源权重的MoE架构LLM。
在HF排行榜上这个7B模型击败了很多70B和34B的模型。之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。
MoE可以与使用两倍FLOPs的密集模型相媲美。例如,使用相同的数据和 FLOP,LLaMA 7B 的 MoE 版本应该与 LLaMA 13B 相当。
下面是MoE架构LLM的简单介绍:
Moe(混合专家模型)架构的LLM(大型语言模型)指的是一种神经架构设计,它将稀疏混合专家技术整合进来,以增加可学习参数到大型语言模型中而不增加推理成本。
MoE架构为LLMs提供了几个优势:
◆增加参数效率:MoE允许在不显著增加推理成本的情况下向LLMs添加可学习参数[1]。这使得能够开发更强大的模型,而无需成比例地增加计算要求。
◆通过指导调整改善性能:研究表明,MoE模型比密集模型更容易受益于指导调整。例如,FLAN-MOE-32B 模型在使用仅三分之一的 FLOPs 的情况下,在四项基准任务上优于 FLAN-PALM-62B
◆适应多样化数据:MoE架构可以处理现代数据集的增加复杂性和规模,这些数据集通常包含具有截然不同特征与标签关系的不同区域
◆潜力更高的参数效率:SaMoE 架构是 MoE 的一个变体,通过减少总参数达到了最多 5.2 倍,并且相较于基线取得了卓越的预训练和零-shot泛化结果。
MoE的模型也有两个问题:
MoE 模型比普通密集模型更难微调;
MoE 模型会消耗大量显存;
下载MoE 8x7B的模型权重:https://t.co/JBcfOiJUxn
这里在线体验MoE 8x7B模型:https://t.co/DvCuMSFlcd
点击图片查看原图
点击图片查看原图