重新发一下MoE 8x7B的介绍原来的删掉了,由于没有在HF模型排行上找到我就直接复制了@RealJosephus的HF截图,这里向他道歉。一般只要是推特的原推有的我都会尽量转推MoE 8x7B由于官方没有说明很多内容都是拼凑的就没有把参考的内容都粘过来。
我并不是专门研究LLM的所以很多事情肯定说的不一定严谨,如果有问题欢迎指出。能改的我一般都会改,改不了的我会在下面贴上。但是我依然觉得不应该上来就骂人。
昨晚圈子被一个叫MoE 8x7B模型刷屏了,这应该是第个一个开源权重的MoE架构LLM。
之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。MoE可以与使用两倍FLOPs的密集模型相媲美。例如,使用相同的数据和 FLOP,LLaMA 7B 的 MoE 版本应该与 LLaMA 13B 相当。
MoE 8x7B测试分数来源于第一个链接。
下面是MoE架构LLM的简单介绍:
Moe(混合专家模型)架构的LLM(大型语言模型)指的是一种神经架构设计,它将稀疏混合专家技术整合进来,以增加可学习参数到大型语言模型中而不增加推理成本。
MoE架构为LLMs提供了几个优势:
◆增加参数效率:MoE允许在不显著增加推理成本的情况下向LLMs添加可学习参数。这使得能够开发更强大的模型,而无需成比例地增加计算要求。
◆通过指导调整改善性能:研究表明,MoE模型比密集模型更容易受益于指导调整。例如,FLAN-MOE-32B 模型在使用仅三分之一的 FLOPs 的情况下,在四项基准任务上优于 FLAN-PALM-62B。
◆适应多样化数据:MoE架构可以处理现代数据集的增加复杂性和规模,这些数据集通常包含具有截然不同特征与标签关系的不同区域。
◆潜力更高的参数效率:SaMoE 架构是 MoE 的一个变体,通过减少总参数达到了最多 5.2 倍,并且相较于基线取得了卓越的预训练和零-shot泛化结果。 MoE的模型也有两个问题: MoE 模型比普通密集模型更难微调; MoE 模型会消耗大量显存。
模型下载:https://t.co/LPePNmQywR
在线试用:https://t.co/DvCuMSFlcd
点击图片查看原图