昨晚圈子被一个叫MoE 8x7B模型刷屏了，这应该是第个一个开源权重的MoE架构LLM。在HF排行榜上这个7B模型击败了很多70B和34B的模型。之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。MoE可以与使用两倍FLOPs的密集模型相媲美。例如，使用相同的数据和 FLOP，LLaMA 7B 的 MoE 版本应该与…

发布时间: 2023-12-09 12:51:11

2分

数据加载中

关注推特

收听电报

3

2

1

昨晚圈子被一个叫MoE 8x7B模型刷屏了，这应该是第个一个开源权重的MoE架构LLM。
在HF排行榜上这个7B模型击败了很多70B和34B的模型。之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。
MoE可以与使用两倍FLOPs的密集模型相媲美。例如，使用相同的数据和 FLOP，LLaMA 7B 的 MoE 版本应该与…
IT技术
( twitter.com )

1年前由歸藏提交

昨晚圈子被一个叫MoE 8x7B模型刷屏了，这应该是第个一个开源权重的MoE架构LLM。
在HF排行榜上这个7B模型击败了很多70B和34B的模型。之前猜测GPT-4的架构的时候很多人就觉得GPT-4用了MoEt架构。
MoE可以与使用两倍FLOPs的密集模型相媲美。例如，使用相同的数据和 FLOP，LLaMA 7B 的 MoE 版本应该与 LLaMA 13B 相当。

下面是MoE架构LLM的简单介绍：
Moe（混合专家模型）架构的LLM（大型语言模型）指的是一种神经架构设计，它将稀疏混合专家技术整合进来，以增加可学习参数到大型语言模型中而不增加推理成本。

MoE架构为LLMs提供了几个优势：
◆增加参数效率：MoE允许在不显著增加推理成本的情况下向LLMs添加可学习参数[1]。这使得能够开发更强大的模型，而无需成比例地增加计算要求。
◆通过指导调整改善性能：研究表明，MoE模型比密集模型更容易受益于指导调整。例如，FLAN-MOE-32B 模型在使用仅三分之一的 FLOPs 的情况下，在四项基准任务上优于 FLAN-PALM-62B
◆适应多样化数据：MoE架构可以处理现代数据集的增加复杂性和规模，这些数据集通常包含具有截然不同特征与标签关系的不同区域
◆潜力更高的参数效率：SaMoE 架构是 MoE 的一个变体，通过减少总参数达到了最多 5.2 倍，并且相较于基线取得了卓越的预训练和零-shot泛化结果。

MoE的模型也有两个问题：
MoE 模型比普通密集模型更难微调；
MoE 模型会消耗大量显存；

下载MoE 8x7B的模型权重：https://t.co/JBcfOiJUxn
这里在线体验MoE 8x7B模型：https://t.co/DvCuMSFlcd

点击图片查看原图

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

#AI开源项目推荐：中文Mixtral-8x7B（Chinese-Mixtral-8x7B）
官方介绍：本项目基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练，希望进一步促进中文自然语言处理社区对MoE模型的研究。…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

2

2

1

1

重新发一下MoE 8x7B的介绍原来的删掉了，由于没有在HF模型排行上找到我就直接复制了 8x7B由于官方没有说明很多内容都是拼凑的就没有把参考的内容都粘过来。…
IT技术
( twitter.com)

1年前 • 歸藏 • -- 点击 0 评论

3

2

1

1

Mistral AI放出Mixtral 8x7B, 基于Mixture of Experts (MoE)的开源模型，效果不错。
但在我看来，MoE是transformer时代LSTM-GRU，是NLP古早的范式，architecture engineering，非常old school。核心方法是加一些gate来加强Efficient Training at…
时政
( twitter.com)

1年前 • Sverige_ Dong-seok🇸🇪 • -- 点击 0 评论

4

2

1

1

哇塞，Mixtral-8x7b 已经成为排名第一的开源模型。
另外
IT技术
( lmsys.org)

1年前 • 宝玉 • -- 点击 0 评论

5

2

1

1

关于三种类型的专家混合模型 (Mixture of Experts, MoE) 的简短教程，包括预训练的 MoE、升级的 MoE 和 FrankenMoE。
作者还提供了推荐的论文列表，可以去原贴查看。
MoE 概述
MoE 使用稀疏的 MoE 层替换前馈层。这些层包含一定数量的专家(例如8个),每个专家都是一个神经网络(通常是前馈网络…
IT技术
( twitter.com)

1年前 • 歸藏 • -- 点击 0 评论

6

3

2

2

昨天朋友圈刷屏的一篇文章，一个中产家庭把家里的流动资金都买了中植系的理财，然后爆雷了，生活发生巨变。…
时政
( twitter.com)

2年前 • 左手墨迹 • -- 点击 0 评论

7

2

1

1

好孩子，被她刷屏了
每日热点
( twitter.com)

2年前 • SFD • -- 点击 • 下载视频 0 评论

00:00:12

8

2

1

1

不刷屏了，感觉五毛--我很少滥用这个词，我指的是真五毛--都是一个模子里刻出来的一样。
时政
( twitter.com)

2年前 • Eric Liu 刘力朋 • -- 点击 0 评论

9

3

2

2

币圈整体架构就是个诈骗传销模型，以Blur为例：
1,诈骗方设计了一套所谓抢空投模型，实则是0成本的空气
2,一级傻子花gas和版税冲进去刷交易量所谓撸空投
3,二级傻子看到一级傻子刷的交易量，惊呼这个项目牛逼的不行，交易量都第一了，纷纷去交易所接盘
时政
( twitter.com)

2年前 • BitRun • -- 点击 0 评论

0.09173 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特