site stats
Mistral AI放出Mixtral 8x7B, 基于Mixture of Experts (MoE)的开源模型,效果不错。但在我看来,MoE是transformer时代LSTM-GRU,是NLP古早的范式,architecture engineering,非常old school。核心方法是加一些gate来加强Efficient Training at…
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多