Mistral AI放出Mixtral 8x7B, 基于Mixture of Experts (MoE)的开源模型，效果不错。但在我看来，MoE是transformer时代LSTM-GRU，是NLP古早的范式，architecture engineering，非常old school。核心方法是加一些gate来加强Efficient Training at…

发布时间: 2023-12-13 08:30:45

1分

数据加载中

Mistral AI放出Mixtral 8x7B, 基于Mixture of Experts (MoE)的开源模型，效果不错。
但在我看来，MoE是transformer时代LSTM-GRU，是NLP古早的范式，architecture engineering，非常old school。核心方法是加一些gate来加强Efficient Training at…
时政
( twitter.com )

Mistral AI放出Mixtral 8x7B, 基于Mixture of Experts (MoE)的开源模型，效果不错。

但在我看来，MoE是transformer时代LSTM-GRU，是NLP古早的范式，architecture engineering，非常old school。核心方法是加一些gate来加强Efficient Training at Scale，简言之目的是为了低成本训练，而不是为了塑造专家模型。

而Mixture of Experts的名字，太具迷惑性了，字面意思似乎是各种专家模型的组合起到1+1>2的效果。但实际看看Mixtral 8x7B，8个mistral 7b，b b不一样，但没有一个是专家模型，之所以叫做expert，居然是MoE中的FNN，我十分怀疑FNN能有什么专家能力。

它的benchmarking也理所当然的跟通用大模型GPT3.5/Llama 2相比，比较的是generic能力，并没有什么突出的专家能力。粗算了一下，8x7B float16, 至少需要100GB以上GPU显存，cost巨大。在这种情况下，oss的情怀，不足以说服我不用OpenAI的api。

如果我们停下来想想，什么是expert。
首先，expert能力一定不是通用大模型的generic的能力，而是独特的specialization的能力。例如会写code的GitHub copilot，或会generate思科路由器配置命令，甚至特别会planning，特别会算数都是专家能力都算。
简言之，expert能力是会产生特定领域特定输出的能力。所以，MoE是一个好名字，在这个时代，缺有些名不副实。

而做specialization模型的技术，依然在发展，并且依然是前沿，其实就是lora微调，例如Stanford's Alpaca models项目等等，核心思想就是在开源模型上加adapter，使之能够完成一个具体领域的专家工作，其实Mistral AI的开源7b模型估计也是这么做出来的。

未来，大语言模型作为agent的时代在实际中的应用，一定是llm在中间协调多种多样不同7b抽象出来的api，来完成新的human computer interaction。甚至在特定领域，这个协调工作也可以被planning expert的开源模型替代，而协调的过程，还是离不开 CoT，React，ReWoo或者其他的prompting方法。

CoT, ReAct在我的推中已经分享过好几次了，接下来找时间把ReWoo, 几个微调的介绍（跳票很久了）分享给大家。

Markdown支持

评论加载中...

您可能感兴趣的：更多

#AI开源项目推荐：中文Mixtral-8x7B（Chinese-Mixtral-8x7B）
官方介绍：本项目基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练，希望进一步促进中文自然语言处理社区对MoE模型的研究。…
IT技术
( twitter.com)

4个月前 • 宝玉 • -- 点击 0 评论

【傍上微软“大腿”，“欧洲OpenAI” Mistral AI什么来头？】Mistral AI的最新旗舰模型Mistral Large，号称性能不输OpenAI的GPT-4和谷歌的Gemini Pro，训练成本只有2200万美元，约为GPT-4的五分之一。
大陆资讯
( finance.sina.cn)

3个月前 • 罗密欧煮你爷 • -- 点击 0 评论

闪电预览

🚨BREAKING: Microsoft strikes deal with Mistral AI for multi-year partnership.
Here's what you need to know: 🧵👇
时政
( twitter.com)

3个月前 • Min Choi • -- 点击 0 评论

Mistral AI 推出最新Mistral Large模型，性能仅次于GPT 4🤔
• Mistral Large具有顶级的推理能力，适用于复杂的多语言推理任务，包括文本理解、转换和代码生成。
• 32K 令牌的上下文窗口，能够从大型文档中精确回忆信息。
• 精确的指令跟随能力，允许开发者设计他们的审核政策。
•…
IT技术
( twitter.com)

3个月前 • 小互 • -- 点击 0 评论

Foundational model wars over the past 12 months
OpenAI vs Google vs Anthropic vs 01 AI vs Meta vs Cohere vs Alibaba vs Mistral vs Databricks vs Nous Research & 10000+ more
时政
( twitter.com)

21天前 • Chief AI Officer • -- 点击 • 下载视频 0 评论

00:00:27

现在最火的开源大语言模型当属 mixtral-8x7 了，已经有人基于它微调了一个完全无审查无防护的版本 dolphin-2.5-mixtral-8x7 ，再也不用担心：“作为一个AI助手，我不能……”
模型下载地址：
IT技术
( huggingface.co)

6个月前 • 宝玉 • -- 点击 0 评论

HuggingFace 发布 Hugging Chat 助手
Hugginface Chat的自定义版本，类似于Open AI GPTs
你可以选择在Hugginface托管的模型，创建自己的聊天机器人。
目前支持的模型：
mistralai/Mixtral-8x7B-Instruct-v0.1
meta-llama/Llama-2-70b-chat-hf
NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO…
IT技术
( twitter.com)

4个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:01:02

ChatGPT vs Groq(Mixtral) 🤯
时政
( twitter.com)

3个月前 • wong2 • -- 点击 • 下载视频 0 评论

00:00:14

在里面调用 Mixtral 8x7B 模型，让 AI 写贪吃蛇游戏。这代码输出速度，太令人震撼了。关键是，还真能直接玩儿 😂 注：本视频没有做过任何速度调整
时政
( labs.perplexity.ai)

6个月前 • Wang Shuyi • -- 点击 • 下载视频 0 评论

00:00:20

时政

#AI开源项目推荐： 中文Mixtral-8x7B（Chinese-Mixtral-8x7B） 官方介绍：本项目基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练，希望进一步促进中文自然语言处理社区对MoE模型的研究。… IT技术 ( twitter.com)

IT技术

【傍上微软“大腿”，“欧洲OpenAI” Mistral AI什么来头？】Mistral AI的最新旗舰模型Mistral Large，号称性能不输OpenAI的GPT-4和谷歌的Gemini Pro，训练成本只有2200万美元，约为GPT-4的五分之一。 大陆资讯 ( finance.sina.cn)

大陆资讯

🚨BREAKING: Microsoft strikes deal with Mistral AI for multi-year partnership. Here's what you need to know: 🧵👇 时政 ( twitter.com)

时政

IT技术

Foundational model wars over the past 12 months OpenAI vs Google vs Anthropic vs 01 AI vs Meta vs Cohere vs Alibaba vs Mistral vs Databricks vs Nous Research & 10000+ more 时政 ( twitter.com)

时政

现在最火的开源大语言模型当属 mixtral-8x7 了，已经有人基于它微调了一个完全无审查无防护的版本 dolphin-2.5-mixtral-8x7 ，再也不用担心：“作为一个AI助手，我不能……” 模型下载地址： IT技术 ( huggingface.co)

IT技术

IT技术

ChatGPT vs Groq(Mixtral) 🤯 时政 ( twitter.com)

时政

在 里面调用 Mixtral 8x7B 模型，让 AI 写贪吃蛇游戏。这代码输出速度，太令人震撼了。关键是，还真能直接玩儿 😂 注：本视频没有做过任何速度调整 时政 ( labs.perplexity.ai)

时政

创建一个新帐户

登录

#AI开源项目推荐：中文Mixtral-8x7B（Chinese-Mixtral-8x7B）
官方介绍：本项目基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练，希望进一步促进中文自然语言处理社区对MoE模型的研究。…
IT技术
( twitter.com)

【傍上微软“大腿”，“欧洲OpenAI” Mistral AI什么来头？】Mistral AI的最新旗舰模型Mistral Large，号称性能不输OpenAI的GPT-4和谷歌的Gemini Pro，训练成本只有2200万美元，约为GPT-4的五分之一。
大陆资讯
( finance.sina.cn)

🚨BREAKING: Microsoft strikes deal with Mistral AI for multi-year partnership.
Here's what you need to know: 🧵👇
时政
( twitter.com)

Foundational model wars over the past 12 months
OpenAI vs Google vs Anthropic vs 01 AI vs Meta vs Cohere vs Alibaba vs Mistral vs Databricks vs Nous Research & 10000+ more
时政
( twitter.com)

现在最火的开源大语言模型当属 mixtral-8x7 了，已经有人基于它微调了一个完全无审查无防护的版本 dolphin-2.5-mixtral-8x7 ，再也不用担心：“作为一个AI助手，我不能……”
模型下载地址：
IT技术
( huggingface.co)

ChatGPT vs Groq(Mixtral) 🤯
时政
( twitter.com)

在里面调用 Mixtral 8x7B 模型，让 AI 写贪吃蛇游戏。这代码输出速度，太令人震撼了。关键是，还真能直接玩儿 😂 注：本视频没有做过任何速度调整
时政
( labs.perplexity.ai)