漏了!OpenAI原本打算开放权重的模型泄露了!
刚才 HuggingFace 上有人上传了 openai-oss-120B 和 openai-oss-20B 模型, 立刻整合了所有信息给大家做一个解读。
首先最重要的是 120B 那个是个 MoE,激活参数大概是 5B,128 专家每次激活 4 个专家。原生只有 4K 上下文,通过 YaRN 扩展到 128K。所以昨天 openrouter 上放出那个 horizon-alpha (256K 上下文) 肯定不是 OpenAI 马上要开放权重的模型了.
从配置上进行估计,这个模型没有什么企及的话应该是个很普通的模型,这个参数量不能指望带来啥惊天动地的跑分效果(过拟合当我没说),当然好的地方是它只激活4个专家,因此工程上做得不错。另外原生 4K 上下文未免太小了,这个上下文长度召回效果恐怕会很难看。
另外从配置上看这玩意是个 Float4 的模型?如果它是原生 FLoat4 训练的那就是另外一码事了,我们肯定能接受探索性的研究效果不好,但无疑这是新的突破。不过更合理的猜测是,这玩意其实是个量化版本,只不过封装成了 safetensors 而不是 GGUF.....
其它的参数解读出自 Unsloth 团队的 @danielhanchen ,我就不班门弄斧了,看大佬的解读,我只是搬运了下。
目前 HuggingFace 上这2个模型已经都被删掉了。只能先等等了。
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图