site stats
苹果如何能把一个 200 亿参数(20B)的模型跑在设备端?问题在于,20B 参数无论用什么合理的精度,都塞不进手机RAM。为了能运行模型,苹果用了一套以今天的标准来看相当"非主流"的架构——先由一个小模型根据prompt预测需要哪些experts,再把这些专家从 NAND 闪存加载进 RAM。它和典型 MoE
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: