我初步读了一下论文,这篇论文的基本思路其实是利用了推理过程中的局部性。现在现在推理性能的一个瓶颈就是GPU的内存。它们的思路就是联合CPU和GPU做联合推理。尽可能把active的neuron 信息load到GPU中,充分利用局部性。这样大大提高了GPU推理的效率。
你不能拿单独的CPU推理或者单独的GPU推理来比。两者的指导思想都不一样。
这样的效果非常牛逼。
在推理速度上,在 4090 上是未经优化的llama.cpp 11 倍。相当于用一块4090(2000刀左右)在推理上取得了比a100 (2万刀左右)仅仅慢18%的成绩。
这个结果,更大的意义就是证明,充分考虑并利用推理的局部性有极大的潜力,CPU+GPU 联合推理有很强的优越性。
类似的,那么在训练当面是不是也可以采用这种思路呢?
点击图片查看原图
点击图片查看原图
点击图片查看原图