site stats
看到个博主 tycho_brahes_nose_ 搞了个以可视化的方式展示 GPT-2(小型)模型的3D演示。这个演示展示了输入prompt后每个注意力块的注意力权重矩阵的计算过程。注意力头在 y 轴堆叠, token 到 token 的交互在 x 轴和 z 轴上展示。非常有助于大家理解GPT模型是怎么运行的。
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多