可以看得出,OpenAI 正在用 o3 的数据来蒸馏 GPT-4o,所以 GPT-4o 越来越强了。
o1、o3 这样的推理模型因为更擅长逻辑推理和长链思考(或在某些领域拥有更深入的知识),因此能生成更高质量、更精准、更具启发性的数据。
这些“数据”可能包括:更完善的解题思路、更详细的标注数据、难以在网上直接找到的“合成知识”、或者更高质量的问答示例等等。
这些由推理模型生成的优质数据,又能被拿来训练或微调像 GPT-4o 这样的“基础模型”。由于新数据更优质,训练后的“基础模型”自然也会进一步提升。
DeekSeek R1 就是一个例子,它被蒸馏到 Llama 3.2 70b 这类“基础模型”中,使该模型比原版更强大。
值得注意的是,o1、o3 这些推理模型本身又是以 GPT-4 作为“底座”,再通过强化学习(RL)等手段让“基础模型”升级为“推理模型”,从而变得更聪明。
当基座模型变得更强,基于更强基座模型训练出来的推理模型也会随之变得更强大。
一旦我们获得了 GPT-5 的基础模型,那么所有以 GPT-5 为基础的推理模型无疑会更智能,反过来又能为 GPT-5o、GPT-6 生成更优质的合成数据。
随着推理模型能力进一步提升,它们会产出质量更高的新数据,用于训练后续的基础模型——从而形成一个正向循环。
图片作者 Peter Gostev:(见图片底部链接)
点击图片查看原图