这个人的理论很有意思
总而言之,为什么之前所有用简单RL实现模型推理的工作都失效了,但DeepSeek却能一夜之间成功?到底发生了什么?
他的理论是:因为过去2年,LLM崛起之后,人们在LLM上进行了大量的CoT(思维链)工作;这些工作混入了现在的训练数据里,改变了新训练大语言模型的行为
也就是说,训练数据被污染了。LLM的输出泄露到了信的文本数据之中;这里面恰巧就包含了很多模型自己的CoT的标注
这样,在此基础上训练出来的DeepSeek V3实际上是和CoT天然对齐的
那么,在V3上再进行RL,就显得额外简单
如果这个理论是真的,那么Meta/OpenAI想要直接上RL,可能还没这么简单。至少他们的Base Model或许需要重新训练一下?
但问题是,没人知道DeepSeek的数据是什么啊。DeepSeek的人能透露一下,他们的14T数据里,有多少CoT标注吗?
谢谢大家