从 Chain of Thought 到 aha moment和wait,看大模型的 test time scaling和深度思考
大模型们在过去的一年,都有了自己的deep search, think, reasoning, 深度思考...等关键词或者产品。
作为NLP从业者,我都会禁不住问自己,这都是些啥...😅今天就来解读这个问题,这些产品的所有本质,来自一个学术词汇,即test time scaling。
回归的第一篇,从test time scaling的角度,缕一遍从OpenAI o1 到DeepSeek R1, 从chain of thought,到所谓的aha moment。
最后,以一篇论文结束,谈谈如何微调来获得私域深度思考模型。
点击图片查看原图