OpenAI的o1新发布,不出意外就是去年年底传言的Q*算法: Q learning和A*路径搜索的组合,所以O1应该也算是一种GPT4和搜索的组合,意味着每次推理上算力消耗会大得多
o1给我感受最深的一点是
System1(快思考)的scaling law时代可能即将结束了,system2(慢思考)的scaling law新时代要来临了
从算力分配上来说,training 的scaling law时代可能接近结束了,inference的scaling law新时代刚刚开始
这里说的system1和system2概念来自思考快与慢这本书,system1主要在于直觉和自动处理,system2的能力更多在于逻辑推理和复杂决策
上半年开始,其实很多人就开始悲观,Scaling law的边际效用可能到头了
但这可能是大力出奇迹阶段的S型曲线快到饱和阶段了,下面接力的是另一条组合出奇迹的S型曲线,在CoT,ToT,agent flow的加持下,即便是GPT3.5也能大幅提升表现,system2方面的提升更明显
如openai研究员jbetker所说,模型的行为并不是由架构、超参数或优化器的选择决定的,而是由数据集决定的,所有的计算scaling up都是逼近数据集的手段(降低loss)
所以training阶段的Scaling law,也许是因为扩大规模对高质量数据集的精准逼近,对system1直觉和快速处理部分的能力提高更为明显,主要提升的是基于见过数据的统计意义匹配。但数据集的精准逼近,对system2思考似乎提升并没有system1那么大,这在直觉上也是合理的
system2的效果要进一步提升可能更需要靠组合,正如agent flow,Q*算法或者MCTS类似的组合,也许会将system2的发展推向一个新高度,也就意味着inferencing阶段的system2 scaling law:提升组合的复杂度(指数级提升算力),提升system2慢思考的能力
从这个假设出发,其实能想到一些有意思的东西
1. LLM组合带来的System2的本质和上限在哪里?
如果说System1的能力并不是由架构、超参数或优化器的选择决定的,而是由数据集决定的,所有的training算力/数据集/参数scaling up都是逼近数据集的手段(降低loss)
说不定到最后会发现,System2的能力并不是由组合的结构,方法决定的,而是由base model(system1)的潜力上限决定的,所有的inference算力scaling up都是逼近base model潜力的手段
2. 我们离AGI还有多远?
AGI而言,system2的能力明显比system1的能力更具有决定性的多,比如利用system2的能力观察世界/和现实世界的互动,这样的组合会非常可怕
不过这也有一个前提,就是现在的数据集里,已经有足够建立world model的程度
所以如果system2的scaling law来临,那么意味着我们离AGI的距离也更近了一步,也意味着好的system2会非常非常昂贵,每进一步都要昂贵一个数量级,也就是说,越逼近AGI,成本指数型增长
3. 从edge和cloud端来看,system2可能更适合云端,edge端跑system2会太耗时
System2的scaling down到edge设备上可能无法像system1那么直观简单,通过蒸馏,量化就能做到,毕竟system2这是真的实打实的推理端算力scaling up,edge端设备在这条赛道上天然占劣势
inference端的scaling up,可能意味着串行速度要求更高(比如agent flow),从这点上来说利好groq这样的速度快成本低的公司
点击图片查看原图
点击图片查看原图
点击图片查看原图