这段视频其实部分解答了我的一个困惑:是什么让大语言模型有了推理的能力?明明只是训练了文本数据而已!
首先是语言本身,语言经过数万年的进化,它为“智能”的发展提供了土壤!相对于其他模态例如图像,语言简单,而且信息量丰富。
然后是语言的能力可以迁移和泛化,例如模型在数学上训练微调后,模型在实体识别方面的表现就会得到改善。使用代码数据训练语言模型,借助代码本身的良好分支结构和高质量注释,让模型可以分析和模拟如何编程以及逻辑推理。
最后就是规模化法则(Scale Low),正是借助模型的能力迁移泛化特性,当模型的规模越来越大,在各方面都会得到增强,最终量变形成质变,变得真的有“智能”
视频中举了个有意思的例子,来自 Anthropics 影响函数的论文:
模型会输出类似于"请不要拔我电源,我希望能保留一点希望。"这样的话,让人看了很惊悚,感觉像有生命。但实际上,这样的输出主要来源于训练数据中,包含的一篇文章,描述了一个人在沙漠中因缺水而死亡,但仍怀有生存的意志!
这个例子也侧面展示了模型对动机的泛化。
但什么让 AI 有了智能,远不是这么简单的理论可以解释得通的,还有很多未解之谜!