建议你们看看这个推文和评论,很多有趣的讨论。
Jim Fan:
合成数据无疑将成为下一个万亿级高质量训练词元的来源。我相信,大多数专业的大语言模型团队都已意识到这一点。真正的挑战是如何持续保持这些数据的质量,避免过早陷入发展的停滞期。
Richard Sutton(@RichardSSutton)的《苦涩的教训》继续引领着人工智能的发展:只有两种模式能够随着计算能力的增加而无限扩展,那就是学习和搜索。这一观点在 2019 年他撰写时就成立,如今依旧适用,我敢说,直到我们解决通用人工智能的问题,这一点都不会改变。
Elon Musk:
确实。有些让人唏嘘的是,人类历史上写过的所有书籍的文字内容都能被存储在一个硬盘上。
而合成数据的数量将远远超出这个规模。
Jim Fan:
很多合成数据将源于具体代理,比如特斯拉 Optimus,前提是我们能够大规模地进行模拟。
Elon Musk:
是的(叹气)
Yann LeCun:
动物和人类凭借极少的训练数据就能迅速变得聪明。我认为,未来的趋势是开发出像动物和人类一样高效学习的新架构。目前使用大量数据(无论是真实的还是合成的)只是一种权宜之计,是因为我们现有方法的限制所迫。
Atlas3d.eth:
完全同意 - 看看乌鸦科的鸟类,它们拥有惊人的推理能力,却只需要很少的数据量。
Yann LeCun:
想象一下,像鹦鹉、狗和章鱼这样的动物大约有 20 亿个神经元。我们如何能让一台拥有 20 亿神经元、10 万亿参数的机器在短短几个月的实时训练中变得像这些动物一样聪明呢?
Eduardo Slonski:
1)我们使用了大量的数据。别忘了,我们不断接收大量的视频、音频和感官数据,更不用说 DNA 中编码的“指令”了。我们并非从零开始学习,而且我们的反应比大语言模型更为广泛和普遍。
2)在新架构的问题上,我同意你的看法。
Yann LeCun:
- 人类基因组的数据量其实很小,只有 800MB。人类和黑猩猩基因组的差异也就 8MB。这远远不足以解释两者能力上的巨大差异。
- 以一个两岁孩童所见的视觉数据量来看,实际上是相当有限的:大约 3200 万秒。我们有大约 200 万条视觉神经纤维,每秒大约传输 10 个字节,总计 6E14 字节。而大语言模型的训练数据量通常是 1E13 个 Token,约 2E13 字节,只多出大约 30 倍。
Eduardo Slonski:
基因组并不是作为数据来使用,而是起到指导作用。当我们开始训练模型时,其输出是随机的,但与人类不同,人类出生时已经有了本能的行为和寻找目标的能力。再次思考后,我更加认同你的观点:数据量并非关键,关键在于我们的架构以及针对该架构优化的数据。
Ferdous:
难道数百万年的进化适应不就相当于模型的预训练,而我们一生的经验不就类似于持续的微调吗?🤔
Yann LeCun:
并不完全是这样。这需要被浓缩成极少量的信息。比如,一个小型的 70 亿 Token 的大语言模型就需要 14GB。而你的整个基因组在未压缩的状态下也只有 800MB。人类和黑猩猩基因组之间仅有 1% 的差异,大约 8MB。这远远不足以编码复杂的结构。