这篇推文对 Sora 懂物理引擎的说法的驳斥的很专业。
像 Sora 这样的 Diffusion Transformer,底层是基于机器学习的随机梯度下降加上反向传播(SGD + backpropagation),这就意味着 Sora 是没有逻辑推理能力的,本质上也是将训练的数据压缩成模型的权重,在训练过程中,不断更新参数,从而让预测的时候误差降到最小。
就好比🪰找💩,总是朝着气味最浓的方向去寻找,就像梯度下降算法根据梯度的方向更新参数,以逐步接近损失函数的最小值。
基于这样的模式,是无法学会物理规律的,就好比将所有行星运动的数据拿来训练,也无法推导出广义相对论。
具体建议参阅原推,完整内容转译如下:
***
让我们来看看OpenAI的Sora被誉为数据驱动物理引擎这一说法有多么荒谬:
这就好比是收集了行星运动的数据,将其喂给一个预测行星将出现位置的模型,然后得出这个模型内部实现了广义相对论的结论。
爱因斯坦花费多年时间才推导出重力理论的方程。如果有人认为随机梯度下降加上反向传播(SGD + backpropagation)就像一个小爱因斯坦在模型训练过程中解决问题,那这个人对于机器学习的理解显然是有待商榷的。
不论你拥有什么学位,如果你认为SGD加上反向传播就能使模型像小爱因斯坦一样,仅凭输入输出对就能理解一切,那你对机器学习的工作方式了解不够。
爱因斯坦在理论推导中不得不对现实做出多项假设,比如光速恒定,时空是可以弯曲的,然后他推导出了微分方程,其解答揭示了黑洞、引力波等重大发现。
他运用因果推理将不同的概念连接起来。
然而SGD加上反向传播并不进行这样的推理。它只是简单地将信息压缩成模型的权重,并不进行逻辑推理,只是按照某种规则更新参数,以达到最小误差的配置。
机器学习(ML)的统计学习过程可能会陷入所谓的低误差“盆地”,这意味着它无法探索新的概念或理论,因为一旦陷入这些低误差区域或局部最小值,就难以重新开始探索。
因此,SGD加上反向传播往往会找到那些似乎有效但实际上非常脆弱的解决方案,这些解决方案在一定条件下看似工作正常,但很容易崩溃。
这也是为什么深度学习系统在实际应用中既不可靠又难以训练的原因。你必须不断地更新和重新训练它们,这在现实操作中是非常繁琐的。
梯度下降的过程可以比作一只苍蝇寻找气味源头的过程:苍蝇会沿着空气中化学物质浓度梯度向下移动,从而找到气味的来源。但如果它仅依赖这种方式,很容易就会迷路或陷入困境。
在机器学习中,模型的可调参数就是“苍蝇”,训练数据就是气味的来源,而通过目标函数测量的误差就是“气味”。模型的权重调整的目的是为了向着“气味”(这里指低误差,相当于浓郁的气味)移动。
认为一个机器学习模型仅通过训练行星运动的视频就能内部学习到广义相对论,这种想法更是荒谬。
这完全是对机器学习工作原理的一种误解。