建议关注 Google 新发布的 VideoPoet,它并非基于扩散模型,而是多模态大语言模型,基本上扩散模型能支持的功能它都能做,比如说:如文本到视频、图像到视频、视频到音频的转换,以及视频风格化、补画(inpainting)或延伸画(outpainting)处理。
并且它在保证视频一致性方面做的效果特别好,你可以看到它的一些演示动画都相当稳定。
我上传的这个视频是 Google 用 VideoPoet 制作的一个短片,展示了由多个由 VideoPoet 生成的短视频片段拼接而成的成果。在编写剧本时,他们使用 Bard 创作了一个关于旅行的浣熊的短故事,并提供了按场景划分的故事梗概和相应的视频提示。接着,根据这些提示制作了视频片段,并将它们拼接成为最终展示的视频。
对于长视频也很有大模型的 提示-补全(Prompt-Completion) 风格,VideoPoet 可以通过对视频最后一秒进行分析,预测接下来的一秒内容,从而生成更长的视频。这种方法可以连续应用,显示出模型不仅能够有效延长视频长度,还能在多次重复过程中保持视频中所有对象的连贯性和真实性。
也许像 VideoPoet 这样的多模态大模型才是视频生成的未来主流。
更多演示可以看项目网站:https://t.co/Z9PcYsF00e
更多详情可以看这篇博客:《VideoPoet: 能零样本生成视频的大语言模型 [译]》
https://t.co/KrErNDlCev