建议关注 Google 新发布的 VideoPoet，它并非基于扩散模型，而是多模态大语言模型，基本上扩散模型能支持的功能它都能做，比如说：如文本到视频、图像到视频、视频到音频的转换，以及视频风格化、补画（inpainting）或延伸画（outpainting）处理。…

发布时间: 2023-12-20 12:20:07

3分

数据加载中

建议关注 Google 新发布的 VideoPoet，它并非基于扩散模型，而是多模态大语言模型，基本上扩散模型能支持的功能它都能做，比如说：如文本到视频、图像到视频、视频到音频的转换，以及视频风格化、补画（inpainting）或延伸画（outpainting）处理。…
IT技术
( twitter.com )

建议关注 Google 新发布的 VideoPoet，它并非基于扩散模型，而是多模态大语言模型，基本上扩散模型能支持的功能它都能做，比如说：如文本到视频、图像到视频、视频到音频的转换，以及视频风格化、补画（inpainting）或延伸画（outpainting）处理。

并且它在保证视频一致性方面做的效果特别好，你可以看到它的一些演示动画都相当稳定。

我上传的这个视频是 Google 用 VideoPoet 制作的一个短片，展示了由多个由 VideoPoet 生成的短视频片段拼接而成的成果。在编写剧本时，他们使用 Bard 创作了一个关于旅行的浣熊的短故事，并提供了按场景划分的故事梗概和相应的视频提示。接着，根据这些提示制作了视频片段，并将它们拼接成为最终展示的视频。

对于长视频也很有大模型的提示-补全（Prompt-Completion）风格，VideoPoet 可以通过对视频最后一秒进行分析，预测接下来的一秒内容，从而生成更长的视频。这种方法可以连续应用，显示出模型不仅能够有效延长视频长度，还能在多次重复过程中保持视频中所有对象的连贯性和真实性。

也许像 VideoPoet 这样的多模态大模型才是视频生成的未来主流。

更多演示可以看项目网站：https://t.co/Z9PcYsF00e

更多详情可以看这篇博客：《VideoPoet: 能零样本生成视频的大语言模型 [译]》
https://t.co/KrErNDlCev