Generative Powers of Ten:基于文本的多尺度图像生成技术
是一种图像无限缩放技术,而且质量非常高清!
它能够根据文本描述(你想要看到的场景的文字说明)生成一系列在不同尺度上连贯一致的图像。
可以展示从非常远的景象(大到整个宇宙)到非常近的细节(小到一个细胞)。
该项目受到1977年原版《Powers of Ten 十次幂》电影的启发,该电影最初展示了这种连续缩放效果。研究团队的目标是使用生成模型自动创建类似的动画,并且能够从自己的照片中创建这些缩放视频。
这项技术的关键特点包括:
- 连续缩放视频: 通过一系列文本提示描述不同尺度的场景,该方法可以创建无缝缩放的视频。例如,可以从森林的广角景观视图缩放到树枝上一只昆虫的特写镜头。
- 多尺度生成: 它能够从大范围(如整个星系)到小范围(如单个细胞)的不同尺度生成图像。
- 文本驱动: 图像的生成是基于文本提示,这意味着用户可以通过文字描述来指导图像的生成过程。
- 内容一致性: 在不同的放大级别之间,生成的图像在视觉和内容上保持一致性,这是传统图像放大技术难以实现的。
- 实际图像的缩放: 该技术还可以引导一个缩放级别与输入图像匹配,从而实现可以对真实图像的缩放。
多样性: 通过改变种子(即生成过程的随机输入),即使是对于相同的一组输入提示,也可以获得不同的结果。
该项目基于一种联合采样算法:
联合采样算法的核心特点
并行扩散采样过程: 该算法使用一组分布在不同缩放级别的并行扩散采样过程。这意味着算法能够同时处理多个尺度的图像,从而在每个尺度上生成图像。
迭代频带合并: 为了保持不同尺度图像的一致性,这些采样过程通过一个迭代频带合并过程进行协调。这个过程确保在从一个尺度到另一个尺度的过渡中,图像内容保持连贯和一致。
优化所有尺度的内容: 不同于传统的通过增加图像分辨率来生成更高细节的图像(如超分辨率或图像外推技术),这种方法同时针对所有尺度的内容进行优化。这样做的好处是,它不仅在每个尺度上生成合理的图像,而且还保持了不同尺度之间内容的一致性。
它使用了以下几个关键步骤和技术:
1、文本提示驱动的图像生成: 用户提供一系列文本提示,描述他们想要在不同缩放级别上看到的场景。例如,从一个星系的远景到一个细胞的微观视图。
2、预训练的扩散模型: 该技术使用了一个预训练的扩散模型来同时去噪不同尺度上的多个图像。通过逐步去除噪声来生成图像,从而从随机噪声中逐步构建出清晰的图像。
3、多尺度联合采样: 在每个缩放级别上,噪声图像和相应的文本提示被同时输入到同一个预训练的扩散模型中,以估计相应的清晰图像。这些图像在它们共同观察的重叠区域可能会有不一致的估计。
4、多分辨率融合: 为了解决不同尺度图像在重叠区域的不一致性,该技术采用了多分辨率融合方法。这种方法将这些区域融合成一个一致的缩放堆栈,并从这个一致的表示中重新渲染不同的缩放级别。
5、连续缩放视频的生成: 通过这种方法,可以生成连续缩放的视频,这些视频在视觉上平滑且内容上连贯,从一个尺度平滑过渡到另一个尺度。
项目及演示:https://t.co/Xd1LFFBW1t
论文:https://t.co/x474shXCIG