海外独角兽对Pika创始团队做了比较深入的访谈,和福布斯那种不同的是他们问的问题比较专业。
同时Pika创始团队的两个人也透露了比较多的一些东西,这可能是第一次视频生成领域的前沿团队透露这么多东西。
所以一些认知和方向性的东西对想要做这个事情和投资的人来说还是比较重要的。
我基于自己最近关于AI视频的一些问题和比较关注的信息筛选和整理了一下这个访谈中的关键内容。各位也可以一起看看讨论一下:
视频生成和图像生成的区别是什么?
⚫视频的每一帧都是一张图片,但比图片困难得多。每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是个相当复杂的问题。在训练时,处理视频数据时要处理多张图片,模型需要适应这种情况。
⚫控制视频生成更难,因为模型需要生成每一帧发生的事情,而用户不会希望为每一帧都提供详细的描述。
⚫互联网上视频生成的训练数据集相对于图像更少,也给获取高质量数据增加了难度。
现在视频生成有哪些关键点需要突破?
⚫首先是时长,跟时长很相关的是动作的意义。所有模型都很容易做一个 extension 的功能,把视频时长延长很多,但它并没有真的延长,因为它生成的动作没有意义。
⚫视频的清晰度也需要进一步提高。尽管清晰度方面已经有突破,但还没有提高到电影级的水平,现在生成的视频一般是 720p 分辨率,视频的流畅性也不够理想,特别是一些细节的 texture。
⚫还需要考虑 general artifact 的问题,比如说一个人有两个头,就是这种明显不符合常理的问题,也是需要避免的。
视频生成的技术路线是否收敛?
现在还没有收敛,大家都在往各种方向尝试,每个人都认为自己的模型是最好的,可能有人认为 autoregressive 最好,有人认为 Masked Model 最好。Pika 基于 Diffusion Model,但是开发了很多新东西,是一种新的模型。
AI视频什么时候会迎来GPT时刻?
目前视频生成处于类似 GPT-2 的时期,很可能在未来一年内有一个显著的提升。
在视频生成领域什么样的数据算高质量的数据?
⚫首先是像素,就是我们说的画质好不好
⚫然后看审美和艺术构图
⚫ 第三方面是要有动作,并且这些动作是有意义的
⚫ 视频的长度也很关键,如果模型都在 1 秒的视频上进行训练,那么想让模型去生成 30 秒的视频难度就很大。
⚫版权也是重要的问题
视频生成上开源社区的参与问题?
⚫开源社区可能没有足够的算力来训练新的视频模型,因为训练一个新视频模型需要非常多的机器。
⚫视频模型本身的问题还没得到解决,因此大家可能会遇到一些瓶颈。首先,模型性能可能不够好,其次,一些算法方面的问题也不够好。
⚫视频最终可能需要像训练 GPT 那样的大规模算力,现在大家还没使用那么多算力,一方面是因为视频模型还没达到像 GPT 那样的水平,另一方面是因为还有一些架构和技术上没解决的问题。
未来一年最关心的三个问题?
⚫第一是想招人,现在我们忙着做产品的升级,但是因为现在人比较少,之后我们还是会招募更多成员。
⚫第二,我们想去设计一个新的 Interface。
⚫第三个就是我们还想做一些技术突破,希望明年的技术能够至少在一定程度上达到商业化标准,能在简单的 case 上得到应用。
点击图片查看原图