首页  >  资讯  >  文章
2024-01-29 10:59

流畅丝滑不闪屏:谷歌发布第三款视频生成模型Lumiere:运动幅度大,生成一致性良好

AI奇点网1月29日报道丨当地时间1月23日,谷歌研究院(Google Research)发布旗下的第三款AI视频生成模型——Lumiere。这是谷歌发布的又一款视频大模型。这次的模型演示视频质量非常高,运动幅度和一致性表现也很好。除了视频生成,该模型还支持各种视频编辑和生成控制能力,可以说是包罗万象,能力值技能点拉满。

据了解,Lumiere 是一款架构先进的创新视频模型,专门用于将文本转换为视频,这在视频合成领域是一大挑战。相比于Runway、Pika等主要竞争对手采用扩散模型不同,为了实现这一目标,谷歌采用了一种创新的【空间-时间】U-Net 架构。

image.png

这种架构与传统视频模型不同,能够一次性完成整个视频时长的生成,与传统视频模型不同。而传统模型通常是先合成关键动作节点的远程帧,然后通过时间上的超级分辨率技术来处理,生成中间过渡的补偿静态帧,这种方法难以确保视频的全局时间的连贯性与一致性。

?详细介绍:

谷歌Lumiere通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型,使得该模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。

通过这种全新的技术手段,谷歌的Lumiere可以实现个性化的视频编辑能力,比如针对视频里边的某个对象进行内容调整、上传参考图进行迁移创作新的视频风格、让静态图像里边的某个对象运动起来等等。

我们看几个Demo:

图片

图片

图片

谷歌发布的该模型在将文本转换成视频方面取得了领先成果,并证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。

如果你对于这款新模型感兴趣的话,可以访问他们的网页,据说后续还会开源唷~~

项目主页:

8
查看相关话题: #AI视频 #谷歌 #AI视频生成

相关文章