“图生视频”赛道新选手!Stable Diffusion超进化:推出全新视频生成大模型Video Diffusion,教你免费在线成片
继9月份推出的音频生成大模型Stable Audio之后,当地时间11月22日,知名AI图像生成模型开发商Stability AI又发布了旗下首款视频生成大模型——Stable Video Diffusion。
Stable Video Diffusion
Stable Video Diffusion它的主要功能是通过对自然视频的大量实验,实现视频的编辑,同时保持几何形状和时间连续性,以产生优越的编辑结果。相较于其他基于扩散的方法,Stable Video Diffusion能更好地处理时间一致性问题。
这款模型能够通过图像生成视频,基于Stable Diffusion文本生图像模型的延伸。
SD副产品延伸:Stability AI发布图像生成AI视频大模型Stable Video Diffusion,可生成4秒短视频
知名在线AI图像生成开发商Stability AI又发布了旗下最新的 AI 大模型 ——Stable Video Diffusion。这款模型能够让图像生成视频。
目前市面上的优秀“图生视频”模型还比较罕见,这条赛道上的玩家还不算太多,比较有名气就是Runway以及Pika AI。Stable Video Diffusion的入场将对现在赛道上的老玩家产生一些挑战。
随Stable Video Diffusion一起发布的还有一份大模型研究白皮书。Stability AI在白皮书上,将Stable Video Diffusion直接与目前业内的领跑者Runway以及Pika做了对比。
在于竞品的对比当中,官方表示,Stable Video Diffusion以同样的提示词生成视频的主观偏好性测评上,「战胜」了前边提及的两款业内更有名气的大模型。(虽然这种测评方法很主观,但目前的大模型生成视觉内容还是主要依赖于主观投票)
Stable Video Diffusion目前处于所谓的“研究开发”阶段,Stable Video Diffusion对于内测体验用户设定了预期的应用场景。
比如美学教育、视觉创意生成、平面设计和其他艺术创作过程等等,总之就是“用于正道”。其他非预期内的场景,比如对公众人物或公开事件的事实性杜撰编造,或者对人性负面的真实表达,都将违反大模型的生成规定。
通过Stable Video Diffusion将??上面这张锦鲤图片转化为动态图像??。
Stable Video Diffusion实际上是由两个模型组成——SVD和SVD-XT。
SVD可以将静态图片转化为14帧的576×1024分辨率视频;SVD-XT使用相同的架构,可以将帧数提高到24帧,两者都能以每秒3~30帧的速度生成4秒钟长度的短视频视频。
SVD和SVD-XT都能生成质量较高的4秒钟视频,从精心挑选的样片来看,完全可以与Meta、谷歌等大厂开发的视频生成模型,以及Runway和Pika Labs的AI生成视频相媲美。
官方还放出了一些生成的样片供以参考:
不过,Stable Video Diffusion也有其局限性。
Stability AI官方坦诚表示:
目前的模型暂时不能生成没有主体对象的图像实现摄像机平移走位的视频;
也不能通过文本提示词对细节进行控制;
也不能生成正常渲染的文字内容;
也无法生成正常的人脸面部等等。
虽然还是早期阶段,但是Stability AI也指出,大模型具备较好的扩展性,可以针对指定的物体生成360°的环绕视角视频。
经过实际测评,作为一款刚刚诞生的大模型,还有许多需要完善和成熟的地方。我们发现其中有几个当前比较突出的缺陷:
1️⃣与SDXL图像生成有类似的问题,生成的视频质感比较粗糙,“一眼AI”;
2️⃣运行大模型需要的GPU条件较高,远高于Runway等竞品;
3️⃣暂不支持提示词控制画面以及局部微调,竞品已经跑在前边。
有国外开发者将Stable Video Diffusion的开源代码做成了在线体验页面。他尝试生成了一个超跑行驶的短视频片段,看起来还不错的样子。
?以下是Google Colab平台创建的免费在线体验链接——
复制粘贴到浏览器打开页面后,点击【代码执行程序】-【全部运行】,等代码加载成功后,即可在线体验生成短视频:
除了Gogle Colab,还有其他几个地址,大家也可以去尝试:
- 输出的是视频,速度比较快:
- 输出的是GIF,速度比较快:
- 输出的是视频,但是要等很久:
在线生成不需要本地高性能GPU参与渲染,感兴趣的家人们可以体验一下。