首页  >  测评  >  文章
2023-11-22 17:28

SD副产品延伸:Stability AI发布图像生成AI视频大模型Stable Video Diffusion,可生成4秒短视频

AI奇点网11月22日报道丨继9月份推出的音频生成大模型之后,知名在线AI图像生成开发商Stability AI又发布了旗下最新的 AI 大模型 ——Stable Video Diffusion。这款模型能够让图像生成视频,是基于之前发布的 Stable Diffusion 文本生成图像模型的延伸。目前市面上的优秀图生视频模型还比较罕见,这条赛道上的玩家还不算太多,Stable Diffusion的入场将对现在赛道上的Runway Gen-2产生挑战。

立即体验这款开源的视频生成大模型:

根据 Stability AI 随 Stable Video Diffusion 一起发布的一篇白皮书,Stable Video Diffusion 直接与目前业内的领跑者 Runway 以及 Pika 直接做了对比。

在于竞品的对比当中,官方表示,Stable Video Diffusion 在生成视频的偏好性测评上,战胜了提及的二者大模型。

Stable Video Diffusion 目前处于 Stability AI 的研究开发阶段,想要使用这款模型的人必须同意一些必要的使用条款,其中规定了 Stable Video Diffusion 预期的应用场景。比如教育或创意工具,设计和其他艺术过程等等,总之就是所谓的“用于正道”。其他非预期内的场景,比如对人或事件的事实的杜撰编造,或者对人性负面的真实表达,都将违反大模型的生成规定。

Stable Video Diffusion 实际上是由两个模型组成的 ——SVD 和 SVD-XT。

SVD 可以将静态图片转化为 14 帧的 576×1024 分辨率视频;SVD-XT 使用相同的架构,可以将帧数提高到 24 帧,两者都能以每秒 3~30 帧的速度生成4秒钟的短视频视频。

SVD 和 SVD-XT 最初是在一个包含数百万视频的数据集上进行训练的,然后在一个规模较小的数据集上进行了“微调”,这个数据集只有几十万到一百万左右的视频片段。这些视频的来源并不十分清楚,白皮书暗示许多是来自公开的研究数据集,所以无法判断是否有任何版权问题。

SVD 和 SVD-XT 都能生成质量较高的4秒钟视频,从精心挑选的样片来看,完全可以与 Meta 最近的视频生成模型以及谷歌和 AI 初创公司 Runway 和 Pika Labs 的 AI 生成视频相媲美。

但是AI奇点网也注意到,Stable Video Diffusion 也有其局限性,Stability AI 官方表示,目前模型暂时不能生成没有物体对象运动轨迹的摄像机平移走位的视频,也不能通过文本提示词对细节进行控制,也不能生成正常渲染的文字内容,也无法生成正常的人脸面部。

虽然还是早期阶段,但是 Stability AI 也指出,大模型具备较好的扩展性,可以针对物体生成360°的环绕视角视频。

9

相关文章