首页  >  教程  >  文章
2023-12-07 09:18

狂叠加速buff!SVD+LCM+SDXL Turbo工作流,照片一步变视频

  

这句话就是对最近AI圈所发生的变化最好的总结。太多的黑科技,太多的技术爆炸,让大家目不暇接,完全跟不上脚步。

图片

我这里就来给大家盘点一下最近Stable diffusion最近一段时间几个颇具影响力的进步。

1,SVD

首先就是AI视频制作的领域,在runway和pika先后发布重大更新之后,Stability AI 在近期放出了大招,推出了 AI 视频生成模型 Stable Video Diffusion。

图片

我们知道SD最大的优势就是在于开源,所以这个模型放出来之后,我们完全可以基于stable diffusion来想象SVD后期将会绽放出的无限生命力。

SVD的训练集很庞大,初始训练就用到了5亿7千万的视频片段,片段时长加起来有212年之久。

目前,SVD最好的运行平台是已经被官方收编的ComfyUI,在更新到最新版本之后,就可以正常使用SVD了, 官方建议的分辨率是1024x576.据说可以使用 7 年前 8GB 显存的英伟达 GTX 1080 显卡生成25帧的视频,用户门槛大大降低。

我这里做了两个简易的工作流程,分为文生视频和图生视频。

文本生成视频的流程,载入需要的文生图模型,然后填写提示词,其余参数可根据自己需求进行设置。

图片

图片生视频的流程中加入了一个自动识别图片尺寸的节点,真正的实现了放入图片,点击运行,就能一步生成视频了。

图片

对参数的一些解释:

video_frames: 要生成的视频帧数

motion_bucket_id: 数字越大,视频中的运动越多

fps: fps 越高,视频流畅度越高

再给大家推荐一个将webp转换为mp4格式的在线工具 Ezgif ,转换之后再继续进行视频编辑。工具地址:https://ezgif.com/webp-to-mp4

2,LCM 

LCM又称为潜在一致性模型,是由我国清华大学的团队所研发出来的开源技术,这里不得不给一个大大的赞。

图片

通过这个模型,我们可以将出图时间大大缩短,以前传统的AI出图需要迭代20步以上。而现在,在LCM的加持下,迭代步数被缩减到4步以内,所以速度就快了很多,与此同时,图片的质量会些微有点下降。

那我们怎么样才能使用到LCM模型呢?首先我们要知道,SD模型和LCM模型是不一样的,只有把SD模型重新训练,才能变成为LCM模型,但是这样做就太麻烦了。所以,作者制作了一个LCM-LoRA模型来直接微调,即插即用,可以让任何一个SD模型通过这个lora变成LCM模型。

使用方法很简单,只需要像正常出图那样打上lora模型,然后调整下参数:迭代步数可以小于10.这样可以增加出图速度;采样方法设置为LCM;提示词引导系数设置为1.5.太高会崩坏。

图片

我们来做一个简单的测试。通过迭代步数和cfg值的对比,我们可以发现,迭代步数为5和迭代步数为30的时候并没有任何差别,而cfg值超过2之后,画面已经失去控制了。

图片

接下来,测试一下生成时间,在不使用LCM的加持下,使用euler a采样器,迭代步数30步,cfg为7.开启高清修复,得到如下图片,生成时间23s。

图片

这一幅是使用LCM模型绘制,可以看到质量有些下降。使用LCM采样器,迭代步数10步,cfg为1.5.开启高清修复,得到如下图片,生成时间11s,速度提高了一倍以上。

图片

值得一提的是,我这里又做了一个对不同采样器的测试,其实lcm采样器本身是不会加快运算速度的,加快速度的只是降低的迭代步数,而使用其他的采样器也是可以的。在测试结果中,我们可以看到DPM++ SDE Karras和Euler a的表现都还不错。

图片

在使用sdxl模型生成一下,正常情况下生图,1024x1280分辨率,使用euler a采样器,迭代步数30步,cfg为7.用时15s。

图片

使用lcm模型加持之后,迭代步数5步,cfg为1.5.其余参数不变,生图时长为10s

图片

这个速度在comfyUI上的速度还会更快,因此也衍生出了基于ComfyUI的实时绘画流程。另外,使用LCM进行的动画视频制作流程也会有显著的效率提升。

3,SDXL Turbo

在LCM问世的三天之后,Stability AI又放出大招,SDXL Turbo横空出世。

而它的速度有多快呢,这么说吧,你提示词还没打完,它的图已经出好了。

感兴趣的朋友可以去官网体验一下,https://clipdrop.co/stable-diffusion-turbo

图片

目前这个模型的使用只能在ComfyUI中,我们来看一下有多快吧。可以看到我用鼠标点击图片生成,基本上我点完,图片就已经生成好了。

图片

平均生成时长为0.1-0.2s,就问你快不快吧。

图片

在512x512的分辨率下,这个图片质量也是相当不错了。在这种生成速度下,mac电脑也可以玩得游刃有余了。

图片

4,合体

在了解了以上的所有知识之后,我们就可以在ComfyUI中搭建起由sdxl-turbo模型和LCMlora双加持的快速图生视频工作流程了。

在两个高速buff的加持下,出视频可以节省不少时间了。

首先是常规的SVD图生视频的流程,使用的svd-xt模型,帧数25.步数20.cfg为5.采样器euler,视频尺寸816x1024.生成视频时长2分31秒。

图片

图片

接下来是添加sdxl-turbo和lcm双buff的加速工作流,使用的svd-xt模型,帧数25.步数15.cfg为5.采样器lcm,视频尺寸816x1024.生成视频时长1分47秒。

图片

可以看到视频效果依然是不错的,当然具体迭代步数减少到多少要根据我们的视频需求来定,也不能一味地追求速度而放弃了质量。

图片

这个工作流我放到了网盘当中,大家想要的可以关注我的公众号【白马与少年】,发送【ComfyUI】即可获取链接。

以上,就是关于最近新出的技术的一个汇总,让跟不上的小伙伴了解一下。AI进步得太快了,学不完,永远都学不完。

-END-

5
查看相关话题: #AI视频 #Stable Diffusion #LCM #svd

相关文章