首页  >  资讯  >  文章
2024-01-22 16:14

宅舞区UP破防!阿里发布AI视频模型DreaMoving:一张人脸图像生成视频,能让任何人在任何地方起舞,流畅动作纵享丝滑

图片

阿里大模型最近一个月彻底杀疯了!在视频生成这条赛道上一去不复返。

近日,阿里又一个「跳舞整活儿」模型又火了——有手就能玩~

用户只需上传一张人脸图像,然后输入提示词描述舞蹈的场景,AI就能生成在任何地方跳舞的短片!

??先来看这段《擦玻璃》的舞蹈~~~

咱们投喂的是左边的这张AI美女人脸,宅舞跳起来是不是还挺自然?

图片

不喜欢这个场景?没关系~

无需更换人物,依然是这位妹纸。随着输出的提示词的改变,人物身后的场景与身上的衣着也可以轻松改变。

左边是在木屋里跳舞,穿着毛衣和长裤;右边是在纽约时代广场跳舞,穿着连衣长裤。

图片

换一个妹纸,在城市公园跳舞~??

图片

换到海边沙滩扭上一段儿~?

这油男还有点像京哥,让他在古埃及金字塔前边来一段“我晒干了沉默”…

这便是阿里人工智能团队的最新视频模型研究成果——DreaMoving。

主打就是一个随时随地任性起舞,快进到一秒干翻舞蹈区UP主…

图片

不仅是真人,随便一个二次元人物形象也可以轻松拿捏。

让蒙娜丽莎跳舞,放以前我是完全不敢想的。??

图片

这种AI跳舞视频的生成原理是怎样的呢?

虽然今天的AI视频生成技术已取得长足进步,但在「一致性」与「连贯性」等方面还存在诸多挑战。

所谓「一致性」就是生成的每一帧画面的人物是否一致,舞者不能由女生性转成男生…

所谓「连贯性」就是肉眼看起来,视频不能卡成PPT,不能频闪,靠眨眼补帧。

图片

此外,以人物为中心的视频内容生成,对于人物动作的个性化与可控性也至关重要。

面对这些难点,阿里团队先从训练数据集着手改善。

图片

研究人员从网上优中选优,收集了1000个高质量的舞蹈视频。

并将这些素材切割成6000余个片段,每个片段长度在8~10秒,以确保每个片段都是画面干净、完整连贯的舞蹈动作。

然后他们引入了一个提示词“文生图”插件Minigpt-v2作为视频脚本描述器(Video Captioner),用于生成每一帧静态画面的内容,以准确输出用户输入的提示词主题和背景信息。

在生成框架上,阿里团队基于Stable Diffusion打造了生成模型,并取名DreaMoving(直译:梦幻运动)。

该框架主要由三个神经网络来构成:画面去噪器U-Net(Denoising U-Net)、视频生成控制微调模型(Video ControlNet)和提示词内容引导生成器(Content Guider)。

图片

  • 画面去噪器U-Net是基于Stable Diffusion的衍生模型,用于生成动态视频的基本动作模块。
  • 视频生成控制微调模型则是为了让U-Net生成的运动模块实现姿态与动作透视的效果。
  • 提示词内容引导生成器,会将人脸替换成视频人物,并完成背景内容的生成,嵌入视频当中。

三合一,DreaMoving便可以根据用户输入的提示词引导生成高质量、高保真的跳舞视频。

图片

当然啦,阿里的DreaMoving可不只能用于生成跳舞视频,它在诸多领域,比如影视特效内容创作、电商模特服饰展示等等,都有可以发挥的空间。

EVA觉得,一般人类舞者在被AI淘汰的道路上也是肉眼可见的危矣。

目前阿里团队已经将DreaMoving项目放到了GitHub,不过还没有放出开源代码。

项目地址:

感兴趣的家人们可以先到阿里的魔搭社区与Hugging Face社区在线体验一下:

魔搭

Hugging Face:

3

相关文章