宅舞区UP破防!阿里发布AI视频模型DreaMoving:一张人脸图像生成视频,能让任何人在任何地方起舞,流畅动作纵享丝滑
阿里大模型最近一个月彻底杀疯了!在视频生成这条赛道上一去不复返。
近日,阿里又一个「跳舞整活儿」模型又火了——有手就能玩~
用户只需上传一张人脸图像,然后输入提示词描述舞蹈的场景,AI就能生成在任何地方跳舞的短片!
??先来看这段《擦玻璃》的舞蹈~~~
咱们投喂的是左边的这张AI美女人脸,宅舞跳起来是不是还挺自然?
不喜欢这个场景?没关系~
无需更换人物,依然是这位妹纸。随着输出的提示词的改变,人物身后的场景与身上的衣着也可以轻松改变。
左边是在木屋里跳舞,穿着毛衣和长裤;右边是在纽约时代广场跳舞,穿着连衣长裤。
换一个妹纸,在城市公园跳舞~??
换到海边沙滩扭上一段儿~?
这油男还有点像京哥,让他在古埃及金字塔前边来一段“我晒干了沉默”…
这便是阿里人工智能团队的最新视频模型研究成果——DreaMoving。
主打就是一个随时随地任性起舞,快进到一秒干翻舞蹈区UP主…
不仅是真人,随便一个二次元人物形象也可以轻松拿捏。
让蒙娜丽莎跳舞,放以前我是完全不敢想的。??
这种AI跳舞视频的生成原理是怎样的呢?
虽然今天的AI视频生成技术已取得长足进步,但在「一致性」与「连贯性」等方面还存在诸多挑战。
所谓「一致性」就是生成的每一帧画面的人物是否一致,舞者不能由女生性转成男生…
所谓「连贯性」就是肉眼看起来,视频不能卡成PPT,不能频闪,靠眨眼补帧。
此外,以人物为中心的视频内容生成,对于人物动作的个性化与可控性也至关重要。
面对这些难点,阿里团队先从训练数据集着手改善。
研究人员从网上优中选优,收集了1000个高质量的舞蹈视频。
并将这些素材切割成6000余个片段,每个片段长度在8~10秒,以确保每个片段都是画面干净、完整连贯的舞蹈动作。
然后他们引入了一个提示词“文生图”插件Minigpt-v2作为视频脚本描述器(Video Captioner),用于生成每一帧静态画面的内容,以准确输出用户输入的提示词主题和背景信息。
在生成框架上,阿里团队基于Stable Diffusion打造了生成模型,并取名DreaMoving(直译:梦幻运动)。
该框架主要由三个神经网络来构成:画面去噪器U-Net(Denoising U-Net)、视频生成控制微调模型(Video ControlNet)和提示词内容引导生成器(Content Guider)。
三合一,DreaMoving便可以根据用户输入的提示词引导生成高质量、高保真的跳舞视频。
当然啦,阿里的DreaMoving可不只能用于生成跳舞视频,它在诸多领域,比如影视特效内容创作、电商模特服饰展示等等,都有可以发挥的空间。
EVA觉得,一般人类舞者在被AI淘汰的道路上也是肉眼可见的危矣。
目前阿里团队已经将DreaMoving项目放到了GitHub,不过还没有放出开源代码。
项目地址:
感兴趣的家人们可以先到阿里的魔搭社区与Hugging Face社区在线体验一下:
魔搭:
Hugging Face: