宅舞区UP破防！阿里发布AI视频模型DreaMoving：一张人脸图像生成视频，能让任何人在任何地方起舞，流畅动作纵享丝滑-AI奇点网

首页 > 资讯 > 文章

2024-01-22 16:14

宅舞区UP破防！阿里发布AI视频模型DreaMoving：一张人脸图像生成视频，能让任何人在任何地方起舞，流畅动作纵享丝滑

阿里大模型最近一个月彻底杀疯了！在视频生成这条赛道上一去不复返。

近日，阿里又一个「跳舞整活儿」模型又火了——有手就能玩~

用户只需上传一张人脸图像，然后输入提示词描述舞蹈的场景，AI就能生成在任何地方跳舞的短片!

??先来看这段《擦玻璃》的舞蹈~~~

咱们投喂的是左边的这张AI美女人脸，宅舞跳起来是不是还挺自然?

不喜欢这个场景？没关系~

无需更换人物，依然是这位妹纸。随着输出的提示词的改变，人物身后的场景与身上的衣着也可以轻松改变。

左边是在木屋里跳舞，穿着毛衣和长裤;右边是在纽约时代广场跳舞，穿着连衣长裤。

换一个妹纸，在城市公园跳舞~??

换到海边沙滩扭上一段儿~?

这油男还有点像京哥，让他在古埃及金字塔前边来一段“我晒干了沉默”…

这便是阿里人工智能团队的最新视频模型研究成果——DreaMoving。

DreaMoving

一个基于扩散模型的可控视频生成框架，用于生成高质量的定制人类舞蹈视频。

主打就是一个随时随地任性起舞，快进到一秒干翻舞蹈区UP主…

不仅是真人，随便一个二次元人物形象也可以轻松拿捏。

让蒙娜丽莎跳舞，放以前我是完全不敢想的。??

这种AI跳舞视频的生成原理是怎样的呢？

虽然今天的AI视频生成技术已取得长足进步，但在「一致性」与「连贯性」等方面还存在诸多挑战。

所谓「一致性」就是生成的每一帧画面的人物是否一致，舞者不能由女生性转成男生…

所谓「连贯性」就是肉眼看起来，视频不能卡成PPT，不能频闪，靠眨眼补帧。

此外，以人物为中心的视频内容生成，对于人物动作的个性化与可控性也至关重要。

面对这些难点，阿里团队先从训练数据集着手改善。

研究人员从网上优中选优，收集了1000个高质量的舞蹈视频。

并将这些素材切割成6000余个片段，每个片段长度在8~10秒，以确保每个片段都是画面干净、完整连贯的舞蹈动作。

然后他们引入了一个提示词“文生图”插件Minigpt-v2作为视频脚本描述器（Video Captioner），用于生成每一帧静态画面的内容，以准确输出用户输入的提示词主题和背景信息。

在生成框架上，阿里团队基于Stable Diffusion打造了生成模型，并取名DreaMoving（直译：梦幻运动）。

该框架主要由三个神经网络来构成：画面去噪器U-Net（Denoising U-Net）、视频生成控制微调模型（Video ControlNet）和提示词内容引导生成器（Content Guider）。

画面去噪器U-Net是基于Stable Diffusion的衍生模型，用于生成动态视频的基本动作模块。
视频生成控制微调模型则是为了让U-Net生成的运动模块实现姿态与动作透视的效果。
提示词内容引导生成器，会将人脸替换成视频人物，并完成背景内容的生成，嵌入视频当中。

三合一，DreaMoving便可以根据用户输入的提示词引导生成高质量、高保真的跳舞视频。

当然啦，阿里的DreaMoving可不只能用于生成跳舞视频，它在诸多领域，比如影视特效内容创作、电商模特服饰展示等等，都有可以发挥的空间。

EVA觉得，一般人类舞者在被AI淘汰的道路上也是肉眼可见的危矣。

目前阿里团队已经将DreaMoving项目放到了GitHub，不过还没有放出开源代码。

项目地址：

https://dreamoving.github.io/dreamoving/

感兴趣的家人们可以先到阿里的魔搭社区与Hugging Face社区在线体验一下：

魔搭：

https://www.modelscope.cn/studios/vigen/video_generation/summary

Hugging Face：

https://huggingface.co/spaces/jiayong/Dreamoving

3

查看相关话题： #阿里 #AI视频 #AI视频生成 #图生视频

相关文章

AI奇点网打杂的

作者已发布 647 篇文章

近期文章

更多

OpenAI发布「SearchGPT」AI搜索服务丨OpenAI今年全年亏损将达到50亿美元丨百川智能完成新一轮50亿元融资

OpenAI发布「SearchGPT」AI搜索服务丨OpenAI今年全年亏损将达到50亿美元丨百川智能完成新一轮50亿元融资

快手「可灵AI」全面开放内测，国际版上线丨Mistral发布1230亿Large 2旗舰模型丨OpenAI免费提供GPT-4o微调

快手「可灵AI」全面开放内测，国际版上线丨Mistral发布1230亿Large 2旗舰模型丨OpenAI免费提供GPT-4o微调

Meta发布Llama 3.1开源大模型丨巴黎奥运会与阿里通义达成AI技术合作丨马斯克完成全球最强AI算力集群

Meta发布Llama 3.1开源大模型丨巴黎奥运会与阿里通义达成AI技术合作丨马斯克完成全球最强AI算力集群

李开复旗下零一万物发布世界顶尖多模态大模型Yi-VL：开源！视觉多模态测评表现仅次于GPT-4V

上一篇

刷屏！「AI算力皇帝」英伟达CEO黄仁勋访问中国：脱下皮衣身穿东北大花袄扭秧歌，但不是AI生成?

下一篇