首页  >  资讯  >  文章
2024-02-29 15:19

开局一张图,内容AI编:阿里发布人物肖像神态表情AI短视频生成模型EMO:AI小姐姐唱跳RAP,全由你做主

图片

2月28日,阿里巴巴人工智能团队发布了基于音频驱动的肖像脸部表情神态动作视频生成框架EMO(Emote Portrait Alive)。

顾名思义,也就是「生动的肖像神态」。

从架构命名就很直觉,这款模型架构是用于生成人物表情的。

简单感受一下,给你一点小小的AI影像震撼:

你可以让赫本演唱一曲英国歌手艾德·希兰的《Perfect》,随着歌曲旋律,她会做出挑眉、皱眉等细微的表情变化。

一位AI绘画模型绘制的女孩,她生动地表演了一首陶喆的《Melody》,音频来自女歌手宁艺卓翻唱的版本。在唱到一些高音部分时,“她”甚至还会做出皱鼻子等鼻腔共鸣发力的表情。

除了国语歌,粤语歌也能轻松对上口型。

下面这条演示视频是张国荣翻唱陈奕迅的《无条件》。

让二次元小姐姐动起来,可能是最快得到应用的领域。

比如,你可以让动画《进击的巨人》中的角色Ymir Fritz亲自演唱动画片尾曲《衝撃》。与真人和3D人物相比,纸片人的表情管理更沉稳一些。

在翻唱Kpop歌曲《SOLO》时,这位AI生成的数字女孩十分投入,面部的轮廓线条也会随着口型变化而变化。

唱到动情处,AI生成的蒙娜丽莎还会闭上双眼,恰似沉浸在音乐旋律中。

如果想听RAP,小李子可以用18岁的脸庞为你演绎美国说唱歌手埃米纳姆的《GODZILLA》。

虽然中间偶尔出现“翻白眼”等瑕疵,但总体拟合程度还是很高的。

在生成说话视频上,EMO同样能为角色注入活灵活现的神韵。

例如这条蒙娜丽莎讲话的视频,开头一清嗓子,那个神韵就立马拿捏住了。

,时长00:26

虽然蒙娜丽莎初始设定就没有眉毛,但EMO还是让她的“眉骨部位”随着语调做出不同神态反应,连双下巴都灵动了起来。

下面这条Ymir Fritz说话视频中的音频来自游戏《尼尔:机械纪元》。

,时长00:26

借助AI生成二次元的人物形象,然后导入EMO让其开口说话,这样的工作流很可能会在不远的将来,成为游戏开发工作室的标配。

EMO还扩大了不同故事背景下人物“二创”的可塑性。

例如,你可以看到高启强模仿罗翔老师讲刑法。

图片

坤哥说起了郭德纲老师的相声……唉哟,你干嘛~(手动调大音量)?

图片

也可以看到小丑抢死对头台词,演绎《蝙蝠侠:黑暗骑士》中的经典台词。

最近的两个月,阿里在人像视频生成方面做出了诸多建树,让未曾学过舞蹈的普通人也可以轻松打造自己的舞蹈视频。

图片

这次,阿里的创新性技术架构,让用户只需上传一张参考的图像和一段声音音频用于解析,该框架能够自主生成具有高度真实感、丰富面部表情和头部姿势的带配音肖像视频。

具体来说,阿里的人像视频带配音生成框架EMO有以下几个特性:

在较少的资源条件下利用音频视频扩散模型生成富有表现张力的肖像视频

表情生动,动作精准:EMO重塑AI视频生成

技术奇迹:一张图片+声音,EMO让肖像视频活灵活现

告别传统:EMO的音频视频扩散模型,开启人像视频新纪元

提供一张图片生成肖像说话视频,这个事情并不新鲜,但是能做到像阿里这么自然流畅在业内尚属首次。

图片

不仅如此,既能生成生动的表情神态,还能出现各种人类说话摇头晃脑的头部姿态,人物讲话的唇形与配音完美吻合匹配,同时还能根据需求的时长来控制生成视频的长度。

阿里再次实现了国内企业在大模型技术应用方面的“遥遥领先”。

EMO框架的实现逻辑

图片

通过这张示意图,我们大致可以将EMO框架的AI生成,分为两个主要阶段:

在第一阶段,是为了给原始图像进行特征标记,使用ReferenceNet从用户提供的参考图像和运动关键帧中提取人物特征。

接着进入第二阶段,在扩散过程阶段我们用到了Diffusion Process模型,接入一个预训练的音频编码器对用户提供的音频嵌入进行处理。

面部区域的遮罩与多帧噪声相结合,以指导人物面部图像的逐帧生成,并且保持高度一致性。然后,主干网络被用来执行去噪操作。

在主干网络内部,阿里引入了两种提升一致性的注意力机制:Reference-Attention和Audio-Attention。

这两种机制分别对于维持角色的独特性和调节角色的动作至关重要。此外,还使用了时间模块(Temporal Modules)来处理时间维度的视频帧排序,以及调整面部神态的运动速度。

图片

还有一些其他的精彩视频,比如这个令EVA印象最深刻的——让OpenAI Sora模型生成的网红日本街头漫步女子开口唱歌——Sora本ra「活了」。

EMO令全球创作爱好者感到振奋

阿里EMO上线仅仅一天,目前这一项目已经火爆全网。

日本的AI技术博主KAJI表示:

阿里巴巴推出了一款有趣的人工智能架构,当上传静态图片和声音源时,它就能唱歌和说话,表现感染力很强。阿里正在进行大量研究,重点关注AI在娱乐方面的应用,例如其舞蹈视频生成人工智能。

图片

华人科技博主Min Choi表示:

阿里这项技术真是令人难以置信。这个人工智能能让单个图像唱歌、说话,还能用任何音频文件进行说唱,表现力极强!

图片

知名AI技术博主AK发表了一篇长文称赞阿里:

EMO创作的表情肖像活灵活现,在较少的条件下利用音频视频扩散模型生成富有表现力的人像视频。

通过关注音频线索和面部动作之间的动态和细微关系,解决了在生成人像视频时如何增强真实感和表现力的难题。发现了传统技术的局限性,这些技术往往无法捕捉到人类表情的全貌以及个人面部风格的独特性。

为了解决这些问题,研究人员提出了EMO,这是一种新颖的框架,它采用直接音频到视频的合成方法,无需中间三维模型或面部地标。确保了整个视频的无缝帧转换和一致的身份保持,从而产生了极富表现力和栩栩如生的动画。

实验结果表明,EMO不仅能制作出令人信服的说话视频,还能制作出各种风格的唱歌视频,在表现力和逼真度方面明显优于现有的最先进方法。

图片

总的来说,阿里又一次为生成式AI赛道注入了新的活力。

众所周知,人工智能的发展离不开三大基本要素——人才、数据、算力。

作为国内少有的在三个方面的资源都位居世界前列的科技大厂,阿里的突破性进展,除了带给我们AI技术日新月异的惊喜之外,也让EVA第一时间给家里长辈发了消息——

⚠️不要相信任何网上发布的独白视频,它们可能都是假的。

目前该项目还未开源,后续很可能会登陆阿里旗下的通义千问APP,就像之前的跳舞生成模型那样。

如果你想了解更多的技术细节,可以复制下方地址一探究竟。

项目主页:

12

相关文章