音效师狂喜!谷歌DeepMind发布首个AI视频全自动配音工具V2A:一个人轻松干完后期的活
谷歌发布新一代AI视频自动配音工具,AI视频开启「有声时代」!?
6月17日,谷歌人工智能团队DeepMind发布了一个名为V2A(Video-to-Audio)的AI架构系统,顾名思义即“视频转音频”,能根据画面内容或者手动输入的提示词直接为视频配音。
该模型最大的功能在于,可为任何视频自动创建合适的音轨BGM,在实践中取得了十分有效的进展,可以大大降低视频配音的制作成本。
当前Sora、Pika、可灵以及Runway等视频模型已经能输出逼真的短片,但它们均输出的是默片。
谷歌V2A系统的特点,便是V2A能依靠自身的多模态视觉能力理解视频当中的信息。V2A能看懂画面,知道画面里正在发生什么,应该出现什么声音。
?举个例子,比如输入一则主题为「在黑暗中行走」的无声视频,添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文本提示后,AI模型就能根据提示词生成恐怖片风格的背景音效,十分逼真。
脚步声基本吻合人物走动的节奏,随着画面的切换,脚步声也随之消失,毛骨悚然的紧张感拉满。
为了能够贴近Sora热点,谷歌V2A的开发团队使用了不少Sora生成的视频片段作为输入范例。
比如上边这段Sora生成的水母漂荡影像,营造出了负压十足的深海水压感。
下方这则短片也是Sora的样片,经由V2A生成的音乐配乐后的视频颇有西部大片的感觉。
当然也不是每一次生成的配音都是完美的,比如架子鼓的敲击,这种复杂的音频场景就会发生音画不同步的情况。
除了纯粹的配音外,谷歌V2A给了创作者很大的自由度。
影片创作者可以根据可以通过明确的“正面”提示词,引导模型输出所需的声音,或者输入“负面”提示词,以规避不想出现的音效。让用户可以创作不同的音画匹配。
让我们看下面这个Sora样片的配音效果,提供了两种截然不同的画面情绪氛围:
【视频①】营造星际穿越的孤独感
【视频②】营造星际穿越的史诗感
只需简单调整提示词,谷歌V2A就能迅速给创作者提供风格迥异的音频。
当然,V2A还允许用户通过输入“正面提示词”来引导模型输出所需的声音,或输入“负面提示词”来引导其避免出现不需要的声音,这给了创作者更大的控制力。
与其他普通的AI音频生成工具不同,V2A输出的视频是配音完毕的完整片段,无需人工对齐音频与视频,可实现音画自动对齐。
V2A配音案例——?狼吼
V2A配音案例——?电吉他
谷歌DeepMind也承认,该AI系统目前仍然存在较大的局限性。如果输入的视频质量不高,或者无法吻合预训练的视频类型,那么输出的音频质量也会出现明显的下降。
因此,谷歌目前正在改善安全性并补齐当前V2A在人物对口型方面的短板,才会正式向公众发布这一AI配音工具。
这套AI配音系统是如何工作的呢?
谷歌DeepMind的研究人员称,V2A系统首先会将视频进行压缩,然后借助扩散模型从中随机抽取噪声以提炼和学习音画对应的音频信息。
该过程经由视觉输入和自然语言提示作为引导,以匹配提示词生成对应的音频。最后,音频输出并解码,转为一般音频文件并与视频数据组合对齐。
为了能引导生成更高质量的音频,谷歌DeepMind的研究人员在训练过程中添加了许多人工标注的信息。V2A系统渐渐学会了将特定的音频事件与各种视觉场景相关联,并且将提示词中提供的信息与之匹配。
需要注意到是,谷歌目前并不打算向公众开放V2A系统,还需要许多准备工作。
考虑到Fake News(假新闻)粗制滥造的可能,谷歌DeepMind强调,他们会考虑在V2A系统AI生成的内容添加元数据水印,防止外界滥用该技术。
从文生图到文生视频,到音画同步,谷歌V2A系统的发布将给影视内容创作的生态带来巨大的改变,尤其是在后期剪辑与动画制作方面。
相信今年将是AI视频爆发的元年。
项目主页:https://deepmind.google/discover/blog/generating-audio-for-video/