谷歌发布首个多模态视频生成模型VLOGGER AI：让静态人物肖像图像开口“说话”-AI奇点网

首页 > 资讯 > 文章

2024-03-20 10:05

谷歌发布首个多模态视频生成模型VLOGGER AI：让静态人物肖像图像开口“说话”

近日，谷歌在其 GitHub 页面发布博文介绍一款名为 VLOGGER AI 的新模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。

VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型，使用 MENTOR 数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过 2200 小时的影片，从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

研究人员表示：“和此前的多模态模型相比，VLOGGER AI 的优势在于不需要对每个人进行训练，不依赖于人脸检测和裁剪，可以生成完整的图像（而不仅仅是人脸或嘴唇），并且考虑了广泛的场景（例如可见躯干或不同的主体身份），这些对于正确合成交流的人类至关重要”。

除了将静态人物进行动态转化之外，还可以针对不同语言系统进行口型的转换，比如将一则英语播报的主播转换为西班牙语的口型。这将有助于视频主播将内容注入更多的语言场景。

谷歌的研究团队认为，可以将 VLOGGER 应用于将 AI 聊天机器人具象可视化，比如让机器人拥有可视化的人物躯干，AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。 VLOGGER 的应用场景包括可以用于学术报告、教育场域和视频旁白等等 AI 数字人的应用领域。

围观项目主页：

查看相关话题： #谷歌 #AI视频 #AI视频生成 #AI数字人

一打杂的

作者已发布 423 篇文章

近期文章

OpenAI明年将推出计算机控制智能体Operator丨小米成立AI平台部，酝酿智能眼镜丨传闻苹果正在研发AI智能家居中控

李彦宏：文心大模型日调用量超15亿丨百度发布文心「iRAG」文生图技术丨小度AI智能眼镜发布，搭载大模型边走边问

字节跳动内测豆包通用图像编辑模型SeedEdit丨Grok聊天机器人免费版内测丨月之暗面Kimi创始人被提起仲裁

奥特曼认为GPT-4“有点糟糕”丨Stability AI推出3D渲染视频模型Stable Video 3D丨谷歌推出多模态视频模型VLOGGER

库克今年首次访华，国内首谈生成式AI丨微软收购OpenAI竞争对手Inflection AI丨黄仁勋回应中国算力芯片出货问题