Sora最强竞品!谷歌最新AI视频生成模型Veo详解:时长超1分钟、1080P丝滑丨附内测体验链接
5月15日,谷歌举办一年一度的I/O开发者大会,在这场年度盛事上谷歌总计推出了100多项产品上新与更新,发布了14款大模型应用。
如果要形容,就是对OpenAI展开了军火库的狂轰滥炸。其中最受网友关注的无疑是AI视频生成模型,代号「Veo」。
谷歌方面制作了一个宣传品介绍产品的前世今生:
先提前小结一下:
Veo视频模型,支持通过文本提示词生成超过1分钟的1080P超清视频。在文本语义理解与复现、视频主体对象的一致性、运镜、画面连贯性、场景切换、光影效果等等方面,完全称得上媲美OpenAI红极一时的Sora大模型。
对于Sora发布至今已有3个月还在放鸽子,谷歌方面希望Voe能够以最快速度进入消费应用市场,目前已经与好莱坞一些特效公司开始谈判。
在所有的视频生成案例当中,最具代表性的无疑是下面这个1分23秒的超长一镜到底视频:
谷歌给出的提示词为:
「一个快速穿梭于繁华的反乌托邦城市中,明亮的霓虹灯、飞行汽车、薄雾、夜晚、镜头眩光和体积光线的镜头。
通过未来主义的城市肆虐快速追踪镜头,明亮的霓虹灯标,天空中的星舰,夜晚。一辆汽车的霓虹全息图以光速行驶,电影般的惊人细节,体积光。汽车离开隧道,回到真实世界里边的香港都市。」
这个视频从观感上还是相当惊艳的,谷歌复现了Sora最拿手的穿越风格的视频场景。
并且主体对象?跑车的一致性上相当稳定,画面丝滑流畅。
再看一些其他的生成视频案例,均为写实风格,拟真程度以假乱真:
提示词:「在烧烤架上,鸡肉和青椒串烤的特写镜头,火焰在旁燃烧。焦距浅,轻烟袅袅,色彩鲜艳。」
提示词:「许多斑点水母在水下蠕动。它们的身体透明,在深海中发光。」
提示词:「一名孤独的牛仔骑着马穿越美丽日落的开阔平原,柔和的光线,温暖的色彩。」
提示词:「一艘宇宙飞船在宇宙的浩瀚中飞驰,星星在其旁划过,高速飞行,科幻感十足。」
提示词:「一只金毛寻回犬在蜿蜒的山间小径上行走,它兴奋地摇着尾巴,探索着荒野的景色和气味。」
相对于OpenAI Sora的放鸽子,谷歌已经迅速将Veo视频模型创建了一个生成创作平台Video-Fx。
使用方法基本傻瓜式,直接在文本框输入提示词,然后点击“生成”(Create Video)即可。目前处于早期测试阶段,还无法提供任何的编辑能力。
谷歌Video-Fx创作平台支持一次性生成4条视频,相比于Runway、Pika等主流AI视频生成平台,还是非常大方了!
值得一提的是,Veo还提供了一个名叫“Storyboard”的创作模式,支持为生成的无声AI视频一键添加背景音乐。
Veo是如何工作的呢?
根据谷歌的介绍,Veo更像是一个视频生成模型的大合集。
谷歌融合了GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、Transformer和Gemini等等,将许多的技术概念与大模型架构的优点融合集于一体。
例如,Phenaki是谷歌很早之前便推出的文生视频模型,采用了一个双向掩码转换器架构。在视频帧之间的切换、一致性、关联性方面非常优秀。
WALT则是深度学习领域的一种视频微调技术,可关注模型内部的激活层,通过权重调整来改进模型性能。
Gemini是谷歌目前最强的大语言模型,在语义理解能力上可与GPT-4相媲美。
所以,从这个「集中力量办大事」的姿态,以及产品商业化推进的步伐,就不难看出谷歌是对Veo下了血本,誓要与OpenAI的Sora一较高下。
目前,谷歌已经将Veo视频模型整合在文生视频平台Video-Fx,任何人都可以免费申请,也向开发者开放API。
申请地址: