VideoPoet是由Google开发的一款语言大模型,旨在解决视频生成领域的挑战。以下是它的主要功能:
支持多种视频生成任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。
与传统扩散模型不同,VideoPoet将多个视频生成功能融合在一个语言模型中,提供更高的集成度和学习能力。
VideoPoet 是一种简单的建模方法,可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。它包含一些简单的组件:预训练的 MAGVIT V2 视频分词器和 SoundStream 音频分词器将可变长度的图像、视频和音频剪辑转换为统一词汇表中的离散代码序列。这些代码与基于文本的语言模型兼容,有助于与文本等其他模式的集成。
如需了解更多详情,建议到信息技术类论坛查找或直接询问相关技术人员。