字节跳动发布豆包视频生成模型，这效果让我分不清AI虚拟与现实的边界-AI奇点网

首页 > 测评 > 文章

2024-10-06 14:32

字节跳动发布豆包视频生成模型，这效果让我分不清AI虚拟与现实的边界

以下文章转载自丨IT之家

9 月 24 日，火山引擎 AI 创新巡展在深圳举办，带来了豆包大模型的最新进展——豆包大模型家族迎来了新成员，这是针对 AI 视频创作。

具体来说，火山引擎全新推出了豆包·视频生成模型，以及豆包·音乐模型、同声传译模型，同时还升级了通用语言模型、文生图模型、语音模型，不断增强各类模态以及规模化的调用量，让豆包大模型“更强模型、更低价格、更易落地”的优势持续凸显。

此外，多家行业客户也在会上分享了大模型应用的实践经验。

20240928095755

本次豆包带来的一系列大模型进展中，最引人关注的，莫过于全新豆包视频生成模型，它能够带来影视级视觉感受的视频生成效果，全面推动豆包大模型 AIGC 应用创新的步伐。

20240928095726

在豆包视频生成模型正式推出之前，可能不少同学已经使用过市面上一些 AI 生成视频的产品。小编此前也做过体验，总体来说这些大模型生成的视频往往有比较明显的“AI 痕迹”，无论是视频的内容逻辑、画面自然度等方面，都有待提升，而且对语义指令的理解也存在问题，经常会生成一些不符合指令要求的视频。

而这些问题在豆包视频生成模型中，都得到了针对性的解决，同时也成为其不可忽视的产品亮点。

首先，豆包视频生成模型拥有精准的语义理解能力，支持多动作多主体交互的内容生成。相比大部分视频生成模型只能完成简单指令单一动作，豆包视频生成模型可以遵从更复杂的 prompt，解锁时序性多拍动作指令与多个主体间的交互能力，指哪儿打哪儿，为你打开想象力的大门。

比如下面这则视频，两位主角的动作、表情都非常自然，包括马儿看起来也很真实。

95-42-31-4K_HD_two_individuals_with_long_hair,_dressed_in_rugged,.2024-09-28 10_00_13

还有下面这段视频，首先女主的表情十分细腻自然，当男主入画时，女主缓缓戴上墨镜，和男主的动作交互也非常真实，看起来似乎是有些抗拒，将复杂细腻的微动作都呈现了出来，从而让视频呈现出强烈的“故事感”。

640 (4)

其次，豆包视频生成模型支持强大动态与炫酷运镜，让 AI 生成视频告别 PPT 动画质感。针对高动态的复杂场景视频、多样化表达的文本指令，豆包视频生成模型基于高效的 DiT 融合计算单元，更充分地压缩编码视频与文本，使生成视频的动作更灵动，镜头更多样，表情更丰富，细节更丰满。

并且生成的视频可同时存在主体的大动态与镜头的炫酷切换。支持变焦、环绕、平摇、缩放，目标跟随等超多镜头语言，灵活控制视角。

例如下面这则视频，画面中两位主角前后景的变焦切换非常自然，感觉就像是真实的摄影师在水中拍摄的画面，而不像以往 AI 生成视频那样呆板生硬。

96-42-32-4K_HD_close__up_of_an_asian_male_wearing_protective_gogg.2024-09-28 10_02_38

在内容逻辑方面，豆包视频生成模型还支持一致性多镜头生成，能够 10 秒讲一个完整的故事。它采用全新设计的扩散模型训练方法，成功攻克了多镜头切换时难以保持一致性的困扰，在一个 prompt 的多个镜头切换时，保持主体、风格、氛围和逻辑的一致性，实现导演自由。

例如下面这则动画视频，三个镜头组成了一个简短易懂的场景故事，看起来就像是一个正常的动画电影中截取的片段。

飞书20240921-212001.2024-09-28 10_04_01

再比如下面这则视频，讲述一个乘坐火箭的人冲撞大楼引发爆炸的场景故事，三段镜头的剪辑呈现出流畅的故事逻辑，还给了主人公紧张的表情特写，调动观众的情绪，让人感叹 AI 这是觉醒了“创作意识”?

飞书20240921-212008.2024-09-28 10_09_28

此外，豆包视频生成模型还能保证视频高保真和高美感，可生成影视级画面，细节层次丰富，逼真度极高，拥有专业级色彩调和和光影布局，大幅提升画面视觉审美。

比如下面这一则，整个画面的打光、色调、场景、角色的表情都非常精致、细腻，很有电影大片的质感，不说的话谁能想到这是 AI 生成的视频?

640

同时其深度优化的 Transformer 结构，大幅提升了视频生成的泛化能力，支持包括黑白、3D 动画、2D 动画、国画、厚涂等多种风格，包含 1:1、3:4、4:3、16:9、9:16、21:9 比例，带你领略更自由的世界。

640 (1)

可以看到，豆包视频生成模型的表现确实是相当惊艳的，无论是语义理解能力、多个主体运动的复杂交互画面，还是多镜头切换的内容一致性等方面，都可以做到接近专业人类视频工作者的水平，如果不说是 AI 生成的，可能大家都很难发现。

而能做到这一点，对于字节跳动以及火山引擎来说，其实完全在意料之中。

首先在“视频”能力方面，本就是字节跳动的优势赛道。火山引擎不仅是抖音计算服务的提供方，更是国内众多视频、直播等业务背后的可靠支撑，在长年应对视频业务流量、时延、稳定性等各种严苛的挑战中，沉淀下来独树一帜的技术能力。

而在 AI 方面，即大模型的能力，有火山引擎的支撑，字节跳动豆包大模型无论在算力、算法以及数据、场景等方面都有非常充沛的资源。具体到本次豆包视频生成模型上，我们也能看到字节跳动在视频大模型技术研发的不断投入和创新。比如他们采用了高效的 DiT 融合计算单元，还全新设计了扩散模型的训练方法，来实现一致性多镜头的生成。此外他们还深度优化了 Transfomer 结构，大幅提升了视频生成的泛化能力。