谷歌发布全能视频生成模型VideoPoet丨研究称Gemini Pro不如GPT丨盖茨：距离公众广泛应用AI技术还需两三年-AI奇点网

首页 > 资讯 > 文章

2023-12-21 09:14

谷歌发布全能视频生成模型VideoPoet丨研究称Gemini Pro不如GPT丨盖茨：距离公众广泛应用AI技术还需两三年

AI奇点网2023年12月21日报道丨AI资讯早报

谷歌发布全能视频生成模型：支持文生视频、图生视频、风格迁移、视频扩图等

当地时间12月19日，谷歌于官网发布了一款零样本视频生成的大型语言模型VideoPoet。用户可以利用视频生成模型讲述一个视觉故事，为了展示VideoPoet的功能，谷歌利用Bard撰写了一系列的脚本提示词，生成了一个关于旅行浣熊的短篇故事。然后，借助提示词生成了一段一段的视频剪辑片段，并将所有生成的剪辑拼接在一起成为短视频，为YouTube创作者提供了一个创作思路。

VideoPoet

VideoPoet是由Google开发的一款语言大模型，旨在解决视频生成领域的挑战。目前支持多种视频生成任务，包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。

获取工具

该模型能够执行多种AI视频生成任务，包括文本生成视频、图像生成视频、视频风格化迁移、视频局部修复、视频画幅扩张以及视频生成音频多种能力。该模型采用的方法在单个大模型中无缝集成了多种视频生成功能，而不是依赖于专门针对每项任务的单独训练组件。

卡内基梅隆大学研究称，Gemini Pro不如GPT-3.5 Turbo

据外媒消息，卡内基梅隆大学（CMU）的研究团队近日发布了一份研究论文显示，当他们将谷歌刚推出不久的Gemini Pro模型与OpenAI的GPT-3.5 Turbo、GPT-4 Turbo以及Mistral AI的Mixtral 8x7B放在一起横向测试对比。他们发现，Gemini Pro并没有谷歌宣传的那么“卓越”。

通过一组不同的提示运行所有模型，包括向他们询问57个不同的多项选择题，涉及STEM、人文科学、社会科学等方面的内容。测试结果显示，Gemini Pro得分在十几个数据集的测试上表现均不如OpenAI的老模型GPT-3.5 Turbo（下表列举了4款参试模型，其中GPT-4 Turbo平均得分最高）。

研究人员还发现，当提示不同的模型在标记为A、B、C或D的答案之间进行选择时，Gemini选择“D”答案的次数比较其他模型的比例要多得多，无论它是否为正确的答案。

CMU对此的评价是，对于Gemini大模型存在的“AI幻觉”感到非常的困惑。从下图右侧，我们可以看到Gemini Pro更偏向于选择“D”答案。

OpenAI首席科学家：通往AGI的途径，便是通过大模型准确预测下一个字符

近日，OpenAI首席科学家Ilya Sutskever入选了《自然》（Nature）杂志评选的「2023年年度十大科学人物」。

他强调，只要能够极好地预测下一个token（字符串），就能帮助人类达到所谓的“人工通用智能”（AGI）。Ilya认为，大型语言模型，如ChatGPT，本质上是预测下一个字符的工具，具备超越人类智慧的综合能力。他表示，人工智能有能力改变整个人类文明的存在方式，而不仅仅是解决小问题。在他看来，预测下一个token的能力是实现这一目标的关键。

Ilya认为大型语言模型通过预测下一个字符，可以理解导致该token创建的潜在现实。他指出，足够好地预测下一个token意味着理解创造这组统计数据的世界是什么，以及人类行为是如何决定的。他认为，只要能很好地预测下一个token，人工智能就能觉察一个具有伟大洞察力、智慧和能力的人类会做什么，即使这样的人并不存在。