谷歌发布全能视频生成模型VideoPoet丨研究称Gemini Pro不如GPT丨盖茨:距离公众广泛应用AI技术还需两三年
AI奇点网2023年12月21日报道丨AI资讯早报
当地时间12月19日,谷歌于官网发布了一款零样本视频生成的大型语言模型VideoPoet。用户可以利用视频生成模型讲述一个视觉故事,为了展示VideoPoet的功能,谷歌利用Bard撰写了一系列的脚本提示词,生成了一个关于旅行浣熊的短篇故事。然后,借助提示词生成了一段一段的视频剪辑片段,并将所有生成的剪辑拼接在一起成为短视频,为YouTube创作者提供了一个创作思路。
VideoPoet
VideoPoet是由Google开发的一款语言大模型,旨在解决视频生成领域的挑战。目前支持多种视频生成任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。
该模型能够执行多种AI视频生成任务,包括文本生成视频、图像生成视频、视频风格化迁移、视频局部修复、视频画幅扩张以及视频生成音频多种能力。该模型采用的方法在单个大模型中无缝集成了多种视频生成功能,而不是依赖于专门针对每项任务的单独训练组件。
据外媒消息,卡内基梅隆大学(CMU)的研究团队近日发布了一份研究论文显示,当他们将谷歌刚推出不久的Gemini Pro模型与OpenAI的GPT-3.5 Turbo、GPT-4 Turbo以及Mistral AI的Mixtral 8x7B放在一起横向测试对比。他们发现,Gemini Pro并没有谷歌宣传的那么“卓越”。
通过一组不同的提示运行所有模型,包括向他们询问57个不同的多项选择题,涉及STEM、人文科学、社会科学等方面的内容。测试结果显示,Gemini Pro得分在十几个数据集的测试上表现均不如OpenAI的老模型GPT-3.5 Turbo(下表列举了4款参试模型,其中GPT-4 Turbo平均得分最高)。
研究人员还发现,当提示不同的模型在标记为A、B、C或D的答案之间进行选择时,Gemini选择“D”答案的次数比较其他模型的比例要多得多,无论它是否为正确的答案。
CMU对此的评价是,对于Gemini大模型存在的“AI幻觉”感到非常的困惑。从下图右侧,我们可以看到Gemini Pro更偏向于选择“D”答案。
近日,OpenAI首席科学家Ilya Sutskever入选了《自然》(Nature)杂志评选的「2023年年度十大科学人物」。
他强调,只要能够极好地预测下一个token(字符串),就能帮助人类达到所谓的“人工通用智能”(AGI)。Ilya认为,大型语言模型,如ChatGPT,本质上是预测下一个字符的工具,具备超越人类智慧的综合能力。他表示,人工智能有能力改变整个人类文明的存在方式,而不仅仅是解决小问题。在他看来,预测下一个token的能力是实现这一目标的关键。
Ilya认为大型语言模型通过预测下一个字符,可以理解导致该token创建的潜在现实。他指出,足够好地预测下一个token意味着理解创造这组统计数据的世界是什么,以及人类行为是如何决定的。他认为,只要能很好地预测下一个token,人工智能就能觉察一个具有伟大洞察力、智慧和能力的人类会做什么,即使这样的人并不存在。
当地时间12月19日,比尔·盖茨在自己的博客上展望下一个时代的AI发展趋势,其中谈道:
如果让我做个预测,在美国这样的高收入国家,我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家,我预计在3年左右的时间里,AI的使用就会达到相当的水平。这仍然是一个差距,但比我们在其他创新中看到的滞后时间要短得多。
他还提到,希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。
据路透社报道,谷歌于当地时间本周二宣布,为避免干扰正常的选举活动,在2024年美国总统大选之前到结束,官方将限制其AI聊天机器人Bard和Google搜索生成体验给用户返回一些与选举题材有关的信息,这些限制措施将在2024年初开始实施。