首页  >  资讯  >  文章
2024-06-18 09:12

Runway发布Gen-3 Alpha视频生成模型丨「苹果AI」部分功能需要等到2025年丨研究称GPT-4可以通过图灵测试

AI奇点网2024年6月18日报道丨AI资讯早报

Runway发布Gen-3 Alpha视频生成模型,基于DiT架构打造

当 OpenAI Sora 一夜搅得 AI 视频生成界天翻地覆。作为老牌的 AI 视频行业领导者,Runway 自从去年底推出 Gen-2之后已经沉寂有一段不短的时间。

当地时间6月17日,AI 视频创作平台 Runway 放出酝酿了半年的全新版本大模型 Gen-3 Alpha,尝试打一场翻身仗。最新的 Gen-3版本模型,采用了与 Sora 相似的 DiT 架构进行训练。

Gen-3 Alpha 是一款专注于视频生成的产品,目前仍处于测试阶段,在新的基础设施上训练,专为大规模多模态训练而建。它为创意专业人士、视频制作者和艺术家提供了一个能够将创意概念快速转化为视觉内容的工具。

Runway Gen-3 Alpha 特点如下:

  • 高保真视频生成:能够生成接近真实世界质量的视频内容,具有高度的细节和清晰度。
  • 精细动作控制:模型能够精确控制视频中对象的动作和过渡,实现复杂场景的流畅动画。
  • 逼真人物生成:特别擅长生成具有自然动作、表情和情感的逼真人类角色。
  • 多模态输入:支持文字转视频、图像转视频、文字转图像等多种创作方式。
  • 先进工具:支持运动画笔、相机控制和导演模式等专业创作工具。
  • 增强的安全措施:引入新的内部视觉审核系统和 C2PA 标准,确保内容的安全性和可靠性。
  • 高质量训练:使用高描述性的、时间密集的字幕进行训练,使模型能够理解和生成具有丰富时间动态的视频。

「苹果AI」部分功能需要等到2025年才能上线

图片

据彭博社报道称,参与 Apple Intelligence「苹果智能」开发的几名员工表示,该服务的部分功能要到 2025 年才会推出。

具体内容如下:

  • Siri 将能够根据上下文在用户的设备上查找内容并采取行动
  • Siri 将支持语义索引
  • Siri可以精确控制用户的设备和应用程序
  • 屏幕感知功能

在刚刚过去的苹果 WWDC 中,苹果推出了「苹果智能」生成式AI服务。「苹果智能」的初始版本,包含 AI 对通知进行优先级排序、总结网页、语音备忘录、会议记录和电子邮件等功能。并且将有新的书写工具、图像生成,还有名为 Genmoji 的自定义 AI 生成的表情符号。

软银宣布与Perplexity AI达成合作

软银昨日在官网发文,宣布与生成式人工智能搜索初创公司 Perplexity 建立战略合作伙伴关系。将于 6 月 19 日向 Softbank、Y-Mobile 和 LINEMO 三大品牌的用户开放 Perplexity Pro 一年免费试用的申请。

Perplexity Pro 为 AI 搜索引擎 Perplexity 的付费订阅版本,相较于免费版,Perplexity Pro 为用户提供了更多专业搜索次数,同时还有自选 AI 模型、限量上传及分析文件等功能。

研究称GPT-4可以通过图灵测试,54%的访问者误以为真人

当地时间6月16日报道,外媒最新研究称,越来越多的人难以在图灵测试中区分 GPT-4 和人类。所谓“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出,又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话,让对方误以为其是真人。

加州大学圣地亚哥分校的研究人员招募了 500 名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及 ChatGPT 不同版本 GPT-3.5 和 GPT-4,参与者需要在对话结束后需判断对方是人还是机器。

这项测试的结果发表于预印网站 arXiv 上,结果显示,有 54% 的参与者将 GPT-4 误认为「真人」。相比之下,预先设定好回复的 ELIZA 只有 22% 的人将其认作真人,GPT-3.5 约为 50%,而人类对话者被正确辨认的比例则为 67%。

通常来说,超过50%的受测样本通过图灵测试的考验即可认为达到了通过图灵测试的标准。然而,图灵测试有其局限性,图灵测试只关注机器模仿人类对话的能力,而没有考察机器是否具有其他方面的智能,例如学习、推理、解决问题等。并且该测试方法存在较大的“主观性”。

新对口型视频项目Hallo发布,可对表情、嘴型进行精确控制

一项名为「Hallo」的对口型AI视频项目发布,通过单张图像和音频输入生成唱歌和说话的视频,实现精确控制人物表情和姿态,提升语音输入与生成动画之间的对齐精度。该技术不仅可用于虚拟角色动画生成,还可应用于真实人物,支持多种运动控制,跨演员应用,以及歌唱动画生成。技术先进,动画逼真,具有广泛的应用潜力。

  • 根据单张图像和音频输入生成唱歌和说话视频
  • 支持虚拟和真实角色动画生成,项目已开源
  • 多种运动控制,实现精确表情和姿态控制,增强动画的多样性和真实性。

OpenAI回应可能“转向营利性公司”:非营利是公司核心使命

当地时间6月15日,据 The Information 报道,该公司援引知情人士消息称,OpenAI CEO奥特曼告诉一些股东,公司正在考虑改变其治理结构,非盈利董事会将不控制营利性业务。

据报道声称,奥特曼曾经表示,公司的董事会正在考虑的一种方案是成立一家营利性公司。报道提到,这一转变可能为 OpenAI 最终进行首次公开募股打开大门,目前 OpenAI 公司估值为 860 亿美元,需要转向营利模式才能确保更多稳定的融资机会。

对于此事,OpenAI 官方在回复路透社问询有关报道的真实性时,回应表示——“我们仍然专注于打造造福于每个人的人工智能。非营利组织是我们的核心使命,并将继续存在。”

1

相关文章