OpenAI开始内测GPT-4o高级语音模式丨苹果回应国行iPhone无法使用「苹果AI」丨AI视频创作工具Vidu正式上线
AI奇点网2024年7月31日报道丨AI资讯早报
当地时间7月30日,OpenAI宣布开始向小部分ChatGPT Plus用户,测试GPT-4o的高级语音模式。本次测试将主要搜集安全、功能方面的反馈,OpenAI会在8月初分享一份全面的GPT-4o评估报告。随后,还会发布视频和屏幕共享新功能。目前只有少量的外媒记者、创作者、开发者获得高级语音模型的测试权限。
本次内测的是 ChatGPT Plus 全新高级语音模式的 Alpha 版本,该版本服务将会在今年秋季逐步面向所有 Plus 用户推出。
据介绍,新的语音模式更加自然,对话也更实时反馈,允许用户随时进行打断,并能感知、回应用户的情绪。
在演示中,OpenAI 员工打断并要求聊天机器人用不同的方式讲述故事,聊天机器人则从容地接受打断并调整了回答的方式。
核心特点:
高级语音模式原定于 6 月下旬推出,但出于提高模型自检测能力等理由,OpenAI 推迟了上线时间。
当地时间7月29日,苹果向部分设备机型推送了 iOS 18.1、iPadOS 18.1、macOS 15.1 的开发者预览版,其中包含「Apple Intellegent 」苹果智能的首个开发者预览版本,将WWDC大会上宣布的新功能公之于众。
根据实测我们发现,按照苹果公司发布的更新内容标注,国行设备无法使用 Apple 智能相关功能的。经测试,即便国行设备切换 Apple ID 账户或者设备的地区和语言都无法开启相关功能。
对于国行 iPhone 无法使用「苹果AI」智能服务一事,苹果客服回应媒体表示,本次的系统版本还没有正式上线,开发者测试版本仅限于开发目的,具体功能以后续的发布正式版为准。
Vidu是一个创新的视频生成平台,允许用户在极短的时间内创建出具有电影质感的个性化视频。它结合了真实与动画风格,提供了丰富的视频创作工具,让用户能够轻松化身导演,创作出令人印象深刻的视频作品。
7月30日,AI 初创企业「生数科技」宣布,旗下的 AI 视频生成工具 Vidu 全球上线,用户可以通过PC端访问官网体验。
官方地址:https://www.vidu.studio/
根据 Vidu 的介绍,该模型最快推理速度为 30 秒,提供两大核心功能:文生视频、图生视频,分辨率最高达 1080P。免费版可生成 4 秒视频,支持超清和一个并行任务;收费版可生成 4 秒和 8 秒长度的短视频,支持超清、商用、超清后去除水印,支持两个并行任务。
Vidu 除了能实现常见的写实等多元风格外,还新增动漫风格选项,并显著提高了画面的稳定性。
生数科技声称,Vidu 能够生成影视级别的特效画面,如烟雾、炫光效果、CG 特效等等。这是国内又一款正式上线开放使用的「类Sora」DiT 架构视频生成模型。
7月31日,国际奥委会对外首次公布了 1924 巴黎奥运会的珍贵影像,据悉采用了阿里云提供 AI 图像修复技术,将 100 年前的黑白影像修复为彩色高清影像,以纪念夏季奥运会时隔百年之后重返巴黎。
国际奥组委主席巴赫对此称赞致谢:“当我看到AI如此出色的完成历史影像上色修复时,让我们看到了未来AI具有的开创性,将改变体育届的方方面面。”
国际奥组委主席巴赫特别感谢了奥运会首席合作伙伴、奥运会全球唯一云服务商阿里巴巴提供的技术合作,表示「没有阿里巴巴,就没有奥林匹克 AI 议程」,该项目也是奥林匹克 AI 议程的核心进展之一。在2017年,阿里云就已成为奥运会全球唯一云服务商,当时的国际奥委会与阿里签署了长达12年的合作协议。
阿里云介绍称,修复是基于深度学习模型,结合了历史学家提供的专业知识,大模型可以理解色彩、光线和上下文,给影像上色时更加准确和真实。
当地时间 7 月 29 日,在美国丹佛举行的第 51 届 SIGGRAPH 图形大会上,英伟达创始人 CEO 黄仁勋和 Meta 创始人 CEO 马克·扎克伯格举行炉边谈话,两大科技巨头的 CEO 高峰对话,讨论人工智能和仿真模拟的未来。
这场对话一开始还算正常,黄仁勋热情洋溢地介绍了英伟达 GPU 的强大功能,扎克伯格则畅谈了他对 AI 聊天机器人的未来愿景。黄仁勋还称赞了 Meta 最新发布的开源大模型 Llama 3.1,他与扎克伯格都同意应坚持大模型应该继续遵循开源的路线。
但随后的访谈画风突变,在对谈接近尾声时,两人竟然互换了外套。
扎克伯格表示,他为黄仁勋准备了一件黑色皮革和羊毛皮外套,并建议黄仁勋搭配一条项链。而黄仁勋则送给了扎克伯格一件他刚穿了两小时的新皮夹克,称是妻子 Lori 为庆祝今年的 SIGGRAPH 大会给他买的。扎克伯格开玩笑地说:“这件衣服更值钱,因为它被穿过了。”