OpenAI正式发布新一代模型o3丨GPT-5「难产」,训练成果不及预期丨支付宝上线AI内容创意生成平台“蚂上有创意”
AI奇点网2024年12月23日报道丨AI资讯早报
当地时间12月20日,OpenAI 结束了连续 12 个工作日的“超长”新品发布会,在收官发布活动上重磅推出 o3 系列模型。
此次发布的的 o3 系列模型是 o1 的迭代版本,不知道是为了避免与英国电信运营商 O2 出现商标纠纷,还是迭代进步太大,总之 OpenAI 决定跳过「o2」命名,直接采用「o3」。
OpenAI o3 系列包含两款大模型:
据官方介绍,o3 在多领域迎来全面提升:
在 SweepBench Verified 基准测试中,o3 达到了约 71.7% 的准确率,直接将 o1 模型甩在身后整整 20% 之多。
AI 编码领域,o1 在编程竞赛平台 Codeforces 上的得分为 1.891,而 o3 在开足马力延长思考时间的情况下,得分可达 2.727。
在美国数学竞赛 AIME 2024 测试中,o3 以 90.67% 的准确率完全碾压了 o1 的 83.3%。
遇上衡量博士级科学问题解答能力的 GPQA Diamond 测试,o3 取得了 87.7% 的成绩,而 o1 仅为 78%。
OpenAI 还引入了一个全新的数学测试基准题库 EpochAI Frontier Math。目前,所有现有模型在该测试上的准确率都不足 2%,而在高算力的长时间测试下,o3 却能取得超过 2.457 的分数。
评估 AI 系统推理能力的基准 ARC-AGI 方面,o3 在低算力的配置下得分为 75.7 分。当要求 o3 思考更长时间,并且提高算力,o3 在相同的隐藏保留集上得分 87.5%,远超大多数的真人能力。
另外,占用资源更少的版本 o1 mini 的延续之作 o3 mini 也一同亮相。保留了 o1 mini 「具有很强的数学和编程能力,而且成本极低」的特征。
据官方介绍,o3 mini 支持低、中、高三种推理时间模式,用户可根据任务复杂度灵活调整模型的思考时间。从首批评估结果来看,在衡量编程能力的 Codeforces Elo 评分中,随着推理时间的增加,其 Elo 分数持续攀升,在中等推理时间下就已超越 o1 mini。
近日,据华尔街日报报道,OpenAI 的 GPT-5 进度出现落后,并且将不能按时发布。
和此前爆料一致,代号为猎户座(Orion)的 GPT-5 开发周期已经超过 18 个月。OpenAI 「金主」微软本来预计它能在 2024 年中发布,但结果显而易见,GPT-5 已经「难产」。
据悉,OpenAI 给 GPT-5 设定的目标不低,Orion 至少试了两轮大规模训练,但效果都未达预期,成品只是比现在的产品是强了点,但投入产出比极低,据估计,六个月的训练运行就要烧掉大约 5 亿美元。
2023 年年中,OpenAI 启动了代号为「Arrakis」的测试项目,旨在验证 Orion 新设计的有效性和可行性,测试过程成本过高。2024 年初,OpenAI 决定开始新一轮尝试。5 月,研究团队认为时机成熟,启动了一项预计持续到 11 月的大规模训练。但训练中出现数据多样性不足的问题。
此后,OpenAI 另辟蹊径,专门招聘软件工程师和数学家写代码、解数学题来为 Orion 提供学习材料,并详细记录解决问题的思维过程。同时寻求专家合作以及用推理模型 o1 生成合成数据,并结合传统数据来不断改进模型生成结果。
目前,迫于研发进度的延缓,OpenAI 开始将注意力转向其他项目,包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露,这也导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。
近日,多家权威的国际媒体报道称,苹果所推出的 Apple Intelligence 频繁出错,甚至以误导用户的方式推送虚假信息。
12 月 19 日 BBC 报道称,苹果 Apple Intelligence 的 AI 通知总结功能,在推送本月初的美国联合健康保险公司 CEO 布莱恩·汤普森于纽约街头遭枪杀一事,竟然将新闻提取总结成「枪手本人对自己开枪」,并且加上了「BBC新闻客户端」来源的形式向苹果用户进行推送。BBC 方面表示非常不能接受,用户在查看 Apple Intelligence 在推送错误消息时会误认为 BBC 发布。
除此之外,11 月 21 日,Apple Intelligence 还试图将纽约时报的三篇文章整合在一起,总结出了「以色列总理内塔尼亚胡被逮捕」的信息,并以「纽约时报客户端」形式推送给用户。而这篇推送其实是根据「国际刑事法院对内塔尼亚胡发出逮捕令」的报道生成。
近日,支付宝推出 AI 创意生成平台「蚂上有创意」,将面向商家机构提供 AI 快速生成创意素材、营销广告智能分析等营销服务。
据官方介绍,在 AI 技术的加持下,「蚂上有创意」支持用口语描述就能快速生成海报、Banner、视频等内容,也支持 AI 图片优化、线稿上色、艺术字生成等功能,平台还将提供 AI 创意洞察的智能服务。商家上传营销物料后,支付宝的创意诊断模型便会对物料进行分析评估并给出优化建议,帮助商家提高投放转化率。
据悉,过去一年支付宝将 AI 全面应用于商业开放生态,共接入近 70 个业务场景,累计为生态商家机构生成 8700 万张 AI 素材。此次推出的「蚂上有创意」,则面向所有商家机构及设计师群体开放,聚焦于用 AI 让商业营销更简单。
体验地址:https://idesign.alipay.com/home
12月23日投资圈放出消息,国产 AI 大模型独角兽企业阶跃星辰已于近日完成B轮融资,总融资金额达数亿美元。
此次融资有国资、战略和财务投资人等多家参与,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。
据了解,这笔融资将用于继续投入基础模型研发,强化多模态和复杂推理能力,并通过产品和生态加大覆盖C端应用场景,提供丰富的用户体验。
在11月19日发布的LiveBench测评榜单中,阶跃星辰自研的万亿参数语言大模型Step-2位列国产基座大模型的第一名,仅次于OpenAI o1和Claude 3.5;11月22日发布于的大模型竞技场LMSYS Chatbot Arena榜单显示,阶跃星⾠的多模态理解⼤模型Step-1V位列视觉领域中国大模型第一。
2024年下半年,阶跃星⾠多模态大模型 API 调用量环比提高了 47 倍。自研产品的布局上,阶跃星辰已推出智能助手“跃问”,以及基于自研视觉理解模型的多模态智能视觉搜索功能“拍照问”,成为国内首个支持集成在 iPhone 16 系列手机的相机控制键中的大模型应用功能。
除此之外,阶跃星辰还与上海报业旗下界⾯、财联社联合创办⼤模型科技公司“财跃星⾠”,发布了⾦融行业垂直大模型 Finstep 和私⼈财富助理APP “⼩财神”;在智能终端领域,成为荣耀手机和OPPO手机等头部手机厂商的大模型技术合作方。