OpenAI正式发布新一代模型o3丨GPT-5「难产」，训练成果不及预期丨支付宝上线AI内容创意生成平台“蚂上有创意”-AI奇点网

首页 > 资讯 > 文章

2024-12-23 10:05

OpenAI正式发布新一代模型o3丨GPT-5「难产」，训练成果不及预期丨支付宝上线AI内容创意生成平台“蚂上有创意”

AI奇点网2024年12月23日报道丨AI资讯早报

超越OpenAI的只有自己，OpenAI正式发布新一代模型o3

当地时间12月20日，OpenAI 结束了连续 12 个工作日的“超长”新品发布会，在收官发布活动上重磅推出 o3 系列模型。

此次发布的的 o3 系列模型是 o1 的迭代版本，不知道是为了避免与英国电信运营商 O2 出现商标纠纷，还是迭代进步太大，总之 OpenAI 决定跳过「o2」命名，直接采用「o3」。

OpenAI o3 系列包含两款大模型：

OpenAI o3 标准版：旗舰版本，具备强大的性能表现
OpenAI o3 mini：轻量级模型，但能更快，更便宜，主打性价比

据官方介绍，o3 在多领域迎来全面提升：

在 SweepBench Verified 基准测试中，o3 达到了约 71.7% 的准确率，直接将 o1 模型甩在身后整整 20% 之多。

AI 编码领域，o1 在编程竞赛平台 Codeforces 上的得分为 1.891，而 o3 在开足马力延长思考时间的情况下，得分可达 2.727。

在美国数学竞赛 AIME 2024 测试中，o3 以 90.67% 的准确率完全碾压了 o1 的 83.3%。

遇上衡量博士级科学问题解答能力的 GPQA Diamond 测试，o3 取得了 87.7% 的成绩，而 o1 仅为 78%。

OpenAI 还引入了一个全新的数学测试基准题库 EpochAI Frontier Math。目前，所有现有模型在该测试上的准确率都不足 2%，而在高算力的长时间测试下，o3 却能取得超过 2.457 的分数。

评估 AI 系统推理能力的基准 ARC-AGI 方面，o3 在低算力的配置下得分为 75.7 分。当要求 o3 思考更长时间，并且提高算力，o3 在相同的隐藏保留集上得分 87.5%，远超大多数的真人能力。

另外，占用资源更少的版本 o1 mini 的延续之作 o3 mini 也一同亮相。保留了 o1 mini 「具有很强的数学和编程能力，而且成本极低」的特征。

据官方介绍，o3 mini 支持低、中、高三种推理时间模式，用户可根据任务复杂度灵活调整模型的思考时间。从首批评估结果来看，在衡量编程能力的 Codeforces Elo 评分中，随着推理时间的增加，其 Elo 分数持续攀升，在中等推理时间下就已超越 o1 mini。

GPT-5「难产」，训练成果不及预期

近日，据华尔街日报报道，OpenAI 的 GPT-5 进度出现落后，并且将不能按时发布。

和此前爆料一致，代号为猎户座（Orion）的 GPT-5 开发周期已经超过 18 个月。OpenAI 「金主」微软本来预计它能在 2024 年中发布，但结果显而易见，GPT-5 已经「难产」。

据悉，OpenAI 给 GPT-5 设定的目标不低，Orion 至少试了两轮大规模训练，但效果都未达预期，成品只是比现在的产品是强了点，但投入产出比极低，据估计，六个月的训练运行就要烧掉大约 5 亿美元。

2023 年年中，OpenAI 启动了代号为「Arrakis」的测试项目，旨在验证 Orion 新设计的有效性和可行性，测试过程成本过高。2024 年初，OpenAI 决定开始新一轮尝试。5 月，研究团队认为时机成熟，启动了一项预计持续到 11 月的大规模训练。但训练中出现数据多样性不足的问题。

此后，OpenAI 另辟蹊径，专门招聘软件工程师和数学家写代码、解数学题来为 Orion 提供学习材料，并详细记录解决问题的思维过程。同时寻求专家合作以及用推理模型 o1 生成合成数据，并结合传统数据来不断改进模型生成结果。

目前，迫于研发进度的延缓，OpenAI 开始将注意力转向其他项目，包括开发 GPT-4 的各种版本和 Sora 等。知情人士透露，这也导致开发新产品的团队和 Orion 研究人员之间为争夺有限的计算资源打得不可开交。

「Apple智能」AI总结新闻总出错

近日，多家权威的国际媒体报道称，苹果所推出的 Apple Intelligence 频繁出错，甚至以误导用户的方式推送虚假信息。

12 月 19 日 BBC 报道称，苹果 Apple Intelligence 的 AI 通知总结功能，在推送本月初的美国联合健康保险公司 CEO 布莱恩·汤普森于纽约街头遭枪杀一事，竟然将新闻提取总结成「枪手本人对自己开枪」，并且加上了「BBC新闻客户端」来源的形式向苹果用户进行推送。BBC 方面表示非常不能接受，用户在查看 Apple Intelligence 在推送错误消息时会误认为 BBC 发布。

除此之外，11 月 21 日，Apple Intelligence 还试图将纽约时报的三篇文章整合在一起，总结出了「以色列总理内塔尼亚胡被逮捕」的信息，并以「纽约时报客户端」形式推送给用户。而这篇推送其实是根据「国际刑事法院对内塔尼亚胡发出逮捕令」的报道生成。

支付宝发布AI内容创意生成平台：蚂上有创意

近日，支付宝推出 AI 创意生成平台「蚂上有创意」，将面向商家机构提供 AI 快速生成创意素材、营销广告智能分析等营销服务。

据官方介绍，在 AI 技术的加持下，「蚂上有创意」支持用口语描述就能快速生成海报、Banner、视频等内容，也支持 AI 图片优化、线稿上色、艺术字生成等功能，平台还将提供 AI 创意洞察的智能服务。商家上传营销物料后，支付宝的创意诊断模型便会对物料进行分析评估并给出优化建议，帮助商家提高投放转化率。

据悉，过去一年支付宝将 AI 全面应用于商业开放生态，共接入近 70 个业务场景，累计为生态商家机构生成 8700 万张 AI 素材。此次推出的「蚂上有创意」，则面向所有商家机构及设计师群体开放，聚焦于用 AI 让商业营销更简单。

体验地址：https://idesign.alipay.com/home

阶跃星辰完成数亿美元B轮融资

12月23日投资圈放出消息，国产 AI 大模型独角兽企业阶跃星辰已于近日完成B轮融资，总融资金额达数亿美元。

此次融资有国资、战略和财务投资人等多家参与，核心投资方包括上海国有资本投资有限公司及其旗下基金，战略和财务投资人包括腾讯投资、五源资本、启明创投等。

据了解，这笔融资将用于继续投入基础模型研发，强化多模态和复杂推理能力，并通过产品和生态加大覆盖C端应用场景，提供丰富的用户体验。

在11月19日发布的LiveBench测评榜单中，阶跃星辰自研的万亿参数语言大模型Step-2位列国产基座大模型的第一名，仅次于OpenAI o1和Claude 3.5；11月22日发布于的大模型竞技场LMSYS Chatbot Arena榜单显示，阶跃星⾠的多模态理解⼤模型Step-1V位列视觉领域中国大模型第一。

2024年下半年，阶跃星⾠多模态大模型 API 调用量环比提高了 47 倍。自研产品的布局上，阶跃星辰已推出智能助手“跃问”，以及基于自研视觉理解模型的多模态智能视觉搜索功能“拍照问”，成为国内首个支持集成在 iPhone 16 系列手机的相机控制键中的大模型应用功能。

除此之外，阶跃星辰还与上海报业旗下界⾯、财联社联合创办⼤模型科技公司“财跃星⾠”，发布了⾦融行业垂直大模型 Finstep 和私⼈财富助理APP “⼩财神”；在智能终端领域，成为荣耀手机和OPPO手机等头部手机厂商的大模型技术合作方。