OpenAI奥特曼扮演“谜语人”疯狂预热新模型：神秘大模型「gpt2」火爆内测，传闻5月10日凌晨正式上线-AI奇点网

首页 > 资讯 > 文章

2024-05-09 12:04

OpenAI奥特曼扮演“谜语人”疯狂预热新模型：神秘大模型「gpt2」火爆内测，传闻5月10日凌晨正式上线

最近的这一周，OpenAI正在秘密[A/B]对照组测试下一代大模型，实力超强，甚至被一部分网友怀疑是所谓的「GPT-4.5」，甚至是「GPT-5」。

就在奥特曼在推特（X）平台上频频发文当“谜语人”暗示之后，两款新模型悄悄上线大模型竞技场。

① Im-a-good-gpt2-chatbot

② Im-also-a-good-gpt2-chatbot

第一组对比提示词：画一个自由女神像。

GPT-4 Turbo是左边的结果输出，gpt2-chatbot是右边的结果输出，一目了然「gpt2」明显更胜一筹。

此前一款名为「gpt2-chatbot」的超强模型仅仅上线一天，热情的网友就把服务器挤爆了。

更多的网友们在听说此事后，已经纷纷前去测试，一探它们的底细了。

代码能力突出

和第一次露面有所不同，如今想要在大模型竞技场里边碰上「gpt2」，只能碰运气。有的人运气好，试了抽卡了5次就成功让这俩模型battle了一局。

结合几个示例来看，im-also-a-good-gpt2-chatbot生成的回答似乎总是更简洁一些。

代码生成方面，它能一次生成一个可执行的游戏代码。

提示词：Code Flappy Bird game in Python

效果如下：

如果回答的代码有误，可以进一步追问让它自己改正。

比如让它们写一个康威生命游戏的代码，在未告知使用Colab时，模型写出的代码有问题。

但继续追问并表示自己用的是Colab，im-also-a-good-gpt2-chatbot能够自己修改对代码，im-a-good-gpt2-chatbot不行。

还有在解决物理题方面，有Reddit用户说，im-also-a-good-gpt2-chatbot能解答出其他模型都答不对的特难物理题目。

比如这道题：

绿灯侠从一栋高楼楼顶跳下，他从静止状态开始做自由落体运动到地面，在他下落过程的最后一秒时，距离地面的距离是大楼一半的高度，这座楼有多高？

不过我们实测了下，im-a-good-gpt2-chatbot似乎也能做对。

还有人测试了一道推理题目，im-a-good-gpt2-chatbot可回答正确，im-also-a-good-gpt2-chatbot也能做到，但需要两次提示。

提问：现在有两个足球队。球队A赢了8次，球队B赢了5次，已知还剩7次比赛，球队B想要赢得整场比赛，还需要至少赢几次?

网友质疑：这是在白嫖大家反馈吗？

尽管OpenAI还是没有正式认领「gpt2-chatbot」，但网友几乎已经默认它们是一家了。因此有人觉得，「gpt2-chatbot」在竞技场上搞A/B测试，这不是让大家免费给他当志愿者。

OpenAI想要对内部模型进行人工评估，应该付给测试人员报酬，而不是在免费社区做。

有人觉得他们这么做，就是为了新模型准备上线而做的炒热度。

但现在gpt2-chatbot的底层模型到底是啥还不确定。

有人直接问了gpt2-chatbot，但可能存在幻觉，它表示自己基于GPT-4架构，是GPT-4.5的变体。

但之前奥特曼在公开演讲中已经否定了。测试网友表示自己没有给出过GPT-4.5相关的提示内容。

也有人怀疑，这两个模型大小不一样，叫这个名字是不是因为采用了GPT-2的架构来训练模型。

这和单纯的MoE不同，它们使用了「Q*」、合成数据，Sam的推特编辑历史是不是暗示了这一点？

值得一提的是，最近有大V爆料称，本周OpenAI将公布进军搜索引擎的消息。

OpenAI已经更新了网站主页，第一个轮番页是一个搜索框上面写着“向ChatGPT问任何事情”。

爆料说，这次新模式的发布时间会在北京时间本周五（5月10日）的凌晨2点。

总之，最近OpenAI的各种动向，都带着某种神秘感。

4

查看相关话题： #AI大模型 #OpenAI

相关文章

知名AI科技媒体

作者已发布 131 篇文章

近期文章

更多

OpenAI满血版o1剧透：数学代码能力再破天花板，已开启测试评估

OpenAI满血版o1剧透：数学代码能力再破天花板，已开启测试评估

「国产Sora」最新升级！《沙丘》级大片视效，人人都能免费体验

「国产Sora」最新升级！《沙丘》级大片视效，人人都能免费体验

我们用豆包视频大模型，生成了AI版的《红楼梦》MV

我们用豆包视频大模型，生成了AI版的《红楼梦》MV

里程碑式突破！谷歌重磅发布AlphaFold 3蛋白质推理大模型，增强人类发现新药方法！

上一篇

阿里云发布通义千问2.5大模型：号称多项能力赶超GPT-4，发布开源模型Qwen1.5-110B

下一篇