集体降智！一道人人都会的小学算术题竟然难倒全球AI大模型-AI奇点网

首页 > 资讯 > 文章

2024-07-16 17:37

集体降智！一道人人都会的小学算术题竟然难倒全球AI大模型

以下文章节选自丨量子位

屏幕前的家人们，你们说，「9.11」和「9.9」哪个数字大？🔢

这么小儿科的问题，居然把号称“大学生IQ”的AI大模型给难倒了。

比如，行业智商标杆的GPT-4o就坚定认为「9.11」更大。

付费的谷歌Gemini Advanced也是同样的口径。

将ChatGPT掀翻在地的死对头Claude 3.5 Sonnet，还一本正经地给出了离谱的计算方法。

总之，「9.11比9.9大」。❎

简直要怀疑全世界的AI联合起来忽悠人类了。

难道是这道题目的个体问题？

有网友换了一组对比数字，将「9」换成「13」，GPT-4o依旧翻车…

这时候有网友恍然大悟，似乎发现了“华点”——如果说数字被辨识为「软件版本号」，那么V9.11确实要比V9.9的版本更新。

而联想到，AI大模型都是软件工程师开发的，所以…？😂

这到底是怎么一回事啊？！

最先揭露这个情况的是人工智能创业公司Scale AI的提示词工程师Riley Goodside。

最近他在使用GPT-4o时偶然发现，GPT-4o竟然始终无法分辨9.11与9.9的大小。

他不死心，又去测试了其他的知名大模型，几乎全军覆没。

当他将这个发现发到网上时，有网友尝试将这组数字的提问调换词序，没想到AI大模型竟然光速反应过来了。

面对这种窘境，其他闻讯而来的网友纷纷开启自己的测试。

目前可以确信，在开发商未更新AI大模型版本之前，只要将对比的小数额放在提示词之前列，大模型均会回答错误。

那么，带着疑问，让我们看看国产大模型表现如何呢?

我们选择了几个代表性的AI机器人——

月之暗面的Kimi不假思索地快速给出错误答案。

智谱AI的ChatGLM大模型自动触发了联网查询，然后很啰嗦地描述了自己的比较方法，可惜输出结果依然错误。❎

不过并非每一家的AI都会算错。

比如「腾讯元宝」直接做对。

字节的豆包则是少数能逻辑清晰地阐述理由的大模型，甚至还提出了实际的案例来佐证。

再看国内搜索老大哥百度的文心一言，面对这个问题默认触发联网查询。

本来计算过程完全正确，无奈联网检索后光速被网络信息误导，话锋一转直接给出错误结论。

不过，很有意义的是，通过文心一言的解题思路，我们可以一窥大模型的思考逻辑，发现背后问题所在。

首先，AI大模型普遍是以字节Token读取的方式来理解一段文字。

例如本案，当「9.11」这个数值被拆成「9」、「小数点」与「11」三部分分别理解时，「11」确实比「9」大。

由于OpenAI给ChatGPT部署的Tokens提取器是Tokenizer，这是一个开源产品，因此我们可以很容易揭露问题。

上图可以看出，「9.11」和「9.9」这两个数值都包含「9」和「小数点」这两个要素，它们被分配的标识码分别为“24”和“13”，而「11」则被单独分配到“994”。

这种类似于“打包”合并同类项的提取字的方法，最大优势便是节约运算资源。

然而只要是使用了Tokenizer提取字节方法的大模型都会认定「9.11」比「9.9」更大，其实是认为「11」>「9」。

问题恰恰就出在这个提取机制上。

还有网友指出其他的看法，在实际生活中有很多案例是「9.11」>「9.9」。

比如，📚书籍目录的9.11章节的确是大于9.9章节。

所以最终还可能是大模型的训练数据集里边包含了书籍章节信息，反而是人类手把手教AI学基础算数的数据量很少。

总而言之，AI就是有点“愣”，人类不教它不会。🤖

但是很快也有网友发现，在提示词里边，你只需要向AI解释清楚——「9.11」和「9.9」都是双精度浮点数，这道神奇的“难题”就可以轻松做对了。

这是为什么呢?

很简单，在有限的计算资源里边，Tokenizer字节提取器会优先将“双精度浮点数”这个关键词标记出来，大模型在「后续自注意力机制」的作用下，AI就会自觉将「9.11」与“双精度浮点数”串联起来理解，从而了解到这两个比较数其实都是纯数值。

说到底，AI只是“愣”，它并不傻，脑子不会拐弯。🧠

然而许多行业领先的大模型都会告诉你「9.11」>「9.9」，这个设计逻辑就很奇怪。

在主流大模型未迭代之前，想让AI“上当”，只需要将更小的那个数值放在比较级的前边，如果调换顺序则不会出错。

综上，AI很牛，但最鸡贼的依然是人类。

3

查看相关话题： #AI大模型 #AI测评

相关文章

AI奇点网打杂的

作者已发布 647 篇文章

近期文章

更多

OpenAI发布「SearchGPT」AI搜索服务丨OpenAI今年全年亏损将达到50亿美元丨百川智能完成新一轮50亿元融资

OpenAI发布「SearchGPT」AI搜索服务丨OpenAI今年全年亏损将达到50亿美元丨百川智能完成新一轮50亿元融资

快手「可灵AI」全面开放内测，国际版上线丨Mistral发布1230亿Large 2旗舰模型丨OpenAI免费提供GPT-4o微调

快手「可灵AI」全面开放内测，国际版上线丨Mistral发布1230亿Large 2旗舰模型丨OpenAI免费提供GPT-4o微调

Meta发布Llama 3.1开源大模型丨巴黎奥运会与阿里通义达成AI技术合作丨马斯克完成全球最强AI算力集群

Meta发布Llama 3.1开源大模型丨巴黎奥运会与阿里通义达成AI技术合作丨马斯克完成全球最强AI算力集群

9.11和9.9哪个大？几个大模型集体失智丨实测国内外大模型基础算法

上一篇

苹果等大厂长期使用YouTube视频内容训练AI大模型丨魅族发布「魅蓝20」AI手机丨微软发现破解大模型的“万能钥匙”

下一篇