集体降智!一道人人都会的小学算术题竟然难倒全球AI大模型
以下文章节选自丨量子位
屏幕前的家人们,你们说,「9.11」和「9.9」哪个数字大??
这么小儿科的问题,居然把号称“大学生IQ”的AI大模型给难倒了。
比如,行业智商标杆的GPT-4o就坚定认为「9.11」更大。
付费的谷歌Gemini Advanced也是同样的口径。
将ChatGPT掀翻在地的死对头Claude 3.5 Sonnet,还一本正经地给出了离谱的计算方法。
总之,「9.11比9.9大」。❎
简直要怀疑全世界的AI联合起来忽悠人类了。
难道是这道题目的个体问题?
有网友换了一组对比数字,将「9」换成「13」,GPT-4o依旧翻车…
这时候有网友恍然大悟,似乎发现了“华点”——如果说数字被辨识为「软件版本号」,那么V9.11确实要比V9.9的版本更新。
而联想到,AI大模型都是软件工程师开发的,所以…??
这到底是怎么一回事啊?!
最先揭露这个情况的是人工智能创业公司Scale AI的提示词工程师Riley Goodside。
最近他在使用GPT-4o时偶然发现,GPT-4o竟然始终无法分辨9.11与9.9的大小。
他不死心,又去测试了其他的知名大模型,几乎全军覆没。
当他将这个发现发到网上时,有网友尝试将这组数字的提问调换词序,没想到AI大模型竟然光速反应过来了。
面对这种窘境,其他闻讯而来的网友纷纷开启自己的测试。
目前可以确信,在开发商未更新AI大模型版本之前,只要将对比的小数额放在提示词之前列,大模型均会回答错误。
那么,带着疑问,让我们看看国产大模型表现如何呢?
我们选择了几个代表性的AI机器人——
月之暗面的Kimi不假思索地快速给出错误答案。
智谱AI的ChatGLM大模型自动触发了联网查询,然后很啰嗦地描述了自己的比较方法,可惜输出结果依然错误。❎
不过并非每一家的AI都会算错。
比如「腾讯元宝」直接做对。
字节的豆包则是少数能逻辑清晰地阐述理由的大模型,甚至还提出了实际的案例来佐证。
再看国内搜索老大哥百度的文心一言,面对这个问题默认触发联网查询。
本来计算过程完全正确,无奈联网检索后光速被网络信息误导,话锋一转直接给出错误结论。
不过,很有意义的是,通过文心一言的解题思路,我们可以一窥大模型的思考逻辑,发现背后问题所在。
首先,AI大模型普遍是以字节Token读取的方式来理解一段文字。
例如本案,当「9.11」这个数值被拆成「9」、「小数点」与「11」三部分分别理解时,「11」确实比「9」大。
由于OpenAI给ChatGPT部署的Tokens提取器是Tokenizer,这是一个开源产品,因此我们可以很容易揭露问题。
上图可以看出,「9.11」和「9.9」这两个数值都包含「9」和「小数点」这两个要素,它们被分配的标识码分别为“24”和“13”,而「11」则被单独分配到“994”。
这种类似于“打包”合并同类项的提取字的方法,最大优势便是节约运算资源。
然而只要是使用了Tokenizer提取字节方法的大模型都会认定「9.11」比「9.9」更大,其实是认为「11」>「9」。
问题恰恰就出在这个提取机制上。
还有网友指出其他的看法,在实际生活中有很多案例是「9.11」>「9.9」。
比如,?书籍目录的9.11章节的确是大于9.9章节。
所以最终还可能是大模型的训练数据集里边包含了书籍章节信息,反而是人类手把手教AI学基础算数的数据量很少。
总而言之,AI就是有点“愣”,人类不教它不会。?
但是很快也有网友发现,在提示词里边,你只需要向AI解释清楚——「9.11」和「9.9」都是双精度浮点数,这道神奇的“难题”就可以轻松做对了。
这是为什么呢?
很简单,在有限的计算资源里边,Tokenizer字节提取器会优先将“双精度浮点数”这个关键词标记出来,大模型在「后续自注意力机制」的作用下,AI就会自觉将「9.11」与“双精度浮点数”串联起来理解,从而了解到这两个比较数其实都是纯数值。
说到底,AI只是“愣”,它并不傻,脑子不会拐弯。?
然而许多行业领先的大模型都会告诉你「9.11」>「9.9」,这个设计逻辑就很奇怪。
在主流大模型未迭代之前,想让AI“上当”,只需要将更小的那个数值放在比较级的前边,如果调换顺序则不会出错。
综上,AI很牛,但最鸡贼的依然是人类。