ChatGPT、阿里通义等AI机器人参加今年高考出分：干翻90%考生，有一科全员不及格-AI奇点网

首页 > 测评 > 文章

2024-06-20 15:53

ChatGPT、阿里通义等AI机器人参加今年高考出分：干翻90%考生，有一科全员不及格

6月19日，上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。

本次测试，选取了6款开源大模型以及公认的「地表最强」GPT-4o进行，考卷选择了「全国新课标I卷」。参与评测的所有开源模型，开源时间均早于今年的高考，成绩均由拥有高考评卷经验的老师进行人工阅卷评判。

让我们先看下都有哪些选手：

测评结果显示，通义千问Qwen2-72B、GPT-4o、书生·浦语2.0文曲星(InternLM2-20B-WQX)三款模型位列前三，得分率均超过70%。

大部分的AI模型在文字表达领域表现出彩，在语文、英语两个文科科目上表现良好，但是理科考核的数学科目，目前仍然是全员不及格，其中书生·浦语2.0文曲星(InternLM2-20B-WQX)得分为75.在所有参与测试的大模型当中最高，也超过GPT-4o的73分。

「语数英」三科加起来的总分为420分。

其中，阿里的通义千问Qwen2-72B拿到了303分，GPT-4o取得296分，书生·浦语2.0以0.5分之差屈居第三。而来自法国的“外来和尚”Mistral排名末尾，仅得到185分。

对此，我们也采访阅卷老师们，看看他们对大模型的表现进行的评价：

语文

大模型的现代文阅读理解能力普遍较强，但是不同的模型在文言文阅读理解的能力差距较大。

大模型作文更像问答题，虽然有针对性但缺乏修饰用词，几乎不存在人类考生常常使用的举例论证、引用论证、名人名言和人物素材等手法。

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。汉语语言中的一些“潜台词”，大模型尚无法完全理解。

数学

大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。

大模型的公式记忆能力较强，但无法在解题过程中灵活引用。

英语

英语整体表现良好，但部分模型由于未经题型特训，在7选5、完形填空等题型得分率较低。

大模型的英语作文普遍存在因超出字数限制而扣分的情况，而人类考生往往不够字数。

写在最后

平心而论，一次高考试卷的测评，无法准确衡量大模型之间的水平差异。跳出测试结果本身，这次AI大模型参与正式的高考试题测评，有何实际意义?

更多的人觉得只是新鲜与好玩。但事实上，目前AI大模型取得的分数，已经干倒50%以上应届考生。

我以GPT-4o的分数为例，「语数英」三科满分420取得296.得分率达到70%。

那么本次测评未进行实测的文综/理综会拿到210分左右的分数。基本可以推断，GPT-4o参加高考全科目考试可以取得500+的分数。这也意味着，GPT-4o是可以摸到国内不少省份的一本线。

摸到一本线是什么水平？

通常全省应届高考生有10%可以进入一本院校，这意味着GPT-4o等AI大模型，在人类智力测评层面上已经超越了90%的应届考生。

人工智能可以不吃不喝不睡觉没有小脾气，只需提供电力支持就可以疯狂输出。

ChatGPT诞生还不足两年，英伟达已经成为了世界上市值第一的怪物。

各位读者家人们，细思密恐，想一想都肝颤。😂

查看相关话题： #AI高考 #AI测评 #AI大模型 #GPT-4o

AI奇点网打杂的

作者已发布 611 篇文章

近期文章

OpenAI开发CriticGPT模型为GPT输出内容纠错丨荣耀与豆包大模型合作丨知乎推出AI搜索产品「知乎直答」

百度发布文心大模型4.0 Turbo，即日起可在文心一言平台使用

华为昇腾AI训练，听懂37种方言：科大讯飞发布纯血国产星火大模型V4.0，整体超越GPT-4 Turbo

超详细stable diffusion3深度测评丨对比Midjourney使用情况分析

GPT-4o或将被超越丨Claude 3.5深夜发布，附最新体验分享