首页  >  测评  >  文章
2024-06-20 15:53

ChatGPT、阿里通义等AI机器人参加今年高考出分:干翻90%考生,有一科全员不及格

图片

6月19日,上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。

本次测试,选取了6款开源大模型以及公认的「地表最强」GPT-4o进行,考卷选择了「全国新课标I卷」。参与评测的所有开源模型,开源时间均早于今年的高考,成绩均由拥有高考评卷经验的老师进行人工阅卷评判。

图片

让我们先看下都有哪些选手:

  • GPT-4o:OpenAI在5月最新发布的旗舰大模型,多模态能力出众
  • Mixtral 8x22B:法国AI创业公司Mistral在4月17日发布的开源模型
  • Yi-1.5-34B:零一万物在5月12日开源的Yi-1.5系列模型
  • GLM-4-9B:智谱AI在6月开源的新一代GLM-4系列开源模型
  • InternLM2-20B-WQX:上海人工智能实验室在6月开源的书生·浦语2.0系列文曲星大模型
  • Qwen2-57B:阿里在6月开源的Qwen 2系列MoE大模型
  • Qwen2-72B:阿里在6月开源的72B稠密大模型

测评结果显示,通义千问Qwen2-72B、GPT-4o、书生·浦语2.0文曲星(InternLM2-20B-WQX)三款模型位列前三,得分率均超过70%。

图片

大部分的AI模型在文字表达领域表现出彩,在语文、英语两个文科科目上表现良好,但是理科考核的数学科目,目前仍然是全员不及格,其中书生·浦语2.0文曲星(InternLM2-20B-WQX)得分为75.在所有参与测试的大模型当中最高,也超过GPT-4o的73分。

「语数英」三科加起来的总分为420分。

其中,阿里的通义千问Qwen2-72B拿到了303分,GPT-4o取得296分,书生·浦语2.0以0.5分之差屈居第三。而来自法国的“外来和尚”Mistral排名末尾,仅得到185分。

图片

对此,我们也采访阅卷老师们,看看他们对大模型的表现进行的评价:

语文

大模型的现代文阅读理解能力普遍较强,但是不同的模型在文言文阅读理解的能力差距较大。

大模型作文更像问答题,虽然有针对性但缺乏修饰用词,几乎不存在人类考生常常使用的举例论证、引用论证、名人名言和人物素材等手法。

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。汉语语言中的一些“潜台词”,大模型尚无法完全理解。

数学

大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。

大模型的公式记忆能力较强,但无法在解题过程中灵活引用。

英语

英语整体表现良好,但部分模型由于未经题型特训,在7选5、完形填空等题型得分率较低。

大模型的英语作文普遍存在因超出字数限制而扣分的情况,而人类考生往往不够字数。

图片

写在最后

平心而论,一次高考试卷的测评,无法准确衡量大模型之间的水平差异。跳出测试结果本身,这次AI大模型参与正式的高考试题测评,有何实际意义?

更多的人觉得只是新鲜与好玩。但事实上,目前AI大模型取得的分数,已经干倒50%以上应届考生。

我以GPT-4o的分数为例,「语数英」三科满分420取得296.得分率达到70%。

那么本次测评未进行实测的文综/理综会拿到210分左右的分数。基本可以推断,GPT-4o参加高考全科目考试可以取得500+的分数。这也意味着,GPT-4o是可以摸到国内不少省份的一本线。

摸到一本线是什么水平?

通常全省应届高考生有10%可以进入一本院校,这意味着GPT-4o等AI大模型,在人类智力测评层面上已经超越了90%的应届考生。

人工智能可以不吃不喝不睡觉没有小脾气,只需提供电力支持就可以疯狂输出。

ChatGPT诞生还不足两年,英伟达已经成为了世界上市值第一的怪物。

各位读者家人们,细思密恐,想一想都肝颤。😂

8
查看相关话题: #AI高考 #AI测评 #AI大模型 #GPT-4o

相关文章