ChatGPT、阿里通义等AI机器人参加今年高考出分:干翻90%考生,有一科全员不及格
6月19日,上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。
本次测试,选取了6款开源大模型以及公认的「地表最强」GPT-4o进行,考卷选择了「全国新课标I卷」。参与评测的所有开源模型,开源时间均早于今年的高考,成绩均由拥有高考评卷经验的老师进行人工阅卷评判。
让我们先看下都有哪些选手:
测评结果显示,通义千问Qwen2-72B、GPT-4o、书生·浦语2.0文曲星(InternLM2-20B-WQX)三款模型位列前三,得分率均超过70%。
大部分的AI模型在文字表达领域表现出彩,在语文、英语两个文科科目上表现良好,但是理科考核的数学科目,目前仍然是全员不及格,其中书生·浦语2.0文曲星(InternLM2-20B-WQX)得分为75.在所有参与测试的大模型当中最高,也超过GPT-4o的73分。
「语数英」三科加起来的总分为420分。
其中,阿里的通义千问Qwen2-72B拿到了303分,GPT-4o取得296分,书生·浦语2.0以0.5分之差屈居第三。而来自法国的“外来和尚”Mistral排名末尾,仅得到185分。
对此,我们也采访阅卷老师们,看看他们对大模型的表现进行的评价:
语文
大模型的现代文阅读理解能力普遍较强,但是不同的模型在文言文阅读理解的能力差距较大。
大模型作文更像问答题,虽然有针对性但缺乏修饰用词,几乎不存在人类考生常常使用的举例论证、引用论证、名人名言和人物素材等手法。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。汉语语言中的一些“潜台词”,大模型尚无法完全理解。
数学
大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强,但无法在解题过程中灵活引用。
英语
英语整体表现良好,但部分模型由于未经题型特训,在7选5、完形填空等题型得分率较低。
大模型的英语作文普遍存在因超出字数限制而扣分的情况,而人类考生往往不够字数。
写在最后
平心而论,一次高考试卷的测评,无法准确衡量大模型之间的水平差异。跳出测试结果本身,这次AI大模型参与正式的高考试题测评,有何实际意义?
更多的人觉得只是新鲜与好玩。但事实上,目前AI大模型取得的分数,已经干倒50%以上应届考生。
我以GPT-4o的分数为例,「语数英」三科满分420取得296.得分率达到70%。
那么本次测评未进行实测的文综/理综会拿到210分左右的分数。基本可以推断,GPT-4o参加高考全科目考试可以取得500+的分数。这也意味着,GPT-4o是可以摸到国内不少省份的一本线。
摸到一本线是什么水平?
通常全省应届高考生有10%可以进入一本院校,这意味着GPT-4o等AI大模型,在人类智力测评层面上已经超越了90%的应届考生。
人工智能可以不吃不喝不睡觉没有小脾气,只需提供电力支持就可以疯狂输出。
ChatGPT诞生还不足两年,英伟达已经成为了世界上市值第一的怪物。
各位读者家人们,细思密恐,想一想都肝颤。?