首个「中文大模型竞技场」Compass Arena上线，叫得上名字的国产大模型全员大PK-AI奇点网

首页 > 资讯 > 文章

2024-05-31 15:55

首个「中文大模型竞技场」Compass Arena上线，叫得上名字的国产大模型全员大PK

AI奇点网5月31日报道丨熟悉大模型的朋友都曾经听过这么一个网站——LMSYS Org推出的大模型竞技场Chatbot Arena，该网站目前已发展为海外最具公信力的大模型榜单之一，但遗憾的是，该竞赛榜单的中文水平含金量程度相对不足。

近日，上海人工智能实验室联合阿里魔搭社区（ModelScope）推出中国大语言模型评测竞技场Compass Arena，首度集齐国内开源大模型届豪强。

Compass Arena首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面、Minimax、深度求索、书生·浦语等等，共计20多款国产大模型出战，角逐中国大模型“最强王者”。

据介绍，相比考题固定的传统测评，由上海人工智能实验室打造的Compass Arena大模型竞技场采用盲测、开放的测评模式，可以更全面地检验模型实力。

Compass Arena设置了随机、匿名对战，大模型选手们成为“蒙面唱将”，模型信息隐去后，由系统随机匹配进行PK，用户可以天马行空自由出题，并作为评委主观评判和投票。如果大模型不小心“自报家门”，则对话被过滤，不计入成绩。通过成千上万轮PK挑战和用户投票，系统将对大模型进行自动排名。

AI奇点网了解到，Compass Arena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设，前者负责组织评测，后者负责开源模型引入及社区打造。据上海人工智能实验室OpenCompass团队介绍，Compass Arena力求体现社区用户的真实反馈，评测机制借鉴Chatbot Arena，采用Elo评分系统，即国际象棋等对弈活动评估的权威标准。

在这种模式下，大模型竞技类似“在游戏中打排位”，胜率成为评估模型水平的关键指标，同时随着排位变高，系统也会自动匹配高段位选手进行对战。

与海外的Chatbot Arena大模型竞技场相比，国产的Compass Arena更聚焦中文大模型，主流国产大模型全覆盖，同时评测用户大多使用中文，可以充分评估国产大模型的性能。

目前，Compass Arena已汇聚国内超过20款的商业及社区开源大模型，其中不乏来自BAT的大厂模型。包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等国内头部人工智能开发商的旗舰款大模型，并引入了海外的Llama3、Mixtral AI等海外标杆模型进行参照。

未来，更多模型及厂商还在不断加入中。

入选Compass Arena大模型竞技场的首批国产大模型名单如下：