阿里云发布通义千问2.5大模型:号称多项能力赶超GPT-4,发布开源模型Qwen1.5-110B
AI奇点网5月9日报道丨今天上午举行的阿里云 AI 智领者峰会-北京站活动中,阿里云对外发布了新版的通义千问大模型,V2.5版本大模型正式发布,在发布会上宣称,该版大模型的多项能力赶超了GPT-4。
据阿里云官方介绍,通义大模型通过阿里云服务企业超 9 万,通义开源模型累计下载量突破 700 万。通义落地应用进程加速,现已进入 PC、手机、汽车等领域。
在活动现场,阿里云正式发布通义千问 2.5,号称“能力升级,全面赶超 GPT-4”,在中文语境下,文本理解、文本生成、知识问答 & 生活建议、闲聊 & 对话和安全风险等多项能力上赶超 GPT-4。
相比此前的通义千问2.1版,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力更是持续领先业界。根据权威基准OpenCompass的测评结果,通义千问2.5得分追平GPT-4 Turbo,是该基准首次录得国产大模型取得如此佳绩。
同时,通义千问最新开源的 1100 亿参数模型在多个基准测评收获最佳成绩,超越 Meta 的 Llama-3-70B,宣布成为“开源领域最强大模型”。
去年8月,通义宣布加入开源行列,随之启动马不停蹄的开源狂飙,沿着“全模态、全尺寸”开源路线陆续推出十多款模型。目前,通义开源模型下载量已经超过700万。
大模型的训练和迭代成本极高,绝大部分的AI开发者和中小企业都无法负担。Meta、阿里云等推动的大模型开源风潮,让开发者不必从头训练模型,还把模型选型的主动权交给了开发者,大大加速了大模型的应用落地进程。
除了通义千问2.5的发布,通义还推出了最新款开源模型Qwen1.5-110B。
这款拥有1100亿参数的模型在MMLU、TheoremQA、GPQA等基准测评中均表现出色,成功超越了Meta的Llama-3-70B模型。
在开源社区网站Hugging Face推出的开源大模型排行榜Open LLM Leaderboard排行榜上,阿里的Qwen1.5-110B更是荣登榜首,进一步巩固了通义开源系列大模型在业界的领先地位。
通义的多模态模型和专有能力模型同样令人瞩目。其中,通义千问视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越了Gemini Ultra和GPT-4V,其强大的视觉理解能力已经在实际应用中得到了广泛验证。
通义千问代码大模型CodeQwen1.5-7B则是HuggingFace代码模型榜单Big Code的头名选手,展现了其在代码生成和代码理解方面的卓越能力。