国产大模型最新横评:百度文心一言5大维度21项小类测评第一,依然是国产老大
AI奇点网3月27日报道丨近日,全球增长咨询公司弗若斯特·沙利文发布了《2024年中国大模型能力评测》,这份测评报告显示,百度文心一言稳居国产大模型首位,拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一。
当下正值文心一言发布一周年,从去年3月文心一言发布到如今的文心大模型4.0版本,文心一言的迅猛成长,这不仅代表的是搜索平台、工具的迭代升级,更是人们对信息获取、理解和应用的一次全面革新。
文心一言的各方面能力,依然是国产大模型一哥,地位牢不可破。在领先优势方面,不仅仅是大模型的推理能力,还有产品运营层面的综合稳定考核。据媒体报道,苹果公司已经选定了百度文心大模型作为下一代iOS与macOS操作系统内置AI功能的服务商。
国行iPhone搭载文心一言!百度将为苹果国行iPhone/iPad/Mac提供AI功能
根据接近百度方面的知情人士透露,苹果CEO库克近日的「中国行」,已经确定将与百度公司签订合作协议。
《2024年中国⼤模型能⼒评测》对国内主流的15个大模型进行了横评,从而将中国大模型分成了三个梯队。如下图所示,百度、腾讯、阿里等互联网大厂旗下大模型位于第一梯队,综合表现更为优异。其中,文心一言能力最为全面,五项评测维度均为优势能力,并取得四项第一。
测评主打一个全面综合,维度包括通用基础能力和专业应用能力两大方面。
具体来说,通用基础能力重点评估⼤模型在语言理解、知识储备、道德风险控制等方面的表现,以揭示其在自然语言理解和交互水平上的能力。而专业应用能力则着重检验⼤模型在实际应用中的效能与价值,通过考察其在任务规划、超长文本处理、行业内容生成等方面的表现,以衡量⼤模型在不同应用场景下的实际价值产出能力。
报告显示,文心一言在通⽤基础能⼒评测中超越部分国际大模型,能够精确解析⽂本、捕捉语义,并⽣成符合语法和语境规则的⽂本。但我们也能看到国际领先模型在通⽤基础能⼒和专业应⽤能⼒上略优于中国领先模型。
整体测评中,文心一言拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一,在21个细化二级维度均表现突出。
弗若斯特·沙利文发表预测称,2024年的大模型的技术发展将趋向多功能与小型化,同时产业端将强调自主研发和行业标准化,而伦理责任和数据标准规范将成为持续发展的关键。