号称千亿级参数量冠绝全球：华为盘古大模型到底是个啥水平？-AI奇点网

首页 > 资讯 > 文章

2023-06-05 11:27

号称千亿级参数量冠绝全球：华为盘古大模型到底是个啥水平？

AI奇点网6月5日报道丨据国内媒体报道，华为公司计划在7月7日举行一年一度的华为云HDC 2023开发者大会，届时将发布一款直接对标ChatGPT的多模态千亿级大模型产品，名为“盘古Chat”，基于华为自研的盘古大模型。与ChatGPT和百度文心一言针对C端用户市场打造应用落地不同的是，华为这款产品主要面向ToB/ToG的政企端客户，服务于真正落地到各行各业的工作场景，针对提升千行百业的生产力。

根据华为官方最新披露的信息显示，需要明确说明的是，华为盘古大模型是一个系列，而不是一个独立的大语言模型。根据华为云官网的资料，盘古系列大模型包括以下五个基础系列大模型（L0）：

中文语言（NLP）大模型
视觉（CV）大模型
多模态大模型
科学计算大模型
图识神经网络（Graph）大模型

五个基础子模型构成了盘古大模型的基本结构。接下来让我们分别认识一下这五个模型：

中文语言（NLP）大模型

是业界首个超千亿参数的中文预训练大模型，被认为是最接近人类中文理解能力的AI大模型。与ChatGPT等外国AIGC大预言模型相比，华为盘古大模型更注重针对中文语言的优化。作为一家非互联网社交属性的企业，华为为了打造盘古大模型，从互联网通过工具爬取了80TB公开的文本，最后清洗出1TB的中文数据集以供大模型训练。

其首次使用Encoder-Decoder架构，兼顾NLP理解与生成的能力。在预训练阶段学习了超40TB文本数据，并通过行业数据的小样本调优，提升模型在场景中的应用性能。在权威的中文语言理解评测基准CLUE榜单中，盘古NLP大模型在总排行榜及分类、阅读理解单项均排名第一，刷新三项榜单世界历史纪录；总排行榜得分83.046（人类水平是85.61分），多项子任务得分业界领先。

视觉（CV）大模型

超过30亿参数的业界最大的CV视觉大模型，首次实现模型按需抽取，首次实现兼顾判别与生成能力。它可以基于模型大小和运行速度需求，自适应抽取不同规模模型，AI应用开发快速落地，使AI开发进入工业化模式。使用层次化语义对齐和语义调整算法，在浅层特征上获得了更好的可分离性，使小样本学习的能力获得了显著提升，达到业界第一。

图识神经网络（Graph）大模型

首创图+网络融合技术，在工艺优化、时序预测、智能分析等场景有广泛应用。

多模态大模型

具备图像和文本的跨模态理解、检索与生成能力。

科学计算大模型

主要解决各种科学问题，旨在用AI促进基础科学的发展。

除了以上五个基础大模型（L0）以外，盘古大模型不断进化，共分为L0、L1、L2三个层级。其中，L0指基础大模型，L1指针对垂直领域的行业大模型，L2则是指面向更加细分应用场景的推理模型。

目前在L1级别的行业大模型方面，华为已经推出了盘古金融大模型、盘古矿山大模型、盘古气象大模型、盘古电力大模型、盘古制造质检大模型、盘古药物分子大模型等行业大模型。

在L2级细分场景模型方面，华为已经推出，例如基于气象大模型的短临气象预报、台风预测等场景模型；例如基于电力大模型的无人机电力巡检、电力缺陷识别等场景模型；例如基于时尚大模型的时尚辅助设计、时尚版权保护等场景模型。此外，在物联网、智能座舱、智能驾驶等领域，华为都已推出基于盘古大模型的各种应用。

AI生态建设方面，华为盘古大模型是基于昇腾计算产业生态。关于AI生态型产业链，华为提出“一平台双驱动”的模式。其中“一平台”指基础软件平台，包括AI处理器、服务器硬件以及芯片使能软件、AI框架。“双驱动”指平台要支撑的两大生态，一是技术生态，二是商业生态，包括ISV（独立软件开发商）、IHV（独立硬件开发商）、整机、一体机合作伙伴等。