号称千亿级参数量冠绝全球:华为盘古大模型到底是个啥水平?
AI奇点网6月5日报道丨据国内媒体报道,华为公司计划在7月7日举行一年一度的华为云HDC 2023开发者大会,届时将发布一款直接对标ChatGPT的多模态千亿级大模型产品,名为“盘古Chat”,基于华为自研的盘古大模型。与ChatGPT和百度文心一言针对C端用户市场打造应用落地不同的是,华为这款产品主要面向ToB/ToG的政企端客户,服务于真正落地到各行各业的工作场景,针对提升千行百业的生产力。
根据华为官方最新披露的信息显示,需要明确说明的是,华为盘古大模型是一个系列,而不是一个独立的大语言模型。根据华为云官网的资料,盘古系列大模型包括以下五个基础系列大模型(L0):
五个基础子模型构成了盘古大模型的基本结构。接下来让我们分别认识一下这五个模型:
中文语言(NLP)大模型
是业界首个超千亿参数的中文预训练大模型,被认为是最接近人类中文理解能力的AI大模型。与ChatGPT等外国AIGC大预言模型相比,华为盘古大模型更注重针对中文语言的优化。作为一家非互联网社交属性的企业,华为为了打造盘古大模型,从互联网通过工具爬取了80TB公开的文本,最后清洗出1TB的中文数据集以供大模型训练。
其首次使用Encoder-Decoder架构,兼顾NLP理解与生成的能力。在预训练阶段学习了超40TB文本数据,并通过行业数据的小样本调优,提升模型在场景中的应用性能。在权威的中文语言理解评测基准CLUE榜单中,盘古NLP大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分83.046(人类水平是85.61分),多项子任务得分业界领先。
视觉(CV)大模型
超过30亿参数的业界最大的CV视觉大模型,首次实现模型按需抽取,首次实现兼顾判别与生成能力。它可以基于模型大小和运行速度需求,自适应抽取不同规模模型,AI应用开发快速落地,使AI开发进入工业化模式。使用层次化语义对齐和语义调整算法,在浅层特征上获得了更好的可分离性,使小样本学习的能力获得了显著提升,达到业界第一。
图识神经网络(Graph)大模型
首创图+网络融合技术,在工艺优化、时序预测、智能分析等场景有广泛应用。
多模态大模型
具备图像和文本的跨模态理解、检索与生成能力。
科学计算大模型
主要解决各种科学问题,旨在用AI促进基础科学的发展。
除了以上五个基础大模型(L0)以外,盘古大模型不断进化,共分为L0、L1、L2三个层级。其中,L0指基础大模型,L1指针对垂直领域的行业大模型,L2则是指面向更加细分应用场景的推理模型。
目前在L1级别的行业大模型方面,华为已经推出了盘古金融大模型、盘古矿山大模型、盘古气象大模型、盘古电力大模型、盘古制造质检大模型、盘古药物分子大模型等行业大模型。
在L2级细分场景模型方面,华为已经推出,例如基于气象大模型的短临气象预报、台风预测等场景模型;例如基于电力大模型的无人机电力巡检、电力缺陷识别等场景模型;例如基于时尚大模型的时尚辅助设计、时尚版权保护等场景模型。此外,在物联网、智能座舱、智能驾驶等领域,华为都已推出基于盘古大模型的各种应用。
AI生态建设方面,华为盘古大模型是基于昇腾计算产业生态。关于AI生态型产业链,华为提出“一平台双驱动”的模式。其中“一平台”指基础软件平台,包括AI处理器、服务器硬件以及芯片使能软件、AI框架。“双驱动”指平台要支撑的两大生态,一是技术生态,二是商业生态,包括ISV(独立软件开发商)、IHV(独立硬件开发商)、整机、一体机合作伙伴等。