谷歌PaLM 2大语言模型参数量曝光:对比第一代大幅减少,但训练量翻五倍
AI奇点网6月5日报道丨5月初,谷歌在山景城总部举行了一年一度的I/O 2023开发者大会,会上发布了新一代的大语言模型PaLM 2版本。谷歌 CEO 皮查伊表示,新一代的大语言模型,改进了数学、代码、推理、多语言翻译和自然语言生成能力。谷歌对外宣称,大语言模型的训练量是关键,参数量并不是最核心的,此言论被认为是反击OpenAI关于“模型性能的与规模成比例的规律仍然成立”的说法。
近日,谷歌内部文件被泄露了,大量谷歌新一代大模型 PaLM 2 的训练细节被曝光,其中训练数据量是前代的近 5 倍、参数量仅为第一代的 2/3 左右。谷歌官方表示,大语言模型的表现重点在于训练方式,而不是参数量。不过在发布会上,谷歌并没有给出 PaLM 2 的具体技术细节。其实这样做的不只谷歌一家,OpenAI 也缄口不言其最新多模态大模型 GPT-4 的细节。
PaLM 2 模型特点是提供了完全不同规模的4种版本,这将有助于大模型在更轻巧的终端上落地训练。从小到大依次为 Gecko(壁虎)、Otter(水獭)、Bison(野牛)和Unicorn(独角兽),易于针对各种使用场景进行部署。其中最为轻量级的 Gecko 模型可以在移动设备,比如手机上运行,速度非常快,不联网也能在设备上运行出色的交互式应用程序。
昨日,CNBC 发表报道称,根据他们查阅到的内部文件显示,PaLM 2 经过了 3.6 万亿个 tokens 训练。作为对比,上一代也就是第一代 PaLM 只接受了 7800 亿 token 的训练,总体数量级提高了 5 倍之多。
此外,谷歌还表示,PaLM 2 大模型远比目前主流,也是ChatGPT采取的 LLM 规模更小,这意味着在完成更复杂任务的同时变得更高效。这一点也在内部文件中得到了验证,PaLM 2 的训练参数量仅为 3400 亿,远低于 PaLM 的 5400 亿。按照谷歌的观点,PaLM 2的训练参数量显得更高效也更精准。而且除了Token数量的激增,PaLM2在语料库数据的质量选择上也有很大的提升。
作为对比,OpenAI曾经公开ChatGPT的GPT-3的参数量为1750亿,训练量为3000 亿 token;Facebook母公司Meta 在 2 月发布的 LLaMA 大语言模型则接受了 1.4 万亿 token 的训练。
谷歌发布的 PaLM 2 后,把主要的展示重心放在了应用落地层面,渴望展示其 AI 技术的强大能力以及如何嵌入到谷歌搜索、电子邮件、文件处理和电子表格中。但是不让忽视的是,AI的训练量与参数量依然是目前大语言模型表现至关重要的一个核心因素,考虑到商业竞争的考量,不对外公布也是情由所原。
有研究专家表达这样一种观点:虽然表面看起来 OpenAI 和谷歌在大语言模型上你追我赶,但真正的赢家未必会从这两家中产生,因为第三方力量——「开源」大模型正在悄然崛起,AI 大模型的训练量将会得到更多开发者的共同努力。此外,中国的国产大模型也在迅速的加大投资。
PaLM 2 参数被泄密,就可以倒着推敲 Bard 的能力边界——一名网友表示。
而事实上,谷歌Bard 目前也拥有多项 ChatGPT不具备的能力,比如更优质的联网搜索能力,支持图片上直接调用Bard进行内容检索以及分享Bard生成内容的能力,而ChatGPT在经过最近一次微软能力加持后,加入了Bing搜索的能力,上周才加入了分享按钮;Bard可以通过Adobe FireFly获得图像生成的能力;免费的语音输入能力,目前ChatGPT需要付费插件支持;更广泛的编码语言支持,包括 C++、Python、Java、TypeScript、JavaScript等,它可以辅助开发者进行代码生成、解释和调试;整合谷歌的各项服务,比如Gmail,这也是微软所不能企及的应用落地。
总之,一场持久而轰烈的AI大模型内卷大战已经打响,最终会鹿死谁手呢?