首页  >  资讯  >  文章
2024-01-03 14:14

一篇论文揭秘苹果最新黑科技:暴力魔改手机ROM空间,iPhone终于能跑AI大模型了

图片

在刚刚过去的2023年,微软、谷歌、英伟达等等大厂纷纷发力卷大模型;以百度、阿里、小米、OPPO为代表的国内势力也纷纷出手让AI应用落地。

唯有传统豪强里边的苹果,似乎动静不大,当地时间1月2日(昨夜)的AAPL股价还一口气跌掉7600亿。原来,意识到AI时代来临的果子正在“憋大招”~

图片

近日,苹果的人工智能研究人员发表了一份研究论文,介绍他们已取得的一项重大技术突破:

通过一种创新的手机闪存利用技术,利用相对富余的手机ROM存储空间,成功地在DRAM内存有限的苹果老设备上部署了大型语言模型(LLM)。

图片

这一成果有望让更强大的Siri人工智能助理、实时的AI语言翻译以及融入摄影摄像和AR增强现实的AIGC技术登陆未来的iPhone手机以及其他的iOS设备。

最近一年来,随之AI大模型的兴起,也伴随了一个当下智能手机的「致命弱点」:此前能够轻松应付大型手游的当代智能手机在面对极其占用内存的大模型,显得抓襟见肘,普通的手机根本无法满足其运行的硬件需求。

从而导致了两大困境:

  • 老设备很可能无法运行大模型,普惠化进程变慢
  • 模型过分小型化,造成AI功能体验感差

为了突破这一瓶颈,苹果研究人员另辟蹊径,将目光投向了手机中容量普遍较大的闪存空间。

苹果版的「曹冲称象」

在该公司最新发表的一篇论文《闪存中的LLM:利用有限内存实现高效的大型语言模型推理》中,研究人员详细赘述了如何巧妙利用闪存容量,让大模型的数据存储在闪存中。

论文原文:

图片

苹果公司的科研人员巧妙地利用「曹冲称象」的方法,绕过物理内存的限制,从而实现了最小化的数据传输流,并实现最大化的闪存、内存吞吐量。

论文介绍,将AI大模型“搬到”闪存上运行,一共分为三步:

🟠第一步

通常来说,一个70亿参数规模的大语言模型需要依赖14GB的内存来保障运行。

最顶的安卓手机有这个内存容量,iPhone肯定是没有了。于是,苹果先让手机的闪存(Flash)参与进大模型运行任务中来。

图片

论文提到一个概念,大语言模型本质上是神经网络,它具有高度的稀疏特性,扩散比例甚至超过90%。

AI在生成本文等内容信息的过程,其实“大部分是废话”,大模型最终通过概率学推理出最合适、最精炼的回复。

而信息是单向流动的,从输入层流向输出层,中间还可能包括多个隐藏层。

在这种神经网络的特性下,每一层的输出信息将作为下一层的输入,好比家中的净水器过滤。

论文介绍道,我们可以把这种新技术看做一个筛子,将相对于DRAM内存要大得多的手机闪存里边的数据信息提取出“有必要的、非稀疏的部分数据”移到内存进行处理。

图片

通过上边这张图可以展示借助新技术手段(苹果称之为修正线性单元ReLU),让模型稀疏性的前后产生的结构差异化。

浅蓝色的部分是未经修复的信息输出部分,最终成功将数据量“压缩”为深蓝色部分,色块面积明显减少了许多倍。

🟠第二步

我们已经解决了数据流压缩的问题,好比公司在开源节流之后需要重新调整岗位配额,接下来就需要解决数据管理的问题。

该论文提出了一种名为“滑动窗口技术”的神经元数据管理方法。

AI大模型每生成一句话,可以视作一个连续的窗口任务。

把那些在模型中产生正向输出的神经元定义为「活跃神经元」,并将这部分神经元特别标记出来,放在内存当中运行。

图片

当大模型调用近期数据的时候,我们仅加载被标记过的神经元数据,冷却已经加载完毕的神经元。

这样做便能更高效地利用十分有限的内存空间,释放掉之前分配生成句子的前半部分的那些旧的神经元数据的数据量。

🟠第三步

经过以上两步,我们已经能够让大模型可以在iPhone端侧运行。

而论文还提出了一种数据块叠加捆绑的内存管理新策略,类似于物流仓储运输的打包环节。论文介绍道,把前文与后文生成的相同数据块利用映射的方式串在一起。

当激活其中一个神经元时,这两部分的数据会同时调用。通过在闪存中将这些对应的列和行一起存储起来,可以将复杂的数据整合成更大的模块进行统一读取。

图片

这种全新的内存管理策略,首先将整合过的元素复制到被剔除的神经元的位置上,以保持内存执行任务的连贯性,然后再将新的神经元堆叠到最后,让内存优先处理优先级更高的任务。

专业术语依然晦涩难懂?

理论不够具象,我们来做个类比。事实上苹果研究人员的思路与「曹冲称象」基本一致。

首先,大模型就是大象,没办法直接上秤称重。

图片

于是苹果巧妙运用三个办法来解决问题。

对应上文提到的🟠第一步。首先找到一个等价方法,让大象先上船,然后测量水位线,这反映了大象的“真实重量”。再将等重的石头垒到船上,以达到相同的水位线,然后卸下来称量石头的总重量。

而事实上,在实际操作中我们发现,体积一样大的石头是不需要重复称重的,这就对应上文提及的🟠第二步,优化数据块管理以提高数据吞吐效率。

最后,我们还发现,体积一样大的石头可以利用定制好容量规格的箩筐来装卸,一次就可以装卸许多石头,省时省力,这就对应上文提及的🟠第三步,高效管理加载到内存中的数据。

整个过程的重点,是优化闪存数据流传输与内存容量管理策略,以实现在小内存的iPhone设备上的高效大模型推理。

疗效如何?

论文介绍,经苹果研究人员实测,对比单纯使用DRAM内存进行大模型加载,使用这个方法可以实现大两倍参数体积的模型运行,同时比单纯依赖CPU和GPU的传统方法进行推理,提速分别多达4~5倍和20~25倍。

图片

举个实际的例子,在搭载苹果M1 Max芯片的Mac设备上,每个字节Token的闪存加载需要125毫秒,内存管理需要65毫秒,合计190毫秒,还不到1秒,而对比传统的内存加载方法则需要2330毫秒。

外界预测,苹果将会在2024年6月举行的WWDC年度开发者大会上宣布更多在苹果设备上运行AI大模型的新动向。

图片

知名分析师郭明錤预测,苹果将在下一代iPhone 16手机当中推出AI相关的创新功能。他指出,苹果在2023年第三季度改组了Siri研发团队,用于整合AIGC功能和大语言模型。

以果子一贯的尿性,本世代旗舰iPhone 15系列的用户仍然非常有希望用上AI大模型加持的新版iOS操作系统,更老的设备可能就比较堪忧了。

4
查看相关话题: #苹果 #iPhone #iOS #AI大模型 #Siri

相关文章