当闭环王者进入开源世界:苹果发布开源多模态大模型Ferret,可用于精准识别与定位图像里边的物体
AI奇点网12月25日报道丨今年10月,苹果和哥伦比亚大学的研究人员低调地发布了一个名为「Ferret」(中文名:雪貂)的开源多模态大语言模型。这款大模型其实是苹果公司与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码生成和权重,仅限研究用途,不可用于商业。因为没有太多的宣发,当时并未引起广泛的注意。
一直奉行闭环生态的苹果公司在今年 10 月正式加入了开源 AI 的圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺。这款模型既能精准地识别图像并描述其内容,还能辨别和定位图像中的各种元素。
Ferret 有 7B 和 13B 两个参数量版本,是一个对标微软、谷歌的10B量级的小参数模型。此外,为了增强模型的能力,苹果专门收集了一个名为 GRIT 数据集。该数据集包含了 110 万个样本,涵盖丰富的层次空间知识。
苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。
简单地说,该模型可以分析图像上绘制的区域,确定其中对用户查询有用的元素,并将其识别出来,在检测到的元素周围绘制一个边界框。然后,它就可以将识别出的元素用作查询的一部分,并以典型的方式作出响应。
例如,高亮显示图像中的动物图片并询问大模型“这是什么动物”,大语言模型可以确定该动物的种类,并确定用户所指的是动物群中的某只动物。然后,它还可以利用图像中检测到的其他项目的上下文,提供进一步的回复。
尽管苹果以往以其产品和技术的封闭性著称,但现在它通过GitHub发布开源大语言模型,正逐渐改变这一形象,展现出其在 AI 领域的活跃参与和创新精神。这不仅对苹果自身,也对整个 AI 领域来说,都是一个值得关注的重要发展方向。
GitHub开源代码:
模型技术论文:
近日,苹果曾发布多篇关于AIGC领域的变革性论文,并宣布成功在iPhone上部署大语言模型方面取得了重大突破,相信2024年这家全球的科技领先巨头还会有更多令消费者期待的新产品与新服务。