智源大会产品之一“悟道·视界”:点亮国内绘画通用模型科技树
AI奇点网6月9日报道 | 转载自智东西
除了发布开源语言大模型及评测体系外,智源研究院还一连发布了“悟道·视界”视觉大模型系列的6项先进技术成果。
据黄铁军分享,从技术路线而言,通用视觉模型与语言模型的方法论类似,但视觉涌现与语言涌现的形式有所差别。传统视觉模型属于判别式模型,通用视觉模型则更看重对未知事物的通用辨别能力和生成预测能力。
“悟道·视界”由悟道3.0的视觉大模型团队打造,是一套具备通用场景感知和复杂任务处理能力的智能视觉和多模态大模型系列。6项国际领先技术中,前5个是基础模型,最后1个是应用技术。
Emu是一个多模态-to-模态的大模型,输入输出均可为多模态,可以接受和处理不同模态的数据,并输出各类的多模态数据。
基于多模态上下文学习技术路径,Emu能从图文、交错图文、交错视频文本等海量多模态序列中学习。训练完成后,Emu能在多模态序列的上下文中补全一切,也就是可通过多模态序列做prompting(提示),对图像、文本和视频等多种模态的数据进行感知、推理和生成。
相比其他多模态模型,Emu能进行精准图像认知,完成少样本图文理解,根据图片或者视频进行问答和多轮对话。它也具备文图生成、图图生成、多模态上下文生成等生成能力。
如何让通用视觉模型兼顾更高效和更简单?抓住语义学习和几何结构学习这两个关键点,基本可以解决绝大部分的视觉任务。
智源的十亿级视觉基础模型EVA便将最强语义学习(CLIP)与最强几何结构学习(MIM)结合,再将标准的ViT模型扩大规模至10亿参数进行训练,一举在ImageNet分类、COCO检测分割、Kinetics视频分类等广泛的视觉感知任务中取得当时最强性能。
论文地址:
https://arxiv.org/abs/2211.07636
代码地址:
https://github.com/baaivision/EVA
EVA-CLIP基于通用视觉模型EVA开发,相关工作入选2023 CVPR Highlight论文。 EVA极大地稳定了巨型CLIP的训练和优化过程,仅需使用FP16混合精度,就能帮助训练得到当前最强且最大的开源CLIP模型。
此前多模态预训练模型CLIP作为零样本学习基础模型,广受业界认可。智源视觉团队在今年年初发布的EVA-CLIP 5B版本,创造了零样本学习性能新高度,超越了此前最强的Open CLIP模型,在ImageNet1K零样本top1达到最高的82.0%准确率。此外,智源去年发布的EVA-CLIP 1B版本,今年才被Meta发布的DINOv2模型追平ImageNet kNN准确率指标。
论文地址:
https://arxiv.org/abs/2303.15389
代码地址:
https://github.com/baaivision/EVA/tree/master/EVA-CLIP
研究者相信,表达图像信息最好的方式就是图像,图像理解图像、图像解释图像、图像输出图像,可以避免图像-语言翻译过程中产生的信息误差和成本消耗。
智源将NLP中的上下文学习概念引入视觉模型,打造了将“以视觉为中心”作为建模核心思想的通用视觉模型Painter。Painter把图像作为输入和输出,从而获得了上下文视觉信息,完成不同的视觉任务。该模型目前可完成7种主流视觉任务,已在深度估计、语义分割等核心视觉任务中,相比同类模型有11%~25%的性能提升。
论文地址:
https://arxiv.org/abs/2212.02499
代码地址:
https://github.com/baaivision/Painter
从影像中分割出各种各样的对象,是视觉智能的关键里程碑。今年年初,智源研发的首个利用视觉提示(prompt)完成任意分割任务的“视界通用分割模型”,与Meta的SAM模型同时发布,点亮了通用视觉GPT曙光。
“视界通用分割模型”具有强大的视觉上下文推理能力:给出一个或几个示例图像和意图掩码(视觉提示prompt),模型就能理解用户意图,“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体,即可批量化识别分割同类物体。此外,该模型还具备强大的通用能力、灵活推理能力和自动视频分割与追踪能力。
论文地址:
https://arxiv.org/abs/2304.03284
代码地址:
https://github.com/baaivision/Painter
Demo地址:
https://huggingface.co/spaces/BAAI/SegGPT
现有文本驱动的AIGC视频编辑方法严重依赖于大量“文本-视频”数据上调整预训练好的视频扩散模型,需要庞大的计算资源,带来了高昂的人工数据标注成本和计算成本。
智源研究院提出的零样本视频编辑方法vid2vid-zero,首次在无需额外视频训练的情况下,利用注意力机制动态运算的特点,结合现有图像扩散模型,实现可指定属性的视频编辑。只需上传视频,输入一串编辑文本提示,就可以坐等AI创作出创意视频。
论文链接:
https://arxiv.org/pdf/2303.17599.pdf
代码地址:
https://github.com/baaivision/vid2vid-zero
Demo地址:
https://http://huggingface.co/spaces/BAAI/vid2vid-zero
“悟道·视界”聚焦视觉和多模态上下文学习,创新了视觉和多模态领域的Prompt工程,取得了零样本学习性能的新突破。未来其应用可带给自动驾驶、智能机器人等领域更多可能性。还有多语言AIGC文图生成,通用智能体学习等多模态领域,也将公布相关代码。