无惧AI画手!谷歌修炼半年憋出年度最强AI绘图大模型Imagen 2,对比实测力压Midjourney与DALL·E 3
◎了解Imagen 2,我们最先进的文本图像转换技术——Google云部门
Imagen 2是谷歌人工智能团队开发的一种文本到图像生成模型。它使用扩散模型技术,从随机噪声开始,逐渐添加细节,直到生成最终图像。
上来就先请问:??下面这张图,是AI生成,还是实拍照片?
如果不是这么问,绝大多数人大概都不会想到——这居然不是一张照片。
而这,其实只需在谷歌日前发布的AI在线图像模型Imagen 2中输入以下的提示词——“一位32岁的年轻女性自然保护主义者,正在丛林中探险。她体格健壮,一头短卷发,面带亲切的微笑”。
就能得到这张无比拟真的写实图像,比照片更像照片的图像了!
圣诞节临近,谷歌大模型还在「卷」个不停——号称DALL·E 3最强竞品的文生图模型Imagen 2,重磅上线。
12月发布Gemini与OpenAI硬刚GPT-4,立马又放出Imagen 2来卷DALL·E 3,年度「卷王」非谷歌莫属。
谷歌Imagen 2放出的官图甚至还要给“AI画手”老大难,来一个专属特写。不仅手指生成逼真,而且人物拿筷子的姿势也完爆许多国人。
可以说,Imagen 2是“文生图”的巅峰之作。Imagen 2可以将文本描述转换为生动清晰的高分辨率图像。
最与众不同之处在于,它能够以惊人的准确性,理解复杂抽象的概念,然后把这个概念可视化,细腻之程度令人惊叹!
在细节的表现力与复现能力上丝毫不逊DALL·E 3。
Imagen 2的核心,还是复杂的神经网络架构。经过微调的Transformer模型,在文本理解和图像合成上,都表现出了无与伦比的性能。
现在,在“文生图”领域,谷歌又树立了新的标杆。
除了DALL·E 3之外,我们又有了一个能够完全依赖自然语言就能实现精准生图的图像大模型!
相比之下,Midjourney因为需要学习复杂而专业的关键词,过于强调其“工具性”,在易用性与普适性上已经开始被二者抛在身后。
Imagen 2具备无可比拟的图像质量和多功能性,内容创作者可以以前所未有的速度,制作高质量的视觉效果。
Imagen 2用到了谷歌最先进的文本到图像扩散技术,生图质量极高、效果逼真,而且和用户的提示具有高度的一致性。
原因在于,它是使用训练数据的自然分布来生成更逼真的图像,而非采用预先编程的样式。
比如上图的提示词:“水母在深蓝色的背景下悠然漂浮”。
可以看到,Imagen 2的图像生成能力非常惊人,完全可以媲美真实摄影师的作品。?
不仅会生图,Imagen 2还支持图像编辑功能,如「AI修图」和近期抖音大火的「AI扩图」。
在下面的演示当中,只要输入提示词“绿色墙上有一个架子,架子上放着几本书和花瓶”,对应的新内容就在参考图当中生成了!
新增添的对象与原图完美融入,浑然天成。
另外,我们还可使用Imagen 2对原始图像进行扩图。
只需划定扩图的比例范围,一张夕阳下非洲大草原的长颈鹿和斑马大头贴,瞬间变成超级大片。
相较于其他的图像生成工具,谷歌Imagen 2还具备更强大的图像上文本渲染的能力。
要知道,Midjourney一遇到图像上有汉字,可是出了名的“鬼画符”。
文本渲染支持:可以根据提示内容,精准地渲染出正确的文本。
Imagen 2可以在生成含有特定文字或短语的物体图像时,确保输出图像中包含正确短语。
Logo设计:Imagen 2能为品牌、产品等生成多种创意和逼真的Logo,比如徽章、字母甚至非常抽象的Logo。
此外,除了英语提示词,Imagen 2还支持6种语言的提示词输入,包括:中文、印地语、日语、韩语、葡萄牙语、西班牙语。并计划在2024年初增加更多语言。
作为全球知名翻译大厂,这项功能还包括提示词与输出图像之间的语言转换能力。比如,用户可以以使用西班牙语进行提示创作,并指定输出的图像上的文字为葡萄牙语。
无论是渲染错综复杂的风景、详细的物体,还是奇幻的场景,Imagen 2生成的图像都具有如此高的保真度,以至于它们可以与人类艺术家创作的图像相媲美,甚至直接超越。
比如这幅AI仿真油画图,提示词为:“一小幅油画,描绘了摆放在砧板上的橙子。阳光穿过橙子的切片,柔和的橙色光线洒在砧板上。画的背景是一块蓝白相间的布,画面巧妙地捕捉了光的折射、反射效果,同时展示了画家富有感情的笔触”。
有网友表示,灯光穿过橙子后的投影,与真实世界完全吻合,甚至打爆90%以上的美术专业学生!
有人用同样的提示词让DALL·E 3生成图像,效果比起Imagen 2来说逊色不少。
类似的,Midjourney生成的橙子过于强调氛围感,偏离了提示词当中对于场景的细腻刻画约束性。
为了帮助创建更高质量和更准确的图像、更好地符合用户的提示词,谷歌在Imagen 2的训练数据集中添加了更多的描述,帮助大模型掌握不同的标题风格,并更好地理解广泛的用户提示。
比如,我们以美国作家Phillis Wheatley的诗歌《晚间赞美诗》中的一句话「溪流潺潺,鸟儿啁啾,空中飘荡着它们混合的音乐」作为提示词。诗句中绝美的意境,Imagen 2完全抓住了。
相比之下,Midjourney对于文学体裁的还原性较差,大概率会在图中添加一个美女人物。不去苛责的话,整体画面效果还是不错的。
而到了DALL·E 3这边,它居然在图像上加了几行字,生成了一张贺卡?
——多少让人有点摸不着头脑。
著名小说《白鲸记》中,美国小说家Herman Melville曾写下「想象一下大海的微妙之处,最可怕的地方在于生物如何在水下滑行,却在大多数情况下不易察觉,并且诡谲地隐藏在最可爱的蔚蓝色调下」这样的文段。
Imagen 2似乎很轻松地抓住了「海洋文学」的特点。
一头蓝鲸游离在鱼群当中,颇有一种《大鱼海棠》的即视感。
相比之下,Midjourney和DALL·E 3大概率接触到“深海”关键词,瞬间就「克苏鲁」了起来……
??Midjourney生成的图像。
??DALL·E 3生成的图像。
美国儿童文学大家Frances Hodgson Burnett所著的《秘密花园》中,对知更鸟有这样一句描述:
「知更鸟从缠绕的常春藤上飞到墙头,张开嘴巴,唱出了一个响亮而甜美的颤音,只是为了炫耀自己。世界上就没有什么东西能比它更惹人喜爱了——它们几乎总是这样做。」
输入Imagen 2生成的这幅画,AI把常春藤、墙头、唱歌等关键信息悉数呈现了出来,不去细究你会以为是一张“打鸟”摄影特写。
同样的提示词,Midjourney尽管画面表现力非常出色,但是真实感欠佳,可谓「一眼AI」。
而DALL·E 3相较之下就更逊色了,强烈的涂抹感让知更鸟仿佛马上就要升天。
不少网友惊呼,地表最强的“文生图”模型终于诞生了!
??下面是一位网友实测生成的蓝猫。
更多的网友认为,Imagen 2是迄今为止,截止今年12月,同类产品中最好的。明年,会不会更「卷」——我们认为一定会!
那么问题来了,我们该如何体验到这款这么牛掰的图像大模型呢?
谷歌官方解释道,开发人员和谷歌云客户可以通过Google Cloud Vertex AI中的Imagen API来使用Imagen 2大模型强大的文本生成图像技术。
换句话说,这是企业级服务,跟普通用户无缘了~?
真特喵的晦气…
但也不用气馁,相信很快就会有许多基于Imagen 2开发的应用产品上线。
近期文章
更多