首页  >  资讯  >  文章
2024-02-26 11:59

地表最强开源AI绘画模型Stable Diffusion V3重磅登场:与Sora采用相似技术,一大波样片抢先看

图片

随着AI绘画逐渐影响整个视觉创作行业。带来了两种非常显著的变化——

其一是画师群体的薪酬待遇,停滞不前甚至明显滑坡,每幅作品单价暴跌。

其二是越来越多小微企业选择AI绘制海报,开源节流的大背景下,即便画面出现BUG也在所不惜。

比如国内某企业的海报,就出现了“吃意面BUG”。🍝

图片

最近OpenAI的Sora诞生更是爆火全网,甚至引来了知名好莱坞影星威尔·史密斯蹭热点。

图片

他在推特(X)上发布了一则吃意面的视频,并附文「一年前的AI视频 VS 现在的AI视频」。

史密斯自称视频由Sora生成,但事实上是他亲自创作的“AI视频”模仿秀玩梗,引发了广泛的转发与热议。

那么问题来了,今天的AI,能否很好地应对“吃意面”这个画面创作呢?

在揭晓答案之前——让我们领略Stability AI刚扔下的💣炸弹——新一代的本地AI绘图创作模型Stable Diffusion 3正式发布了。

图片

目前推出了Alpha预览版,将于近期开放给普通用户。

AI生图效果超越自我,再次到达了新的高度!

图片

官图封面用的提示词是:

「在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的[Stable Diffusion 3]字样,犹如夜空中最璀璨的星辰。」

眼尖的家人们已经发现了,Stable Diffusion 3可以生成完整可读的单词文字。

在过去,AI绘图是很难生成正常的文字的。因为在大模型眼里,它“读不懂”人类的文字。

网友使用同样的提示词进行复刻,同样惊艳:

图片

此外,Stable Diffusion 3也采用了与Midjourney V6、DALL·E 3相仿的自然语言提示词,无需再折腾复杂的关键词公式。

有内测网友惊呼:Stable Diffusion 3还原提示词的一致性是我见过最好的!

图片

这次的Stable Diffusion 3在图像质量、多个对象、拼写能力方面,都得到了显著提升。

甚至,它似乎还“涌现”出了对物理世界的理解。

往下我们接着后文分解。

先看两个生成案例:

图片

提示词:

「一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。」

图片

提示词:

「一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。」

相比之下,DALL·E 3创作的画面就比较凌乱,而且拟真度不足。

图片

Stability AI的CEO总结了一份Stable Diffusion 3.0的更新日志:

- 采用了与Sora视频模型类似的扩散模型技术,并结合了流匹配(Flow Matching)等多项技术改进

- 通过利用对Transformer架构的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据

- 新一代模型将以开源形式发布,并通过预览版的测试来进一步提升系统的质量和安全性

- 正式上线时,Stability AI将发布一套完整的创作工具

- 基于最新的GPU硬件技术打造的新平台,支持多种参数规模的版本

- 支持生成视频、3D建模以及更多类型的内容创作

- 需要更强大的GPU来实现更突出的运算结果

据悉,Stable Diffusion 3模型的参数规模将覆盖8亿到80亿之间。

至少得英伟达RTX30系列及以上消费显卡来跑。

相较于上一代SDXL模型,Stable Diffusion 3拥有更强大的局部修改与细节控制能力。官方发布了一则短片为我们演示。

,时长00:18

正在吃寿司🍣的小猫咪,可以轻松变成其他的菜色以及其他的动物形象。

甚至可以替换背景,以及让静态图动起来。

下面,让我们集中看几个新模型的亮点。

文本单词渲染能力超进化

以前的老大难,如今完美解决。

用户可以直接输入提示词,要求大模型为你生成指定的文字。

图片

从左到右分别为DeepFloyd IF、DALL·E 2、Bing Image Creator、Midjourney V5.2、SDXL V0.9图像生成器。

生成的路牌,完全不知所云。

再看Stable Diffusion 3生成的黑板上的字。

图片

AI在黑板上正确写出了「go big or go home」。光影、景深较为自然,乍看之下并无破绽。

提示词:

「这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——[要么做大,要么回家]。」

近期发布的Midjourney V6也支持生成简单文字了,它的创作是这样的。不愧是MJ,也不错呢~

图片

谷歌这周上线的付费版本Gemini Advanced画成了这样,构图比较简单,没有完全体现提示词的内涵。

图片

DALL·E 3的图是这样的,黑板上的字更像印刷体。

图片

面对不同的材质,Stable Diffusion 3可以进行合理的推理,并生成各种形式的文字渲染。

图片

布匹上的绣花字。

图片

电脑屏幕上的数码体,墙壁上的喷涂体。

图片

符合画风的动漫字体。

下面这张示例图更出色:

图片

「在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。」

大模型创作了极富速度感的广告字体。

图片

试剂瓶上的标记数字。

图片

地铁里的霓虹灯牌。

Stable Diffusion 3.0能在文字渲染能力上取得显著提升,得益于在模型训练时在Transformer架构内融入文本编码功能。

官方介绍称,大模型不仅能生成完整句子,还能保持与画面风格的高度一致性。

图片

再看下面一组提示词,难倒了一众好手——

「宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着[Stable Diffusion]。」

别看句式不长,对于大模型理解生成对象的属性、相对位置,以及正确呈现字体放置的位置有严格要求,着实是一道压轴题。

面对如此复杂的需求,Stable Diffusion 3完美复现!

图片

DALL·E 3虽然画面可圈可点,但是「Diffusion」拼错了。

图片

Bing Image Creator的创作风格凌乱,拼写也不正确。

图片

Gemini Advanced一如既往的随意,省去了多个提示词提及的元素。

图片

Midjourney登场即放大招,画面质量拉满,但是「Stable Diffusion」没拼对。

图片

综合下来,唯有Stable Diffusion 3完全符合一致性的需求。

除了会写字,画质也逼近业内头部

除了能说会道,Stable Diffusion 3作为一款开源图像模型,在成像画质方面也快速追上了当前主流的在线闭源模型。

比如「变色龙在黑色背景上的摄影棚照片特写」,它生成的图是这样的:

图片

Gemini Advanced生成的图像:

图片

Midjourney V6创作的图像:

图片

几款头部模型,画出来的变色龙都具有极高的拟真度,高手过招,难以拉开差距。

往下我们还能看到更多Stable Diffusion 3的创作案例。

无论是在自然写实,还是在动漫,亦或有故事元素的海报,Stable Diffusion 3处理画风与文字字体相协调可谓得心应手。

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

最后——回到本文刚开始聊到的「吃意面BUG」。🍝

一起来检视AI绘图的终极测试——挑战“威尔·史密斯吃意面”。

图片

挑战地表最难的题目之一——

这次Stable Diffusion 3生成的图像,尽管史密斯的牙齿🦷有点奇怪,总体画风没崩坏,闯关基本算成功。

新模型技术与Sora系出同门

Stable Diffusion 3.0突飞猛进的表现得益于它采取了全新的架构设计。

Stability AI CEO亲口承认:

“Stable Diffusion 3采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近发布的Sora模型采用的架构相似。”

图片

Stable Diffusion的老版本里,均未采用当下最流行的生成式AI架构——Transformer。

Sora之所以能够生成如此丝滑的视频,得益于它创新的模型训练手段,以及Transformer架构底下的扩散生成原理。

因此,在新技术的加持下,Stable Diffusion取得了惊人的进步。

普通人怎样体验Stable Diffusion 3?

即刻加入排队候补名单:

收到通过邮件后,可以在Discord社区率先体验。

7

相关文章