Midjourney V6正式亮相,新功能详细解析:绘图细节拉满叫板DALL·E 3,重新定义提示词规则丨附V6提示词指南
当地时间12月20日,Midjourney终于在社区发布了它训练了9个月的第六代文生图模型Midjourney V6。
?相关阅读:
重磅!AI绘画龙头Midjourney V6版本史诗升级:神图频曝直逼真实世界,全网惊呼出图以假乱真!最快两天内上线
当地时间12月20日,Midjourney的最新版本V6开启了第二次社区内测评价。借助用户进行人工标注,上线倒计时,已经开始!
这段时间,包括Stability AI都开始卷AI视频了,但是Midjourney却慢吞吞的不知道在干嘛。这段时间里DALL·E 3给了惊人的自然语言式文生图,完全摒弃了提示词那套。Stable Diffusion在开源和可控性上遥遥领先切入了文生图的商业化落地领域。
那么一直号称秉持“中庸之道”的Midjourney在这半年里没有太多的动作,而今终于赶在年末发布新版本。
这次的Midjourney V6可以给大家带来些什么呢?
大家好,我们将在寒假期间让社区测试我们的V6模型的Alpha版本,从此刻(当地时间12月20日)开始。
要启用它,请在/settings下的下拉菜单中选择V6,或在您的提示词后输入 --v 6。
V6基础模型有什么新变化?
这个文本提示我尝试了,确实只有在低 --stylize 的时候才管用,在默认值的情况下文字的绘制能力并不好:
这是在默认情况下绘制的「MJ V6」这样简单的文字,但是四张图里几乎没有一张可用的。
但是在修改 --stylize 到一个非常低的值之后就好了很多。
--ar, --chaos, --weird, --tile , --stylize, --style raw , Vary (subtle) ,Vary (strong), Remix, /blend ,/describe (仅V5版本)
尝试了 /blend 和图像提示的功能,基本都支持,以下是混了了香水和一个美少女的图。细节很好,虽然可控性还是不太行。
这些功能尚未支持,但应该在未来一个月内推出。
Pan, Zoom, Vary (region), /tune, /describe (一个新的v6版本)
简单的说就是之前的那套提示词规则没用了,白学了。
这也是我觉得提示词工程最大的问题,每次模型的更替会让所有的规则推倒重来,之前的累积变得毫无意义,从这个角度上讲DALL·E 3的自然语言交互,与Stable Diffusion的高可控性会更靠谱些。不过本文的第二部分会附带Midjourney官方给的一些V6提示词指南。
这个模型可以生成比我们之前发布的任何东西都更逼真的图像。
确实很逼真了,现在的真实人物图基本上都是照片质量的,完全没有之前AI生成的那种僵硬感。
我们已经加强了审核系统,并将以更严格和严谨的方式执行我们的社区标准。不要做混蛋,或制造引起争议的图片。
V6是我们在AI超级集群上从头开始训练的第三个模型。它已经开发了9个月。
V6不是最后一步,但我们希望大家都能感受到一些深刻的进展,这些进展与我们集体想象力的力量密切相关。
这是一个探索V6的入门模板,适用于多个主题。
如果你愿意,你可以将V6视为有四个可选部分。这完全取决于你的提示内容以及对你作为艺术家来说什么是有意义的。
[典型场景] + [回调细节] + [设置细节] + [氛围或美学]
1️⃣[典型场景]
在合适的情况下,使用第一句话中的原型概念来概括地设置场景。这里有一个对具体性的恰当平衡点。句子不必很长。你稍后会添加细节。
✅ 好的:三个朋友坐在公园的长椅上。
✅ 更好的:三个不同的朋友坐在公园的长椅上。 (没有用“不同的”,Midjourney会决定他们的一般外观,他们可能看起来相似。)
✅ 最佳,具体化:三个不同的最好的朋友紧挨着坐在公园的长椅上。 (没有“最好的朋友”和“紧挨着坐”,我们得到的是更通用的氛围。)
2️⃣[回调细节]
在适合的提示中,使用对场景设置中使用的同一词语的回调来添加细节。这意味着字面上重复这些词语,以在你在第一句中设置的内容和你现在正在写的细节之间创建联系。
❌ 不太好,没有使用回调:詹妮弗在中间,一个穿着牛仔裤和背心的金发白人女性。
❌ 不太好,没有使用简单句子:中间,穿着牛仔裤和绿色背心的是那位白人朋友。
✅ 更好,它使用了简单句子和对“朋友”的回调:中间的朋友是一个快乐的金发白人女性,穿着牛仔裤和绿色背心。
3️⃣[设置细节]
在合适的情况下,添加有关设置或背景的细节,放在提示的末尾。
❌ 不太好,对于V6来说有点模糊,可能有效:有活橡树和鸽子。
✅ 更好,更清晰一些:人行道上有一些鸽子。背景中有一些活橡树。
✅ 最佳,具体化:长椅前的人行道上有两只鸽子。在背景中,空荡荡的公园里有一些古老的活橡树。
如果你开始看到事物变得不连贯,准备好将具体内容回退或从提示中删除。. .
4️⃣[氛围或美学]
在提示的最后添加有关图像氛围/美学的细节。它可以随你喜欢的长度。请注意,没有太多视觉语义内容的词在画布上不会有任何作用。
摄影:
❌ 不太好:照片。
✅ 更好:彩色摄影。
✅ 最佳,具体指出灵感来源,如摄影师的名字或出版物:受《南方生活》杂志启发的彩色摄影。
非摄影:
❌ 不太好:艺术。
✅ 更好:数字艺术。
✅ 最佳,使用形容词并具体指出灵感来源,如艺术家或艺术类型/流派/体裁/媒介:受Krenz Cushart和Tom Bagshaw启发的时尚数字艺术。
⭐ 示例结果
如果对你来说探索它是有意义的,这里有一个使用模板的示例结果。由于V6对自然语言非常聪明,没有强制性的指导原则,但在编写复杂的提示时,有些人可能会喜欢将模板作为他们自己的发现和探索的起点。
比如下面这张生成的示例图:
三个不同的最好的朋友紧挨着坐在公园的长椅上。中间的朋友是一个快乐的金发白人女性,穿着牛仔裤和绿色背心。右边的朋友是一个严肃的非洲裔美国男性,穿着燕尾服。左边的朋友是一个笑着的印度女性,穿着橙色的印度传统服饰。由Krenz Cushart和Tom Bagshaw创作的时尚数字艺术。--v 6.0
V6运行在语义和自然语言上,每个 /imagine 与之前版本相比都有巨大的内存容量,这意味着提示可以长且详细。你可以控制构图,设置多个主题,并添加文本。
要激活V6,请输入 /settings 并从版本下拉菜单中选择它。
1️⃣ 现在提示长度可达350+词
画布上的连贯性与提示使用可用内存的方式有关。在V5中,只有前15-20个词对画布有强烈的影响,在我们用尽内存并看到词语影响下降之前。
在V6中,我们获得了大量额外的内存,所以可以说我们有350到500个词,甚至更多。提示如何使用可用内存似乎与词语的语义内容有关。
例如,这个15个词的短语 - "the the the the the an an an an an this this this this this" - 没有特定的语义内容,看起来使用了我们可用内存的很小一部分。但同样的15个词用来生动描述三个牛仔意味着,鉴于我们剩余的内存,渲染第四个牛仔将是一个挑战。
所以,V6并没有一个固定的提示长度,而是有一个“语义上限”,这将对每个提示有不同的影响。让我们探索一下!
2️⃣ 你可以指定颜色和其他细节
在V5中,我们倾向于使用原型。我们让Midjourney选择它想要呈现图像的方式,因为它自己的决定会更连贯,而我们试图控制的尝试会被忽略。
在V6中,我们仍然给Midjourney一个原型,但现在我们努力用自然语言表达的细节来控制Midjourney的渲染。
3️⃣ 你可以使用语言来控制构图,在画布上放置想要的东西
在V5中,介词短语通常不被理解。在V6中,它们几乎总是被理解。这令人震惊。现在我们有了可靠的介词短语,很容易将事物相互定位以及与摄像机的关系。
我们如何控制构图?
这里有一个起点:更可靠的方法是用短语描述一个通用图像,然后从画布的焦点开始填充细节。在确定了焦点之后,围绕它填充细节。
比如说:
厨房桌子上有三个装满水果的篮子。中间的篮子里装着绿苹果。左边的篮子装满了草莓。右边的篮子里满是蓝莓。背景是一面空的蓝绿色墙,上面有一个圆形窗户。
4️⃣ 你可以在你的图像中添加文字
这真是太酷了。要在你的图像中添加文字,把你想要打印的词放在“引号”里,并确保你的提示包含一个语义上合理的地方来打印这些文字。
比如这一句提示词:
用马克笔在便利贴上写的“Hello World!”
5️⃣ 你可以提示多于一个主题
在V5中,一个主题可以被漂亮地渲染,但两个主题会混合……而三个主题对我们大多数人来说是遥不可及的。
但在V6中,一个和两个主题都可以被漂亮地渲染,三个主题开始混合但可以控制。
6️⃣ 如果细节泄露到整个图像上,我该怎么办?
在V6中,泄露不会那么容易发生,但它确实可能发生。
在提示的前面建立的图像比在提示末尾建立的图像更容易融入到其余的提示中。例如,提示开头部分建立的传统服装印度女性的形象可能会将印度珠宝和其他细节添加到其他主题上。
如果你观察到这种混合效果,开始一个新的 /imagine,并将容易混合的图像移动到提示的末尾。
处理混合的第二种方法是替换细节。如果你看到一个不希望出现的细节,指定应该在那里的东西。你的细节将压倒因混合而出现的细节。
但嘿,在对混合感到沮丧之前,仔细看看你的网格。记住,如果网格中有1或2张可用的图片,意味着你有一个好的提示!
7️⃣ 如果我的图像看起来模糊或不协调,我该怎么办?
在V6 Alpha中,如果你的提示相当复杂,你可能会注意到细节模糊或不连贯。
以下是探索解决连贯性问题或缺乏清晰度问题的三种策略。在对连贯性感到绝望之前,检查你的网格是否有成功的结果。记住,如果网格中有1或2张可用的图片,意味着你有一个好的提示!
8️⃣ 如果画布上没有出现某些东西,我该怎么办?
在V6中,细节丢失的可能性较小,但当提示相当复杂时,这种情况仍可能发生。有三种策略可以探索解决缺失细节的问题。在对Midjourney的不服从感到绝望之前,检查你的网格是否有成功的结果。记住,如果网格中有1或2张可用的图片,意味着你有一个好的提示!
你不能告诉Midjourney“把它变成油画”或使用remix并告诉Midjourney“在她的头发上放更多的花”。但是一个单独的直接 /imagine 可以像指令一样编写,它可能会运行得很好。
点击这些将其展开到全尺寸。只要你的长宽比协调一致,你就可以将简单场景组织成面板。
记住,对于像这样的提示,网格中即使只有一个正确的项也是惊人的。
比如:
一个男孩在停车场里拿着车钥匙,但附近没有车。--v 6
剪贴画中的一个灯,放在空白背景上。图像周围有一个薄金色的边框或框架。
近期文章
更多