超详细文本提示词技巧丨 RunWay Gen-3发布保姆级提示词教程
7月9日,著名生成式AI平台Runway在官网公布了,最新发布的文生视频模型Gen-3 Alpha的文本提示教程。
在你使用Gen-3、可灵、luma等产品生成视频时,经常会发现生成的结果好像和预期差的有点远。通常情况下,如果不是模型的训练数据没有覆盖到,那便是提示词不够详细、精准。
例如,你直接输入文本提示“一个海边日落的场景”。这样的提示词视频模型无法理解你的准确意图、场景环境、视觉描述等,生成的视频会非常宽泛视觉效果会很差。
正确的提示词应该是,“夕阳下的海滩,金色的阳光洒在波光粼粼的海面上,海鸥在天空中自由飞翔,远处有几艘正在航行的渔船,高清、写实风格、慢动作镜头。”如果是自带音频的视频模型,还要加上鸟叫、汽笛声、风吹等音乐关键词,让其与视频画面更好地融合在一起。
就算你无法使用Gen-3也没关系,这些文本提示技巧、镜头、运动效果基本上是相通的,适用于那些免费产品。
从技术层面来说,你输入的文本提示会被转换成“向量”,这些向量包含了描述的场景、人物、动作等关键信息,在模型整个生成过程中起着持续引导的作用。模型会不断地参考这个语义向量,确保生成的视频内容与文本描述保持一致。
例如,输入的文本提示是“一只猫在雪地里玩耍”,模型会将文本中的猫、雪地和玩耍关键词转化为向量,再由神经网络根据这些向量生成最终的场景。在生成过程中,文本提示就像是给模型指明方向的路标,按照正确的路径、目标生成视频。
此外, 文生视频模型还需要考虑时间序列和连贯性,以确保生成的视频不仅在视觉上与描述相符,在动作逻辑上也是一致的。
这就需要模型不仅理解每个单独视频帧的含义,还要能预测和生成后续帧的内容,以形成连贯的故事线或动态画面。所以,相比文本、图片,视频模型在开发和算力消耗方面也就更难。
简单来说,文本提示词相当于大模型的“指导员”,引导大模型创造与描述相匹配的内容。无论是视频、音频、文本还是图片,它们的提示技巧在原理上基本是相同的,也就是说你掌握了一种在学习其他的会很快上手。
为大家简单介绍完文本提示的原理之后,下面就说一下Gen-3公布的官方提示词教程,以及分享一下「AIGC开放社区」在使用提示词的一些心得。
Runway表示,将场景、主题和镜头运动的细节分成不同的模块,这样的提示结构清晰,效果最佳。
Gen-3的标准提示结构——镜头移动:建立场景(文本提示)+额外细节。
近景特写镜头:一个高清的指头上,站着一只可爱的迷你小狗,很好奇地看着镜头。
上面只是Gen-3的标准提示结构,如果你对镜头场景要求不高不加也没问题。例如,飞越一座爱尔兰的城堡,并发现了一座摩天大楼的未来赛博朋克城市。
彩色织物和服装旋风般的超现实拼贴画,在半空中飘扬和旋转。场景动感时尚,纺织图案充满活力。运动感和风格创造了视觉上引人注目的复杂场景。背景漆黑一片。
相比结构,精准的效果、细节提示词在模型生成的过程中起到的作用更大。Gen-3的模型中主要由相机风格、灯光效果、移动效果、运动类型、风格与审美以及文本样式6大类组成。
提示,在移动效果中有很多快速镜头Gif,可能会造成眩晕观看时要注意。
下面这些提示词展示,可以在文本生成的过程中直接使用,帮助你精准掌控视频呈现的镜头风格。
方法就是——相机风格关键词+文本提示词+额外细节。例如,低角度,一个正在行走在街道上的泥土人,周围是朦胧的街道。
低角度
高角度
高架
第一视角
手持
广角
特写
微距离
越肩效果
现实记录
漫射照明
轮廓
镜头光晕
侧光式
背光
凝胶灯光
动态运动
慢动作
超高速
时光倒流
生长
出现
爆炸
起伏
扭曲
变换
粉碎
涡流
展开
电影效果
彩虹色
故障效果
家庭录像 VHS
Bold
涂鸦
Neon
校队
刺绣
「AIGC开放社区」使用过很多文生视频、音频、文本以及图片的产品,所以也有一些心得,借着这个机会就和大家分享一下。
技术层面开头已经简单介绍过了,这里就主要说一下,从你下笔的那一刻开始应该如何构建完成、精准的“文本提示体系”。
1)明确目标,你需要明确想要生成什么样的视频、图片或音频,包括主题、风格、情感基调等。例如,你想要制作一个关于环保的公益广告,风格是启发性和教育性。所以,输入的提示词最好都涉及到这方面。
2)具体化描述,在我们确定目标后就要尽可能具体地描述你想生成场景。例如,我们想生成一张图片,不要只说一个华丽的葡萄酒杯。
可以具体化成“这是一幅令人惊叹,充满想象力的3D插画。画中的酒杯装满了浓郁的红酒。酒杯中的葡萄酒呈现出山峦起伏、葡萄园以及葡萄、苹果和草莓果园的景色。葡萄酒仿佛从杯中流出,将自然与液体完美地融合在一起。画面整体氛围宁静,光线柔和,葡萄酒与周围景观相得益彰。”
3)多使用视觉元素,包括颜色、光线、天气等。例如,一个心形挂锁和一把钥匙。
可以添加不同元素来丰富它“这是一个浪漫迷人的3D花园场景,其中有一把精致的蓝色暗色挂锁,挂锁上装饰着发着微光的的藤蔓和花朵。发光的挂锁周围环绕着俏皮的蝴蝶,为整个氛围增添了神奇的绚丽色彩。
挂锁旁边是一把雕刻精美的金钥匙,上面有复杂的心形图案。4K、3D效果、插画、时尚。”
4),注重动作和动态效果,动态的描述可以让生成的产品更具活力和想象力。在描述的过程中可以适当地加入一些动态效果,例如,一个小女孩在花园里追逐蝴蝶,蝴蝶在花丛间飞舞,阳光透过树林普照在他们身上。
如果你是生成视频的话,可以用时间或者天气的方式来添加动态,例如,随着时间的推移,天空从蔚蓝逐渐变为橙色,最后染上紫色的晚霞。
5)多重角度和视角,在生成的过程中可以使用不同的视角来丰富作品的多元化,这类技巧在视频领域应用较多。例如,从鸟瞰视角展示城市全景,随后切换到地面视角,观看行人的活动。
可以使用一些近景、远景、聚焦、穿越等特殊镜头,这一点Gen-3的官方教程也说了。
6)反复生成,你经常会看到很多文本、图片、视频的产品一次性会生成2个以上内容,这是因为目前人类还无法精准控制神经网络生成的内容。
即便你使用了最精准的提示词,它随机生成的概率还是非常的大,这主要是因为架构和训练数据等原因。所以,你在生成的过程中可以反复多次尝试,直到达到自己的目标即可。
上面只是「AIGC开放社区」日常使用的心得,我们在学习完方法和技术概念之后,就是多使用Gen-3、ChatGPT、Stable Difusion、Suno、Udio、DALL·E 3、Midjourney这类生成式AI产品,强化学习总结经验以生成更好的作品。
同时欢迎大家一起交流技术心得,共同进步,做AIGC时代的探路者、指路明灯。
近期文章
更多