超强AI音频生成图像工具「Music To Image」体验测评:我让AI听完周杰伦的歌,它还把歌里的故事画了出来
AI音频生成图像工具:
工具介绍:「音生图」应用,只要上传一段音乐,它就能根据音乐旋律和歌词,生成一张对应意境的图片。将音频上传到模型,自动将音频生成文本描述,然后使用Llama2大模型将其转换为说明性的图像描述,最后运行Stable Diffusion XL以从音频生成图像!
工具链接:https://www.aieva.cn/sites/1303.html
2023年AIGC的浪潮奔涌而来,让每一位与EVA同行、先知先行的家人们,见识到了每一朵AI浪花的无限可能。
生成式AI目前比较常见的形态有「文生文」「文生图」「文生视频」等等,或者经由多媒体逆向转换回文本输出。
最近百度、微软、谷歌等人工智能大厂陆续开放了图片上传让AI进行认知判读的能力,「图生文」已经不稀罕。但是有一种多模态的玩法,你敢想吗——让AI“听懂”人类音乐,由「音乐生成文本和图片」会是什么样?
“能不能给我一首歌的时间”,慢慢将它变成一幅画卷。
音乐无国界,音乐的魅力,就是让任何人聆听后都能随之脑补一段虚空影像,每个人都能对这首歌产生独特理解。
那么,由人类训练出来的AI能“听懂”歌曲么?
最近,一个名叫「Music To Image」的AI应用出现在Hugging Face大模型社区,直接飙升本周热门,「音乐生成图片」的玩法首次被全面激发。
玩法也十分简单,只需在页面上拖拽或者上传一段音频文件,支持MP3/WAV等常见音频格式(EVA个人推荐不要太长,容易拉长推理时长)。
在图中左下角粘贴YouTube的视频地址,点击「Load YT song」,AI应用平台还能自动提取在线音频。
那么AI“脑中”的歌曲会长出怎样的画面呢?
王心凌《当你》:能理解节奏夹带的情绪
这么有意思的AIGC应用平台,自然要好好调戏!
EVA尝试上传了一段王心凌的《当你》副歌高潮部分,AI允许用户选择是否需要识别“歌词”(Lyrics)。我勾选了“Yes”,然后便是——
很惊讶,它竟然能够准确研读出中文…
当你的眼睛眯着笑,当你喝可乐当你吵。
我想对你好,你从来不知道。
想你想你,也能成为嗜好。
AI尝试“理解了”这首歌的副歌部分,并且以文本的形式表达了它对这首歌的理解:
该图像描绘了在一个温暖的夏夜,一群青少年聚集在篝火旁。他们都在笑着,空气中弥漫着一种怀旧和渴望的感觉。女歌手坐在一根圆木上,弹着原声吉他,用心歌唱。
电吉他和低音吉他在背景中清晰可见,为场景增添了深度和能量。音乐的节奏体现在树木在风中轻轻摇曳,闪烁的篝火营造出温暖舒适的光芒。当音乐达到高潮时,大家自发地爆发出欢呼声和掌声,他们的脸上洋溢着喜悦和联系。
“女歌手”指的是王心凌的音色,一群年轻人围着篝火弹吉他,诉说着怀念与渴望的爱情,这个画面也太吻合这首歌的画面幻想了。
然后根据这段AI「音乐生成文本」的“理解”,AI会直接调用AI绘画工具Stable Diffusion的API接口,进行下一步的「文生图」动作。
AI帮我们画出了这样一幅《当你》的画面——
不知道为什么,看到这一幕,EVA竟然有点感动。
伯牙子期的高山流水遇知音的故事,大概也莫过于此了吧!
完全不一样的是,知音竟然不是人类!
但话说回来,Stable Diffusion生成的人像脸庞和手指依然崩坏。
林俊杰《江南》:悲春伤秋的殉道者
继续!接下来,换成一位男歌手吧!
EVA往AI平台上传了家人们耳熟能详的林俊杰经典歌曲《江南》的副歌部分,长度为34秒。
同样的上传MP3文件动作,然后点击「Generate Image from Music」。生成的时间根据云端服务器的队列情况与音频文件的长度而定,通常30秒的音频生成大约在2分钟左右。
AI生成的“理解”文案是——
该图像描绘了一对夫妇在秋高气爽的日子里站在山坡上俯瞰宁静的湖泊。男歌手背对着镜头,带着沉思的表情看着窗外的风景。他的爱人就站在他身边,双手搂着他的腰,抬起头迎上他的目光。
两人都穿着简单而优雅的衣服,微风拂过头发。头顶的天空是深蓝色的,飘散着几朵蓬松的云彩。随着歌曲的进行,夫妻俩开始翩翩起舞,动作流畅优美,仿佛被微风吹拂一般。
气氛充满浪漫和渴望,空气中弥漫着怀旧和心碎的感觉。该图像捕捉了歌曲情感的精髓,重点关注这对夫妇的情感旅程和他们周围自然世界的美丽。
不强求对歌曲的画面认知与中国风的曲风理解,单纯从这段文字来看,首先“男歌手”的判断是对的,也抓到了歌曲里边包含的那种失恋、殉情与悲伤的基调。
AI生成对应副歌部分的画面是——
AI“脑补”的殉情画面,是相约投湖自尽么?——“不懂爱恨情愁煎熬的我们,都以为相爱就像风云的善变”。
Emmm…你竟然也不能说AI的“理解”偏差得很离谱,因为秋意浓往往与悲春伤秋联系在一起。
周杰伦《枫》:意境理解完美!
既然已经触及了秋天,咱们再换一首周杰伦脍炙人口的《枫》考验一下AI。
AI生成的“理解”文案是——
该图像描绘了一对夫妇站在悬崖上俯瞰广阔的秋季景观。夕阳西下,给整个场景镀上一层温暖的橙色光芒。男歌手背对着观众站立,双臂向两侧伸展,全心全意地唱歌。他的头发被微风吹到脑后,他的双眼紧闭,专注地专注着。在他身后,可以看到女歌手,她的脸背向观众,闭着眼睛沉思。
在背景中可以看到电吉他和低音吉他,它们的琴弦随着音乐而振动。远处隐隐约约传来鼓声,给场景增添了深度和节奏。当这对夫妇站在悬崖上时,气氛是一种情感渴望,沉浸在自己的思绪和回忆中。风轻轻地带着秋天的气息,给画面增添了一丝怀旧和忧郁的感觉。
当音乐达到高潮时,夫妻俩转身面对面,眼神深邃而充满激情。画面渐渐变黑,空气中回荡着两人齐声跳动的心跳声。
尽管不懂AI是怎么“听出两位歌手”,但AI完整地“理解了”周董歌词当中的悲情色彩,整个描述提示词也是非常有画面感。EVA愿意给AI打上9分,扣一分怕它骄傲!
只要歌词与曲调理解对了,生成的画面基本不会偏离太大。
漫山遍野的红叶,与落日构成了深情的画卷。
EVA今年也是头一回听说「音生图」,这种玩法真的太有意思了。未来还会有什么新鲜事儿,我已经好奇心免疫了
「音生图」背后的神秘独角兽
给「Music To Image」大模型做算力背书的“独角兽企业”正是Hugging Face。
这家平台公司致力于成为AI机器学习领域的GitHub,通过创建一个开放开源的机器学习模型社区,让全球AI开发者免费使用,将最前沿的技术通过开放平台进行普惠化。
8月8日,英伟达宣布与Hugging Face达成战略合作关系,作为AI算力界的领头羊,英伟达看中的正是Hugging Face开源社区存在的多样性与潜力值。
资本大佬的高度认可离不开Hugging Face过硬的商业逻辑。
首先,Hugging Face降低了开发者的训练成本,允许开发者将诸如「音生图」这种AI能力直接集成到自己的应用产品中,完全省去了训练环节。
其次,Hugging Face社区上目前已经汇集超过12万个大模型,数量和质量还在不断提升。
最后,类似于GitHub社区的免费开源模式,Hugging Face不断吸引来自世界各地的开发者云集。
Hugging Face社区内这款最新的「Music To Image」AI音频生成图片的多模态转换工具,它的本质生成逻辑是音频→文本提示词→图像,为AIGC创作提供了全新的视角与创作玩法。想必相信看到这里的家人朋友们已经跃跃欲试,想拿自己喜欢的歌曲来考验AI了。赶紧点击文章页面顶部的链接去体验吧!
近期文章
更多