实测阿里通义千问视觉大模型Qwen-VL Max「超大杯」：会读图、写代码，秒懂网络梗图，中文顶流性能视觉大模型-AI奇点网

首页 > 测评 > 文章

2024-01-30 11:36

实测阿里通义千问视觉大模型Qwen-VL Max「超大杯」：会读图、写代码，秒懂网络梗图，中文顶流性能视觉大模型

最近，阿里的通义千问实在火。前段时间被网友玩疯的全民舞王，让「AI科目三」频频登上热搜。

让甄嬛、慈禧、马斯克、猫主子和兵马俑能跳舞那款AI，就藏在通义千问APP背后。

🔗相关阅读：

马斯克狂跳「科目三」全网刷屏！阿里通义千问上线“全民舞王”集成Animate Anyone视频模型：免费创作AI舞蹈

2024新年伊始，阿里凭借AI项目再次杀上热搜榜！最近两天，抖音平台充斥了各种“马斯克狂跳「科目三」舞蹈”的短片，正是出自阿里云的通义千问之手。

万万没想到，兵马俑都开始跳「科目三」：阿里云通义千问APP打造“全民舞王”视频创作工具，实测效果大赞

兵马俑跳《科目三》，是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」，生成出来了这个舞蹈片段。

往下看，目前最强的国产视觉语言模型了解一下。

就在这几天，通义千问团队又对多模态大模型下手了——再一次升级通义千问视觉语言模型Qwen-VL，继Plus版本之后，又推出Max版本。

Qwen-VL是阿里在2023年8月推出的具备图文理解能力的大模型，基于通义大语言模型开发。升级后的Qwen-VL视觉水平大幅提升，对很多图片的理解水平接近人类。并且，还能够支持百万像素以上的高清分辨率图，以及各种极端长宽比的图片。

升级版模型限时免费，在通义千问官网和APP都可体验，API也可免费调用。

Hugging Face社区也可以体验：https://huggingface.co/spaces/Qwen/Qwen-VL-Max

评测结果显示，Qwen-VL的升级版本在MMMU、MathVista等任务上远超业界所有开源模型，在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V，达到世界最佳水平。

在第三方权威评测上，Qwen-VL常常与GPT-4V、Gemini携手占据业界三强，与其他竞争者拉开相当大的差距。

话不多说，小编立马展开实测。

多模态基础能力

首先，我们直接来了一道难度拉满的题——这是一张小编在10年前位于雪乡拍摄的照片。

Qwen-VL-Max不仅一眼认了出来，而且还配上了一段非常优美的描写：

房屋上覆盖着厚厚的积雪，像是童话里的小木屋。太阳刚刚升起，给雪地和房屋染上了一层温暖的色彩。远处的山峦和森林也笼罩在淡黄色的晨光中，整个场景显得宁静而祥和。

而GPT-4V则表示，由于没有具体的地标，因此无法给出确切的位置。

接下来，Qwen-VL-Max不仅数对了难倒GPT-4V的「数数几个葫芦娃」问题。

而且还通关了经典的计算机视觉难题——「吉娃娃与松饼」。

类似的诸如「毛巾卷和沙皮狗」「柯基屁股与土司」这些错觉梗等等，也能顺利答出。

甚至它还可以理解「给吉娃娃套上吐司」这样恶搞的图片。

对于在一张图里分别辨认多个名人这类问题，Qwen-VL-Max同样能够立刻给出正确的回答。

比如刚刚当选ACM Fellow的图灵三巨头。

以及辨认出科技圈的一众大佬。

同样，它也可以精准识别出图像中的文字，即便是手写体也不在话下。

相比之下，GPT-4V则未能识别对图中毛笔写的字，而是给出了「恭贺新禧大吉大利」一个莫名其妙的回答。

有趣的是，Qwen-VL-Max还能根据自己对图像的理解写诗。

比如这首根据「权力的游戏」中的名场面作的中文诗，就颇有意境。

而根据同一个场景作出的英文诗，也很有韵致。

视觉Agent代理能力

除了基础的描述和识别能力外，Qwen-VL-Max还具备视觉定位能力，可以针对画面指定区域进行问答。

比如它能在一群猫猫中准确框出黑猫。

还能在吉娃娃和松饼中框出吉娃娃。

我们标出OpenAI联合创始人Karpathy的推文里边的一个图像，询问Qwen-VL-Max标出的部分是什么意思。

它立马给出的正确回答：标出的部分是流程图，展现了AlphaCodium的代码生成过程。同时还给出了正确的描述。

关键信息提取处理

在实测中我们发现，Qwen-VL-Max最显著的进步之一，就是基于视觉可以完成复杂的推理任务。

这不仅限于描述的文本内容，而是能理解复杂的表达形式。

比如，下面这道看似简单的初中难度的几何题，由于条件信息都被嵌入进了图像里的，其实难倒了不少视觉模型，直呼“无法获取数据”。

相比之下，Qwen-VL-Max直接给出了正确解答。

再比如解释下图中的算法流程图。

Qwen-VL-Max会清晰地给出整套流程的解释，包括每一步之后需要进行的步骤。

小朋友的启蒙编程教学题，Qwen-VL-Max也能正确地理解图中的流程，转换成对应可以运行的Python程序。

然后将Python代码一键导出到本地。

直接给图表，Qwen-VL-Max就能对之做出深入分析和解读。

论文中多复杂的图表，它都能瞬间帮我们整理成表格的形式，简洁直观。

下面的图形推理题，它能准确推测出，「图四」应该是：星星中有一个点的图形。

文本信息识别处理

这次，迭代后的Qwen-VL-Plus/Max处理图像中的文本的能力也显著提升，尤其是中文和英文文本。

大模型可以有效地从表格和文档中提取信息，并将这些信息重新格式化。

比如，随手拍一张铺满字的药品说明书图片上传，要求它按规范格式输出文字。

Qwen-VL-Max不仅可以准确识别出图片中文字，还可以将图中【标点符号】同步出来。

甚至下面这种写满笔记而且还存在遮盖的扫描版文档，也能识别出来。

Qwen-VL碾压同级大模型，AI社区盛赞

通义千问在多种复杂视觉任务上的表现着实让人惊艳，背后的技术架构是怎样的?

早在去年8月，团队就开源了基于Qwen-7B和ViT-G的Qwen-VL。

论文地址：https://arxiv.org/abs/2308.12966

不同于直接使用视觉语言下游任务数据集进行对齐，团队在训练初代Qwen-VL时设计了一种三阶段的训练方法。

阶段一：预训练——将视觉编码器与冻结LLM对齐

因为训练数据规模不足，可能导致任务泛化性能较差，所以使用大量的弱监督图像文本对数据(如LAION-5B)进行对齐。

与此同时，为了保留LLM的理解和生成能力，还需冻结LLM。

阶段二：多任务预训练——赋予Qwen-VL完成多样下游任务的能力

让LLM在视觉问答、图像描述生成(Image Caption)、OCR、视觉定位(Visual Grounding)等各种任务上完成预训练。

这里，直接用文字坐标表示位置，因此LLM能够自然地输出关注元素的位置信息。

阶段三：监督微调——将视觉语言模型与人类偏好对齐

收集并构造了一组多样化的SFT样本，对视觉语言模型进行了初步的对齐处理。

可以看到，在主流多模态任务评测和多模态聊天能力评测中，Qwen-VL都取得同期远超同等规模通用模型的表现。

Qwen-VL模型开源后，在AI社区受到了广泛的好评和推荐。

有网友感慨道，人工智能的下一次进化来了！Qwen-VL模型巧妙地融合了视觉+文本推理，推进了多模态人工智能发展。

还有网友表示，通义千问团队的工作非常出色和认真，尤其是新发布的版本，绝对优秀。

当然，全新迭代后的Qwen-VL-Plus性能更是大幅提升，网友纷纷开启测试。

比如有人发现，Qwen-VL-Plus竟通过了自己的「蘑菇辨识测试」(识别图片中某个特定种类的蘑菇)，他表示「这是第二个开源VLM模型通过这项测试」。

还有人将Qwen-VL-Plus与ChatGPT进行了对比，认为通义千问模型给出的回答更加让人印象深刻。

3

查看相关话题： #阿里 #通义千问 #AI测评

相关文章

知名AI科技媒体

作者已发布 107 篇文章

近期文章

更多

全球最大，马斯克4个月建成10万张H100超算集群！xAI算力超越OpenAI，奥特曼怕了

全球最大，马斯克4个月建成10万张H100超算集群！xAI算力超越OpenAI，奥特曼怕了

阶跃星辰生图模型上线，国风意境绝美，隐藏咒语曝光！

阶跃星辰生图模型上线，国风意境绝美，隐藏咒语曝光！

OpenAI惨遭打脸！SearchGPT官方演示大翻车，源代码竟暴露搜索机制

OpenAI惨遭打脸！SearchGPT官方演示大翻车，源代码竟暴露搜索机制

腾讯文档上线AI助手，上手实测：有望成为ToC办公应用领跑者！

上一篇

百川智能发布超千亿大模型Baichuan 3：医疗场景全面覆盖，实测中文任务赶超GPT-4，写诗写词更懂国人

下一篇