你已经是个“成熟的AI”，可以帮我代肝了：智谱AI联合清华大学团队打造视觉大模型CogAgent：可提供《原神》教学辅助-AI奇点网

首页 > 资讯 > 文章

2024-01-02 10:00

你已经是个“成熟的AI”，可以帮我代肝了：智谱AI联合清华大学团队打造视觉大模型CogAgent：可提供《原神》教学辅助

AI奇点网1月2日报道丨近日，清华大学的 KEG 实验室与旗下孵化的人工智能创企智谱 AI 合作，联合推出了新一代视觉GUI Agent图像理解大模型 CogAgent。这款产品在几个月前曾经在圈内引发了小轰动。

所谓的视觉GUI Agent，就是通过大模型参与大规模的图像内容训练，使之可以替代人类完成指定的代理操作的一种大模型技术。

长期对人类行为进行研究发现，人类是通过视觉与GUI交互的。比如，面对一个网页，当给定一个操作目标时，人类会先观察他的GUI界面，然后决定下一步做什么，而不是去扒它冗长的HTML源码。GUI界面天然是为了人类便捷而设计的。也就是说，在GUI场景下，视觉是一种更为直接、本质的交互模态，能更高效完整提供环境信息。

CogAgent就是这样一款基于视觉的GUI Agent。下面的示例展现了其工作路径与能力。用户只需把操作目标“search for the best paper in CVPR 2023”连同当前截图一起丢给模型，CogAgent就能预测出详细的动作，甚至能够把操作元素的精准定位也一同输出！

该模型基于此前推出的 CogVLM，通过视觉 GUI Agent，使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知，从而作出规划和决策。

CogAgent 可以接受 1120×1120 的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，在 9 个经典的图像理解榜单上（包括 VQAv2.STVQA，DocVQA，TextVQA，MM-VET，POPE 等）取得了通用大模型能力第一名的成绩。

例如，用户输入一张关于 CogVLM 项目的 GitHub 的图片，然后询问如何给这个项目点“Star”，然后 CogAgent 就会反馈出结果。

例如用户输入一张原神游戏的截图，可以询问“当前任务中的队友是谁?”，CogAgent 会给出相关的回答。

AI大模型能”看懂“游戏界面上展示的GUI信息。具体来说，翻译过来大概是这样的：

用户：Who are the teammates on the current mission? （当前任务中的队友是谁？）

CogAgent：The teammates on the current mission are Raiden Shogun, Bennett, and Kaedehara Kazuha. （当前任务中的队友是Raiden Shogun, Bennett, and Kaedehara Kazuha。）

用户：I'm looking for guidance on how to "Find out how to view a detailed map"? （我想知道如何“查看详细地图”？）

CogAgent：Plan: 1. Identify the map icon on the screen. 2. Click on the map icon to open the detailed map view. （计划：1. 确定屏幕上的地图图标。2. 点击地图图标打开详细地图视图。）

Next Action: Move the cursor over the top left corner of the screen and click on the compass-like icon with 'N' inside it. （下一步操作：将光标移动到屏幕左上角，点击内有“N”的类似指南针的图标。）