首页  >  资讯  >  文章
2024-02-16 11:34

商汤「日日新4.0」大模型测评:性能逼近GPT-4,全新「Assistants API」能力连OpenAI都只能自叹不如

图片

近日,商汤官宣新一代大模型「日日新SenseNova 4.0」。

大模型体系全面升级,宣称多项任务性能超越GPT-4!

不仅如此,商汤还领先推出全球首个支持不同模态下实现工具调用的Assistants API,伴随新版模型同时发布。

图片

除了升级旗下的「商量」对话模型、「秒画」图像模型外,商汤还发布了数据分析大模型,以及医疗大模型「大医」等。

值得一提的是,商汤最新首发的Assistants API内置多种开发工具,可以实现「文生图」与「图生文」互相转换,属实全球首发。

这一构想最早由OpenAI提出,没想到是“起了个大早,赶了个晚集”。

当我们将大模型和各类工具应用结合起来,开发者就可以打造更强大的大模型,让模型拥有「眼睛」和「手臂」,轻松调用图+文多模态能力。

下边一起细细品味商汤大模型的华丽进展~

AI智能识图测评

图像内容理解,是一个多模态模型最基本的能力。

给商汤大模型一张普通的公路行车图像,它将图中字体特别小的指示牌信息提取出来,并进行推理,最终给出了「黄石东路」怎么走的决策。

图片

再看下面这张油画图像,蝴蝶的动态、昆虫的颜色都能一一辨别,还能进行深入分析,辨别出作者的签名,提供评价供用户参考。

图片

此外,上传一张海报进行识别,商汤的表现也是十分出色——它可以通过辨别文字信息,进而判断这是一张主题海报。

甚至还能通过结合文字信息和视觉信息,读懂整幅海报的氛围。

图片

服装穿搭,它也非常拿手,让你穿着打扮更有范儿。

直接上传一张衣服的照片,询问该怎么穿搭?

它会识别出衣服颜色款式,并会提供合适的穿搭建议。

图片

商汤的多模态模型不仅可以读懂一般的图像,甚至可以轻松拿捏表情包。

比如这只歪头凝视的猫咪,它的认知是准确的。

图片

上传一张东方明珠的照片,它就会给出详细的景点介绍。

图片

AI图片生成测评

除了图像理解“图生文”外,商汤大模型可以为你将东方明珠这个主题画面,制作一张相似场景的节日夜景。

图片

注意看,这是在同一轮对话窗口内实现的多模态转换。

AI在线检索测评

借助在线检索工具,可以让我们拥有了访问互联网数据的能力。

比如,让它查询上海各区最新的人口数据,就能给出准确的回应。

图片

AI数据分析测评

作为一个产品经理,想让各个APP的使用情况实现图表可视化,就只需要上传一份APP使用数据的Excel表格。

借助商汤大模型旗下的“小浣熊家族”办公工具,生成相应的Python代码,以及所要求的图表,并在右边给出对应的数据分析结果。

图片

不管是简单的折线图,还是复杂的箱线图,都可以快速呈现。

图片

除此之外,它还可以分析多个表格之间的关联关系。

比如各地的水资源分布与当地的人口是否存在相关性。

图片

不仅可以针对多个表格文件进行关联分析,还能进行多轮对话。

如果对图表呈现感觉不满意,还能提出修改意见。

商汤“日日新”4.0:部分能力超越GPT-4

多模态能力的提升,有赖于最新升级的“日日新”大模型4.0.在整体表现上已经非常接近GPT-4的水平了。

更为全面的知识覆盖、更加可靠的推理能力,更长文本理解力,及稳定的数字推理能力和代码生成能力,并支持跨模态交互。

图片

具体来说:

  • 代码能力在HumanEval Coding测评标准上超越了GPT-4 Turbo
  • 多模态能力在MMBench评测上,整体性能超越GPT-4V
  • 代码解释器在数据分析领域以85.71%的正确率超越GPT-4
  • 部分垂直领域能力,实现对GPT-4 Turbo的领先
  • 推理能力则达到了GPT-4 Turbo 99%的水平

图片

商汤还针对“商量”大语言模型进行了高强度的针对性压力测试,数据全面对标GPT-4。

其中“商量”SenseChat-32k可支持约3万字以上的中文长文本总结,整体能力平均达到了GPT-4-32K 90%以上水平,并在中文内容理解能力上实现了超越。

「旗舰版的」“商量”SenseChat-128k,更是可以支持约12万以上的中文长文本总结,直接吞下一篇深度的学术报告。

压力性能测试下,128k、32k版本的“召回率”,整体表现超过GPT-4。

图片

内置数据分析工具集

商汤数据分析工具应用「小浣熊家族」,能理解多种表格和文件类型以及复杂表格处理。

可支持多种格式的本地数据文件上传(如xls、xlsx、csv、txt、json等),以及单表格、多表格、多文档类型、复杂表格等不同数据场景。

结果显示,商汤大模型在测试集上的语义理解精度超越GPT-4.强大的中文理解能力加持下,更能够满足国内数据分析的需求。

图片

医疗垂直大模型后来居上

商汤还打造了医疗大模型「大医」,在多个垂类测试当中击败了同行。

有效实现专业医学问答以及复杂医学任务的推理,配合上丰富的工具调用能力,还能支持更多模态医学文件的智能解读和交互问答。

在两项行业权威评测——2023年职业药剂师考试大模型评测和中文医疗大语言模型开放评测平台MedBench中,「大医」均跻身综合评分排名第二,性能接近GPT-4。

图片

AI在线生图对提示词还原可圈可点

商汤旗下的“秒画”文生图大模型也得到了升级,细节大幅提升,可实现电影级质感的图像。

图片

具体来说,相对于之前的版本,“秒画”的文生图大模型从十亿级的训练量上升到百亿级参数。

他们还进一步优化了图像模型的Turbo版本,出图提速10倍。

全球首发:Assistants API支持不同模态工具调用

对于更多的应用开发者来说,商汤“日日新”4.0此番升级带来了领跑OpenAI的工具落地能力。

开发者可以一站式调用“⽇⽇新”的图片生成(文生图)、智能识图(图生文)、数据分析(代码解释器)、在线检索工具这几项能力。

如此一来,大大降低了开发者想要在自己的应用中实现各种AI功能的门槛,使得API的调用效率产生了质的提高。

「Assistants API」的概念最早由OpenAI在去年11月的开发者大会上提出,直译过来就是:API调用助理。

图片

然而,OpenAI官宣的API开发助手,并不支持多模态能力,这意味着开发者无法同时调用GPT对话模型与DALL·E 3图像模型。

作为国内领先的人工智能企业,商汤仅仅用了不到三个月,就做出全球首个支持不同模态工具调用的「Assistants API」,比OpenAI领先落地产品,先OpenAI一步让理想照进了现实。

与传统的对话机器人接口相比,商汤Assistants API的突出优势在于,支持图+文结合的多模态交互,以及代码执行结果的直观呈现。

图片

医学上,我们认为人类的“左脑更理性,右脑更感性”。

商汤Assistants API赋予了大模型各项推理能力以及绘制图像的能力,让AI的“左右脑”同时协同起来。

Assistants API的创新,将推动大模型技术的商业格局发生巨变,增强自动化智慧决策能力。

正如商汤「日日新」之名,升级到4.0版本后,大语言模型、多模态大模型,以及图像生成大模型,全系完成一轮进化。

面向未来,大模型的根本在于重塑生产力,各位开发者不妨细细品读商汤正在做的技术赋能。

商汤Assistants API免费申请地址:

[实测:一般提交申请,1小时内就能自动下发测试账号。]

5

相关文章