商汤「日日新4.0」大模型测评:性能逼近GPT-4,全新「Assistants API」能力连OpenAI都只能自叹不如
近日,商汤官宣新一代大模型「日日新SenseNova 4.0」。
大模型体系全面升级,宣称多项任务性能超越GPT-4!
不仅如此,商汤还领先推出全球首个支持不同模态下实现工具调用的Assistants API,伴随新版模型同时发布。
除了升级旗下的「商量」对话模型、「秒画」图像模型外,商汤还发布了数据分析大模型,以及医疗大模型「大医」等。
值得一提的是,商汤最新首发的Assistants API内置多种开发工具,可以实现「文生图」与「图生文」互相转换,属实全球首发。
这一构想最早由OpenAI提出,没想到是“起了个大早,赶了个晚集”。
当我们将大模型和各类工具应用结合起来,开发者就可以打造更强大的大模型,让模型拥有「眼睛」和「手臂」,轻松调用图+文多模态能力。
下边一起细细品味商汤大模型的华丽进展~
图像内容理解,是一个多模态模型最基本的能力。
给商汤大模型一张普通的公路行车图像,它将图中字体特别小的指示牌信息提取出来,并进行推理,最终给出了「黄石东路」怎么走的决策。
再看下面这张油画图像,蝴蝶的动态、昆虫的颜色都能一一辨别,还能进行深入分析,辨别出作者的签名,提供评价供用户参考。
此外,上传一张海报进行识别,商汤的表现也是十分出色——它可以通过辨别文字信息,进而判断这是一张主题海报。
甚至还能通过结合文字信息和视觉信息,读懂整幅海报的氛围。
服装穿搭,它也非常拿手,让你穿着打扮更有范儿。
直接上传一张衣服的照片,询问该怎么穿搭?
它会识别出衣服颜色款式,并会提供合适的穿搭建议。
商汤的多模态模型不仅可以读懂一般的图像,甚至可以轻松拿捏表情包。
比如这只歪头凝视的猫咪,它的认知是准确的。
上传一张东方明珠的照片,它就会给出详细的景点介绍。
除了图像理解“图生文”外,商汤大模型可以为你将东方明珠这个主题画面,制作一张相似场景的节日夜景。
注意看,这是在同一轮对话窗口内实现的多模态转换。
借助在线检索工具,可以让我们拥有了访问互联网数据的能力。
比如,让它查询上海各区最新的人口数据,就能给出准确的回应。
AI数据分析测评
作为一个产品经理,想让各个APP的使用情况实现图表可视化,就只需要上传一份APP使用数据的Excel表格。
借助商汤大模型旗下的“小浣熊家族”办公工具,生成相应的Python代码,以及所要求的图表,并在右边给出对应的数据分析结果。
不管是简单的折线图,还是复杂的箱线图,都可以快速呈现。
除此之外,它还可以分析多个表格之间的关联关系。
比如各地的水资源分布与当地的人口是否存在相关性。
不仅可以针对多个表格文件进行关联分析,还能进行多轮对话。
如果对图表呈现感觉不满意,还能提出修改意见。
多模态能力的提升,有赖于最新升级的“日日新”大模型4.0.在整体表现上已经非常接近GPT-4的水平了。
更为全面的知识覆盖、更加可靠的推理能力,更长文本理解力,及稳定的数字推理能力和代码生成能力,并支持跨模态交互。
具体来说:
商汤还针对“商量”大语言模型进行了高强度的针对性压力测试,数据全面对标GPT-4。
其中“商量”SenseChat-32k可支持约3万字以上的中文长文本总结,整体能力平均达到了GPT-4-32K 90%以上水平,并在中文内容理解能力上实现了超越。
「旗舰版的」“商量”SenseChat-128k,更是可以支持约12万以上的中文长文本总结,直接吞下一篇深度的学术报告。
压力性能测试下,128k、32k版本的“召回率”,整体表现超过GPT-4。
商汤数据分析工具应用「小浣熊家族」,能理解多种表格和文件类型以及复杂表格处理。
可支持多种格式的本地数据文件上传(如xls、xlsx、csv、txt、json等),以及单表格、多表格、多文档类型、复杂表格等不同数据场景。
结果显示,商汤大模型在测试集上的语义理解精度超越GPT-4.强大的中文理解能力加持下,更能够满足国内数据分析的需求。
商汤还打造了医疗大模型「大医」,在多个垂类测试当中击败了同行。
有效实现专业医学问答以及复杂医学任务的推理,配合上丰富的工具调用能力,还能支持更多模态医学文件的智能解读和交互问答。
在两项行业权威评测——2023年职业药剂师考试大模型评测和中文医疗大语言模型开放评测平台MedBench中,「大医」均跻身综合评分排名第二,性能接近GPT-4。
商汤旗下的“秒画”文生图大模型也得到了升级,细节大幅提升,可实现电影级质感的图像。
具体来说,相对于之前的版本,“秒画”的文生图大模型从十亿级的训练量上升到百亿级参数。
他们还进一步优化了图像模型的Turbo版本,出图提速10倍。
对于更多的应用开发者来说,商汤“日日新”4.0此番升级带来了领跑OpenAI的工具落地能力。
开发者可以一站式调用“⽇⽇新”的图片生成(文生图)、智能识图(图生文)、数据分析(代码解释器)、在线检索工具这几项能力。
如此一来,大大降低了开发者想要在自己的应用中实现各种AI功能的门槛,使得API的调用效率产生了质的提高。
「Assistants API」的概念最早由OpenAI在去年11月的开发者大会上提出,直译过来就是:API调用助理。
然而,OpenAI官宣的API开发助手,并不支持多模态能力,这意味着开发者无法同时调用GPT对话模型与DALL·E 3图像模型。
作为国内领先的人工智能企业,商汤仅仅用了不到三个月,就做出全球首个支持不同模态工具调用的「Assistants API」,比OpenAI领先落地产品,先OpenAI一步让理想照进了现实。
与传统的对话机器人接口相比,商汤Assistants API的突出优势在于,支持图+文结合的多模态交互,以及代码执行结果的直观呈现。
医学上,我们认为人类的“左脑更理性,右脑更感性”。
商汤Assistants API赋予了大模型各项推理能力以及绘制图像的能力,让AI的“左右脑”同时协同起来。
Assistants API的创新,将推动大模型技术的商业格局发生巨变,增强自动化智慧决策能力。
正如商汤「日日新」之名,升级到4.0版本后,大语言模型、多模态大模型,以及图像生成大模型,全系完成一轮进化。
面向未来,大模型的根本在于重塑生产力,各位开发者不妨细细品读商汤正在做的技术赋能。
商汤Assistants API免费申请地址:
[实测:一般提交申请,1小时内就能自动下发测试账号。]
近期文章
更多