商汤「日日新4.0」大模型测评：性能逼近GPT-4，全新「Assistants API」能力连OpenAI都只能自叹不如-AI奇点网

首页 > 资讯 > 文章

2024-02-16 11:34

商汤「日日新4.0」大模型测评：性能逼近GPT-4，全新「Assistants API」能力连OpenAI都只能自叹不如

近日，商汤官宣新一代大模型「日日新SenseNova 4.0」。

大模型体系全面升级，宣称多项任务性能超越GPT-4！

不仅如此，商汤还领先推出全球首个支持不同模态下实现工具调用的Assistants API，伴随新版模型同时发布。

除了升级旗下的「商量」对话模型、「秒画」图像模型外，商汤还发布了数据分析大模型，以及医疗大模型「大医」等。

值得一提的是，商汤最新首发的Assistants API内置多种开发工具，可以实现「文生图」与「图生文」互相转换，属实全球首发。

这一构想最早由OpenAI提出，没想到是“起了个大早，赶了个晚集”。

当我们将大模型和各类工具应用结合起来，开发者就可以打造更强大的大模型，让模型拥有「眼睛」和「手臂」，轻松调用图+文多模态能力。

下边一起细细品味商汤大模型的华丽进展~

AI智能识图测评

图像内容理解，是一个多模态模型最基本的能力。

给商汤大模型一张普通的公路行车图像，它将图中字体特别小的指示牌信息提取出来，并进行推理，最终给出了「黄石东路」怎么走的决策。

再看下面这张油画图像，蝴蝶的动态、昆虫的颜色都能一一辨别，还能进行深入分析，辨别出作者的签名，提供评价供用户参考。

此外，上传一张海报进行识别，商汤的表现也是十分出色——它可以通过辨别文字信息，进而判断这是一张主题海报。

甚至还能通过结合文字信息和视觉信息，读懂整幅海报的氛围。

服装穿搭，它也非常拿手，让你穿着打扮更有范儿。

直接上传一张衣服的照片，询问该怎么穿搭?

它会识别出衣服颜色款式，并会提供合适的穿搭建议。

商汤的多模态模型不仅可以读懂一般的图像，甚至可以轻松拿捏表情包。

比如这只歪头凝视的猫咪，它的认知是准确的。

上传一张东方明珠的照片，它就会给出详细的景点介绍。

AI图片生成测评

除了图像理解“图生文”外，商汤大模型可以为你将东方明珠这个主题画面，制作一张相似场景的节日夜景。

注意看，这是在同一轮对话窗口内实现的多模态转换。

AI在线检索测评

借助在线检索工具，可以让我们拥有了访问互联网数据的能力。

比如，让它查询上海各区最新的人口数据，就能给出准确的回应。

AI数据分析测评

作为一个产品经理，想让各个APP的使用情况实现图表可视化，就只需要上传一份APP使用数据的Excel表格。

借助商汤大模型旗下的“小浣熊家族”办公工具，生成相应的Python代码，以及所要求的图表，并在右边给出对应的数据分析结果。

不管是简单的折线图，还是复杂的箱线图，都可以快速呈现。

除此之外，它还可以分析多个表格之间的关联关系。

比如各地的水资源分布与当地的人口是否存在相关性。

不仅可以针对多个表格文件进行关联分析，还能进行多轮对话。

如果对图表呈现感觉不满意，还能提出修改意见。

商汤“日日新”4.0：部分能力超越GPT-4

多模态能力的提升，有赖于最新升级的“日日新”大模型4.0.在整体表现上已经非常接近GPT-4的水平了。

更为全面的知识覆盖、更加可靠的推理能力，更长文本理解力，及稳定的数字推理能力和代码生成能力，并支持跨模态交互。

具体来说：

代码能力在HumanEval Coding测评标准上超越了GPT-4 Turbo
多模态能力在MMBench评测上，整体性能超越GPT-4V
代码解释器在数据分析领域以85.71%的正确率超越GPT-4
部分垂直领域能力，实现对GPT-4 Turbo的领先
推理能力则达到了GPT-4 Turbo 99%的水平

商汤还针对“商量”大语言模型进行了高强度的针对性压力测试，数据全面对标GPT-4。

其中“商量”SenseChat-32k可支持约3万字以上的中文长文本总结，整体能力平均达到了GPT-4-32K 90%以上水平，并在中文内容理解能力上实现了超越。

「旗舰版的」“商量”SenseChat-128k，更是可以支持约12万以上的中文长文本总结，直接吞下一篇深度的学术报告。

压力性能测试下，128k、32k版本的“召回率”，整体表现超过GPT-4。

内置数据分析工具集

商汤数据分析工具应用「小浣熊家族」，能理解多种表格和文件类型以及复杂表格处理。

可支持多种格式的本地数据文件上传(如xls、xlsx、csv、txt、json等)，以及单表格、多表格、多文档类型、复杂表格等不同数据场景。

结果显示，商汤大模型在测试集上的语义理解精度超越GPT-4.强大的中文理解能力加持下，更能够满足国内数据分析的需求。

医疗垂直大模型后来居上

商汤还打造了医疗大模型「大医」，在多个垂类测试当中击败了同行。

有效实现专业医学问答以及复杂医学任务的推理，配合上丰富的工具调用能力，还能支持更多模态医学文件的智能解读和交互问答。

在两项行业权威评测——2023年职业药剂师考试大模型评测和中文医疗大语言模型开放评测平台MedBench中，「大医」均跻身综合评分排名第二，性能接近GPT-4。

AI在线生图对提示词还原可圈可点

商汤旗下的“秒画”文生图大模型也得到了升级，细节大幅提升，可实现电影级质感的图像。

具体来说，相对于之前的版本，“秒画”的文生图大模型从十亿级的训练量上升到百亿级参数。

他们还进一步优化了图像模型的Turbo版本，出图提速10倍。

全球首发：Assistants API支持不同模态工具调用

对于更多的应用开发者来说，商汤“日日新”4.0此番升级带来了领跑OpenAI的工具落地能力。

开发者可以一站式调用“⽇⽇新”的图片生成(文生图)、智能识图(图生文)、数据分析(代码解释器)、在线检索工具这几项能力。

如此一来，大大降低了开发者想要在自己的应用中实现各种AI功能的门槛，使得API的调用效率产生了质的提高。

「Assistants API」的概念最早由OpenAI在去年11月的开发者大会上提出，直译过来就是：API调用助理。

然而，OpenAI官宣的API开发助手，并不支持多模态能力，这意味着开发者无法同时调用GPT对话模型与DALL·E 3图像模型。

作为国内领先的人工智能企业，商汤仅仅用了不到三个月，就做出全球首个支持不同模态工具调用的「Assistants API」，比OpenAI领先落地产品，先OpenAI一步让理想照进了现实。

与传统的对话机器人接口相比，商汤Assistants API的突出优势在于，支持图+文结合的多模态交互，以及代码执行结果的直观呈现。

医学上，我们认为人类的“左脑更理性，右脑更感性”。

商汤Assistants API赋予了大模型各项推理能力以及绘制图像的能力，让AI的“左右脑”同时协同起来。

Assistants API的创新，将推动大模型技术的商业格局发生巨变，增强自动化智慧决策能力。

正如商汤「日日新」之名，升级到4.0版本后，大语言模型、多模态大模型，以及图像生成大模型，全系完成一轮进化。

面向未来，大模型的根本在于重塑生产力，各位开发者不妨细细品读商汤正在做的技术赋能。

商汤Assistants API免费申请地址：

https://platform.sensenova.cn/

[实测：一般提交申请，1小时内就能自动下发测试账号。]

5

查看相关话题： #商汤 #日日新 #AI大模型 #文生图 #图生文 #AI图像生成

相关文章

知名AI科技媒体

作者已发布 108 篇文章

近期文章

更多

OpenAI o1模型问世，五级AGI再突破！推理极限超博士，清北复旦华人立功

OpenAI o1模型问世，五级AGI再突破！推理极限超博士，清北复旦华人立功

全球最大，马斯克4个月建成10万张H100超算集群！xAI算力超越OpenAI，奥特曼怕了

全球最大，马斯克4个月建成10万张H100超算集群！xAI算力超越OpenAI，奥特曼怕了

阶跃星辰生图模型上线，国风意境绝美，隐藏咒语曝光！

阶跃星辰生图模型上线，国风意境绝美，隐藏咒语曝光！

微软Copilot新增功能：可对生成的图像，进行在线编辑！

上一篇

「赛博」时间管理大师！俄罗斯码农小哥让ChatGPT帮忙找女朋友：一年聊了5239个，今年官宣结婚

下一篇