商汤「日日新」5.0大模型上新:现场“暴打”GPT-4,端侧小模型SenseChat Lite效率突出,多项测评击败Llama 2
够刺激,GPT-4竟然当众被“揍”了,甚至连还手的机会都没有:
是的,就是在一场《街头霸王》游戏现场PK中,发生了这样的名场面。而且二者还是不在一个“重量级”的那种:
这位又小又彪悍的选手到底什么来头?
不卖关子,它正是由商汤科技最新发布的日日新端侧大模型——SenseChat Lite(商量轻量版)。
单是在《街头霸王》里的表现,这个小模型就颇有一种“天下武功,唯快不破”的气势:GPT-4还在想着怎么决策,SenseChat Lite的拳头就已经打上去了。
不仅如此,商汤CEO徐立还在现场加大难度,直接在手机上断网开测!例如离线模式下生成员工请假一周的申请,效果是这样的:
△现场原速
也可以对长段文字做快速总结:
△现场原速
而之所能够做到如此,是因为SenseChat Lite在同等尺度性能上已经达到了SOTA水平。
更是用“以小博大”的姿势在多项测试中击败了Llama2-7B,甚至是13B。
在速度方面,SenseChat Lite则是采用了端云“联动”的MoE框架,在部分场景中端侧推理占70%,会让推理成本变得更低。
具体而言,对比人眼20字/秒的阅读速度来说,SenseChat Lite在中等性能手机上,可以达到18.3字/秒推理速度。
若是在高端旗舰手机,那么推理速度可以直接飙到78.3字/秒!
但除了文本生成之外,徐立同样在现场还展示了商汤端侧模型的多模态能力。
例如同样是扩图,商汤的端侧大模型在慢半拍启动的情况下,扩了3种不同图片的速度比友商扩1张的速度还快:
演示的同学甚至直接现场拍照,把照片缩小了很多以后再来自由扩图:
嗯,不得不说,商汤是敢在现场动真格的。
然而,纵观整场活动,端侧大模型也还仅是此次发布会的一隅。
在“大基座”方面,商汤更是把自家的日日新大模型来了个大版本的升级——SenseNova 5.0.并且直接将其定位到了一个新高度:
全面对标GPT-4 Turbo!
那么日日新大模型5.0版本实力到底如何,我们这就来实测一波~
自打大模型火爆以来,“弱智吧”就一直成了检测大模型逻辑能力的标准之一,江湖戏称为“弱智吧Benchmark”。
(“弱智吧”源自百度贴吧,是一个充满荒谬、离奇、不合常理发言的中文社区。)
而且就在前不久,“弱智吧”还登上正经AI论文,成了最好的中文训练数据,引发了一波不小的热议。
那么当文本对话的商量大模型5.0遇到了“弱智吧”,二者又会擦出怎样的花火?
逻辑推理:“弱智吧”
请听第一题:我爸妈结婚为什么没有叫我?
商量的回答不同于其它AI,它会比较拟人的用“我”来做回答,而且从答案结果来看并没有过多冗余的内容,而是精准地做了回答和解释,“他们结婚时您还未出生”。
请听第二题:网吧能上网,为什么弱智吧不能上弱智?
同样的,商量直接精准点出“这是个玩笑性质的问题”,以及道出了“‘弱智吧’并非一个实际的地方”。
不难看出,对于“弱智吧”这种魔幻、不按套路出牌的逻辑,商量5.0是已经能够hold住了。
自然语言:高考《红楼梦》
除了逻辑推理能力之外,在自然语言生成方面,我们可以直接用2022年高考作文题目,来对比看下GPT-4和商量大模型5.0.
从结果上来看,GPT-4的文章还是一眼“AI模版”;而商量5.0这边,则是颇有诗意,不仅句子工整对仗,还能引经据典。
嗯,AI的思路是被打开、发散了。
数学能力:化繁为简
同样是让GPT-4和商量5.0同台竞技,我们这次来测试一下它们的数学能力:
妈妈给圆圆冲了一杯咖啡,圆圆喝了半杯后,将它加满水,然后她又喝了半杯后,再加满水,最后全部喝完。问圆圆喝的咖啡多,还是水多?咖啡和水各喝了几杯?
这道题对于人类来说,其实是一个比较简单的问题,但是GPT-4却对此做出了看似一本正经的缜密推导,结果还是错误的。
究其原因,是大模型背后的思维链在逻辑上的构建并不完整,若是遇到小众的问题就极容易出错;反观商量5.0这边,思路和结果就是正确的了。
再如下面这道“老鹰抓小鸡”的问题,GPT-4或许不理解这种游戏的规则,因为所算出来的答案依旧是错误:
不仅从实际体验的效果中可以感知一二,更为直接的评测榜单数据,也反应出了商量5.0的能力——
常规客观评测已经达到或超越GPT-4 Turbo。
那么日日新5.0又是如何做到的呢?一言蔽之,左手数据,右手算力。
首先,为了打破数据层面上的瓶颈,商汤采用了超过10T的tokens,使其具备了高质量数据的完备性,让大模型对客观知识和世界有了初级的认知。
此外,商汤还合成构造了高达数千亿tokens的思维链数据,这也是此次在数据层面上发力的关键点,能够激活大模型强推理的能力。
其次,是在算力层上,商汤是将算法设计和算力设施进行了联合的优化:算力设施的拓扑极限用来定义下一阶段的算法,而算法上的新进展又要重新知道算力设施的建设。
这便是商汤AI大装置对算法和算力联合迭代的核心能力所在了。
整体而言,日日新5.0的更新亮点可以总结为:
除此之外,在多模态领域,日日新5.0在多项核心指标中也取得了较为领先的成绩:
老规矩,我们继续来看多模态的生成效果。
更会看图了
例如“投喂”给商量5.0一张超级长的图片(646*130000),只需让它识别,便可以得到所有内容的概述:
再如随意丢给商量5.0一张有意思的猫咪图片,它就能根据派对帽、蛋糕和“生日快乐”等细节内容推断猫在庆生。
更实用一些的,例如上传一张复杂截图,商量5.0就能精准提取并总结出关键的信息,而这一点GPT-4在识别过程中却出现了失误:
在文生图方面,日日新的秒画5.0直接和Midjourney、Stable Diffuison和DALL·E 3进行了同台竞技。
例如在风格上,秒画生成的图片可能会更加接近prompt中提到的“国家地理”:
人物形象上,可以展示更加复杂的皮肤纹理:
甚至是文字也可以精准无误地嵌入到图像当中:
还发布了一个拟人大模型
除此之外,商汤在此次发布中还推出了一个比较特殊的大模型——拟人大模型。
从体验来看,它已经可以模仿影视角色、现实名人、《原神》世界等各种破次元的人物,并且与你展开高情商对话。
从功能上来看,商量拟人大模型支持角色创建与定制、知识库构建、长对话记忆等,甚至是可以三人以上群聊的那种哦~
也正是基于如此多模态能力,商汤大模型家族的另一大成员——小浣熊也迎来了能力上的升级。
商汤的小浣熊目前细分为办公小浣熊和编程小浣熊两大类,顾名思义,分别是作用于办公场景和编程场景。
有了办公小浣熊,现在处理表格、文档甚至代码文件,都成了“一丢+一问”的事情了。
以采购场景为例,我们可以先上传不同来源的供应商名单信息,然后跟办公小浣熊说:
单位、单价、备注。因为不同 sheet 中的表头信息并不一致,可将类似的表头内容进行合并。在对话框中展示表格结果,并生成本地下载链接,谢谢。
只需稍等片刻,我们就可以得到处理完后的结果了。
而且在左侧栏中,办公小浣熊还给出了分析过程的Python代码,主打一个“有迹可循”。
我们还可以同时上传库存信息和采购需求等多个文件:
然后继续提要求,办公小浣熊依旧是能够快速完成任务。
并且即使是数据形式不规范,它也能自行发现并解决:
当然,数据计算也是不在话下,依旧是提要求的事情。
除此之外,办公小浣熊也可以基于数据文件做可视化的工作,直接展示下有难度的热力图:
总结来看,办公小浣熊可以对多个、不同类型(如 Excel、csv、json 等)做处理,在中文理解、数理计算和数据可视化等维度有非常强的能力。并且它通过代码解释器的形式,增强了大模型生成内容的准确性与可控性。
另外,发布会上办公小浣熊还当场展示了结合复杂数据库进行分析的能力。
在前阵子,中国首位F1车手周冠宇完成了他在F1中国大奖赛的比赛。商汤在发布会现场直接给办公小浣熊“投喂”了一份数据量庞大的数据库文件,让小浣熊当场分析周冠宇和F1赛事的相关情况。
如统计周冠宇的参赛信息、F1总共有多少车手、有哪些车手获得过总冠军并按照获奖次数从高到低排列,这些计算涉及量更大、逻辑更复杂的数据表格和圈数、领奖数等更多维度的细节信息,最终也都给出了完全正确的答案。
在编程场景中,代码小浣熊也是可以让程序员们的效率直接Pro Max了。
例如只需在VS Code中安装扩展的插件:
然后编程的各个环节就变成了输入一句自然语言的事情了。
例如把需求文档丢给代码小浣熊,然后就说句:
帮我写一个公有云上微信扫码支付的详细PRD文档。PRD格式和内容请遵循“产品需求文档PRD模板”的要求,生成的内容清晰、完整、详细。
然后代码小浣熊就“唰唰唰”地开始做需求分析的工作了:
代码小浣熊也可以为你做架构设计:
写代码也可以通过自然语言提需求,或者通过鼠标一键注释、测试生成代码,代码翻译、重构或修正等等:
最后的软件测试环节也可以交给代码小浣熊来执行哦~
总而言之,有了代码小浣熊,它就能帮你处理平日里一些重复性、繁琐性高的编程任务。
而且商汤此次还不只是发布这么个动作,更是将代码小浣熊“打包”推出了轻量版一体机。
一台一体机就能支持100人团队开发,且成本仅为每人每天4.5元。
以上便是商汤此次发布的主要内容了。
近期文章
更多