首页  >  测评  >  文章
2023-10-25 14:06

科大讯飞星火大模型3.0实测:高能进化,给AI注入灵魂,部分能力与GPT-4旗鼓相当!新Flag赶超GPT-4

5月,科大讯飞立下超越ChatGPT的Flag,如今,这个目标实现了!

科大讯飞1024开发者大会上,科大讯飞星火认知大模型3.0正式发布。星火3.0的整体性能已经超越ChatGPT,部分能力已经与GPT-4旗鼓相当。

图片

现在,星火3.0已经从七大维度全面提升,并且重磅升级了大模型的代码能力。

此外,现场全新推出了医疗大模型和讯飞晓医APP、科技文献大模型、AI答疑辅学和Al心理咨询,以及与行业龙头共同打造的12个行业大模型。

同时,科大讯飞还会联合华为,进一步布局算力底座。在此次大会上,基于昇腾生态的「飞星一号」平台正式发布。

图片

就在飞星一号上,科大讯飞还会继续训练对标GPT-4的大模型。

没错,科大讯飞已经立下下一个Flag——2024年上半年,星火4.0要对标GPT-4!

图片

星火3.0实测:全面对标ChatGPT

在2.0版本时,科大讯飞董事长刘庆峰曾表示,目前大模型依然存在不少待攻克的技术缺陷。比如,新知识难以及时更新、事实类问答容易「张冠李戴」,以及史实、传统典籍等容易「编造情节」。

这次,星火3.0在「指令跟随、深度理解、主动对话、代码能力、个性化」方面,又有了进一步的升级。

图片

根据国务院发展研究中心、国研经济研究院横评报告,星火大模型的综合能力已经超越了ChatGPT,在教育、医疗、法律行业的表现格外突出。

图片

其中,星火3.0的中文能力客观评测,已经超越ChatGPT;英文能力在对标ChatGPT的48项任务中,结果相当。

图片

当然了,讯飞的星火认知大模型,目前距离GPT-4还有一些差距。

图片

不过,在医疗、法律领域的中文知识和语言理解能力上,星火3.0还是可以小胜GPT-4的,分别为5.3%和4.1%。

图片

基础能力大升级

在数学领域,科大讯飞表示,星火认知大模型早在8月15日就已超越了ChatGPT。

而升级后的星火3.0.目前已经可以通过观察算式,总结规律了。

图片

在小样本学习上,如果给出运算规则,星火3.0就能用新规则解决问题。

这也给大模型的发展很多启发。比如大模型在应用领域中,如果数据量不够,能不能从小样本去学习?

图片

在代码能力方面,星火3.0更是得到了巨大的提升。

图片

比如,在代码的项目级理解能力上,星火3.0可以根据纯自然语言提示,用Python画出要求的心形图案,并在内部呈现出大大小小五颜六色星星。

图片

在英文写作上,星火3.0可以走native人设。

图片

多模态能力惊人

讯飞星火认知大模型的多模态能力,首先就体现在大会现场所有操作都是按语音命令进行的。

这次,星火3.0在指令跟随和细节表达方面又有了显著提升。

比如告诉星火3.0.画一只武侠风的小猫咪,它画出的小猫,相比2.0时对武侠风有了更深的理解。

图片

另一个令人印象深刻的演示,就是星火3.0的「有声绘本创作助手」,让我们能和孩子共创有声绘本。

从「一只充满好奇心的小兔子开启太空之旅」开始,星火3.0边写故事边出图,最后不仅完成了精彩的绘本,还能读出绘本故事。

图片

这个过程,无论是文字故事的上下文连续性,还是主角的连续性,都依赖于大模型的认知能力。

图片

星火3.0的多模态识图能力真的有这么惊艳?

小编来实测了一把。果然,3.0一眼就识别出了中科大的标志建筑图。

图片

再来一波微软给GPT-4V的测试题。

老黄拿着新产品的图,答对了。

图片

麻婆豆腐这道题,星火3.0不仅答对了,还给出了配料。

图片

多种插件加持

在实测过程中,小编还发现,星火3.0有了诸多插件的加持。

图片

比如,在「PPT生成」插件的加持下,它生成了一份非常精美的年终述职报告PPT模板。

图片

用「ProcessOn 进程开启」插件,星火3.0可以绘制出清晰的流程图。

图片

AI助手:感情、人格终极进化

现在,1200万星火用户对认知大模型的更高期待会是什么?

当然是希望它不仅能回答问题,还要能提出问题;不仅要有知识,还要有个性。

图片

现在,AI正向情感、人格进化。

而从知识到个性,AI人设都为讯飞星火注入了「灵魂」。

有了人设、性格之后,星火认知大模型对于每个人,都是独特的AI助手。

图片

比如,让星火3.0围绕通用认知大模型,解放生产力,写一篇发言稿,以教育和工业领域为例。

它的文风是中规中矩的。

图片

而科大讯飞研究院院长刘聪希望能用自己的人设(喜欢讲故事、打比方),就可以在「个性化助手」中,上传自己的讲话内容。

图片

这时星火3.0的发言稿,就有了院长本人的风格,不再是一篇泛泛的发言稿,而是有了人情味。

图片

我们甚至可以让星火3.0用孔夫子的人设,发言以文言文为主。

图片

发现友伴,让对话更有温度

此次升级,星火3.0还带来了16种友伴人格,让聊天更加幽默。

我们可以自定义自己想要的人格。

图片

很多家长会遇到这样的问题:自己给孩子说话,孩子不听,但奥特曼说的话,他就听了。

用星火3.0的友伴功能,就可以教育小孩子听爸爸妈妈的话。

图片

图片

向诸葛孔明提问:「听闻星火大模型再次升级,此模型是否能助我们一统三国?」

他回答:「星火大模型之妙,在其智慧之源。吾观其能助人解惑,助力百业,亦可用于治国安邦。」

图片

图片

在星火3.0的「发现友伴」,有多愁善感的林黛玉,一统天下的秦始皇,称霸宇宙的威震天,喜欢唠嗑的居委会马大姐,还有殖民火星的马斯克……

图片

问问唐三藏,如何才能看破红尘?

他回答:并非简单地抛弃世俗,而是要理解世间一切皆为虚空。

图片

李白的理想是济苍生,安社稷。虽一时不遂,仍坚信天生我材必有用,千金散尽还复来。

图片

而「硅谷钢铁侠」解释,自己之所以一直执着于殖民火星,是因为人类未来的居住地不仅限于地球,而是多行星的。

并且他预测:人类在未来几十年,就会走向地外星球了。

图片

全新应用,遍地开花

相比2.0.星火3.0在医疗、教育、工业、代码、科研、办公等多个领域,又升级了全新的应用功能。

在1024开发者节的主论坛,讯飞晓医APP、AI答疑辅学、AI心理咨询、AI同传、图像生成与编辑、科技文献服务平台都可以亲身体验。

码农效率成倍提升

随着星火3.0代码能力的升级,智能编码助手iFlyCode也获得了巨大的提升。

它能更好地帮助程序员在编程过程中快速生成代码建议,提高编码的效率和准确性。

图片

如果用传统的开发方式,Windows到Linux跨平台移植20万行代码,需要3个月。

而使用iFlyCode后,仅1个月就能完成了。

图片

科研打工人利器

现场,专为科研打工人的设计利器也来了!

科大讯飞和中科院文献情报中心联合打造了「科技文献大模型」,学习了80T的海量数据。

全新工具能够帮助科研工作者,进行成果调研、论文研读、学术写作。

图片

比如,近来比较火的九章三号量子计算机,若你想了解这方面的研究,输入「量子计算」。

图片

然后,就得到了57篇与之相关的文献,并且调研助手在右边对话框中做了一个总结。

图片

这么多篇论文,即便是专业的学者,也得需要花费几天的时间完成阅读。

而现在,「科技文献大模型」有了综述生成功能,选择2021年以来的研究,就可以1分钟生成概要了。

图片

另外,论文研读这个功能,能够帮助你更详尽地阅读一篇论文。

举个例子,拿OpenAI团队在2022年发表的一篇论文「Training language models to follow instructions with human feedback」测试。

选中文章后,就会看到左边是论文原文,右边页面是对论文进行了主要的总结,包括摘要、方法、概述。

图片

甚至,你还可以对其进行提问,「介绍GPT模型系列发展历程」,回答中还给出了不包含在论文中的内容GPT-4.

可以看到,借助星火大模型,可以生成没有包含在文本内容,但也可以覆盖外部内容的能力。

图片

同时,你还可以要求它根据内容,构建代码。

图片

在学术写作中,对于中国科研打工人最厉害的能力,便是文档翻译、英文润色了。

首先,你可以上传一份写完中文文档,然后选择翻译语种。

借助大模型的能力,更好地理解整个文章上下文,十几秒就完成了全文翻译。

图片

对于英文润色,可以拿一段英文摘要去测试。

然后再与润色后的文字进行对比,就会发现原来的内容Chinglish的感觉很严重,而修改后的语言变得更加地道。

在这个日新月异的时代,有数据统计,仅在AI领域,全球每天大约有84篇文章发表,若是每篇研究耗费10分钟,就得需要14个小时才能读完。

而现在,有了大模型的加持,星火科研助手快速把全国最新进展抓取出来,用综述告诉你。

让成果调研的效率提升10倍,让论文研读效率、学术写作采纳率提升了90%。

图片

全球有350万高校读书的研究生博士生。

如果一个在校研究生,因为讯飞星火,能够节约3个月的时间,可以想象得到,这将极大地释放中国的创造力、想象力。

图片

人手一个的AI健康助手

前有ChatGPT发现了外国4岁男孩多年疑难杂症的病因,今有智医助理将患者「疑似妊娠」的诊断修正为「先兆流产」,挽救了一个新生命。

1024大会上,科大讯飞还发布了全新医疗大模型,以及讯飞晓医APP,希望为健康中国建设尽一份绵薄之力。

图片

对于每个人来说,都需要一个健康助手。

当你看病前,需要了解要不要去医院,应该挂什么科时;当你用药时,还在考虑孩子、孕妇能不能吃、两个药可以一起吃的时候;还有体检后,遇到体检报告看不懂时。都需要一个健康助手为你提供帮助。

图片

此刻,讯飞晓医APP的诞生,能够为每个人打造专属「AI健康助手」,为每一位医生打造专属的「诊疗助理」。

它集症状自查、报告解读、医疗信息快速查询、健康档案管理等功能于一体,让医疗过程更加智能化。

目前,它已经通过了中国第一个通过信通院、卫健委医疗大模型标准规范测评。

讯飞晓医能够通过预先对话,让你对病情有一个简要的了解。

图片

还可以上传抽血后结果报告图,晓医根据图片信息给出分析。

图片

对于继续就诊的情况,晓医会直接告诉你去医院找专业的医生看病。

图片

又或者当你头疼病犯了时,手边有一盒药,拍照后,通过与晓医不断地交流,得到适合治疗方案。

要知道,每年几乎有66亿人去药店,每次平均花费80元,若是针对一些处方用药,大模型能够提供咨询,省了不少麻烦。

图片

一般来说,体检报告往往是单向的,机器给出来的测评,并没有综合分析。

你可以发送自己的体检报告,便能够得到详细的分析。包括需要立即就诊的疾病风险,以及定期复查、日常关注都给标注了出来。

图片

从性能的对比上来看,讯飞星火医疗大模已经实现对GPT-4的超越。

不过,若要说100%准确率,即便顶级专家也无法实现,只能在人机协作中共同前进。

图片

AI健康助手讯飞晓医,就是要让你成为一个更懂自己健康,更有基础医学知识的人。

图片

下一步,2024对标GPT-4

这一年,讯飞的超脑2030计划,又有了最新的进展!

2022年,科大讯飞宣布启动了「讯飞超脑2030」计划,旨在让人工智能懂知识、善学习、能进化,让软硬件一体的机器人走进每个家庭。

对此,科大讯飞还制定了「三步走」战略。

图片

而星火认知大模型不断迭代升级,直接加速了「讯飞超脑2030」的进程。

这次,1024大会上,科大讯飞公布了这项计划的最新成果——人形机器人首次亮相,是业界首个集成大模型+具身智能的机器人。

图片

科大讯飞机器人的诞生,是为了以人形机器人为牵引,进而推进「视觉-语言-动作」多模态具身大模型的发展。

图片

它可以在园区运动,可以在虚拟世界中完成模拟。因讯飞的技术,让机器人的脑力大大升级。

图片

为了把大模型赋能更多生活应用场景,科大讯飞现场还发布了AI扫拖机器人。

它具备领先的家庭环境全场景感知及运动能力,通过多模态交互,精准避障让扫地机器人在家庭常见的障碍物中灵活穿梭不卡困。

图片

科大讯飞1024开发者大会上,科大讯飞董事长刘庆峰表示,大模型已经在千行百业赋能,是软硬一体化赋能,是可以主动对话赋能,给定个人人设的赋能。

一直以来,科大讯飞都在强调生态的繁荣,才有人工智能的大未来。可以看到,「讯飞星火正日益成为解放生产力工具」。截至目前,讯飞星火已有1200万用户,为千万用户持续创造刚需场景价值。

图片

与此同时,大模型的突破,让讯飞开发者生态持续壮大。

自5月6日星火发布以来,讯飞开放平台新增143.4万开发者团队,同比增幅331%,汇聚553万AI生态开发者团队。其中新增大模型开发者17.8万。

现在,科大讯飞正与10万+企业用户,用星火共创应用新体验。

图片

而大模型,也显著降低了开发者的创业门槛。

图片

另外,科大讯飞还即将发布金融、汽车、运营商、工业、住键、物业、法律、科技文献、传媒、政务、文旅、水利十二个行业大模型。

图片

现在,大模型时代的序幕才刚刚拉开,到2026年,80%的企业都会用到生成式AI,而现在,这个比例才仅为5%。

产业生态还要持续完善,利用场景还要不断深化,而科大讯飞,还会不断为通用人工智能解放生产力、释放想象力。

4

相关文章