科大讯飞星火大模型3.0实测:高能进化,给AI注入灵魂,部分能力与GPT-4旗鼓相当!新Flag赶超GPT-4
5月,科大讯飞立下超越ChatGPT的Flag,如今,这个目标实现了!
科大讯飞1024开发者大会上,科大讯飞星火认知大模型3.0正式发布。星火3.0的整体性能已经超越ChatGPT,部分能力已经与GPT-4旗鼓相当。
现在,星火3.0已经从七大维度全面提升,并且重磅升级了大模型的代码能力。
此外,现场全新推出了医疗大模型和讯飞晓医APP、科技文献大模型、AI答疑辅学和Al心理咨询,以及与行业龙头共同打造的12个行业大模型。
同时,科大讯飞还会联合华为,进一步布局算力底座。在此次大会上,基于昇腾生态的「飞星一号」平台正式发布。
就在飞星一号上,科大讯飞还会继续训练对标GPT-4的大模型。
没错,科大讯飞已经立下下一个Flag——2024年上半年,星火4.0要对标GPT-4!
星火3.0实测:全面对标ChatGPT
在2.0版本时,科大讯飞董事长刘庆峰曾表示,目前大模型依然存在不少待攻克的技术缺陷。比如,新知识难以及时更新、事实类问答容易「张冠李戴」,以及史实、传统典籍等容易「编造情节」。
这次,星火3.0在「指令跟随、深度理解、主动对话、代码能力、个性化」方面,又有了进一步的升级。
根据国务院发展研究中心、国研经济研究院横评报告,星火大模型的综合能力已经超越了ChatGPT,在教育、医疗、法律行业的表现格外突出。
其中,星火3.0的中文能力客观评测,已经超越ChatGPT;英文能力在对标ChatGPT的48项任务中,结果相当。
当然了,讯飞的星火认知大模型,目前距离GPT-4还有一些差距。
不过,在医疗、法律领域的中文知识和语言理解能力上,星火3.0还是可以小胜GPT-4的,分别为5.3%和4.1%。
基础能力大升级
在数学领域,科大讯飞表示,星火认知大模型早在8月15日就已超越了ChatGPT。
而升级后的星火3.0.目前已经可以通过观察算式,总结规律了。
在小样本学习上,如果给出运算规则,星火3.0就能用新规则解决问题。
这也给大模型的发展很多启发。比如大模型在应用领域中,如果数据量不够,能不能从小样本去学习?
在代码能力方面,星火3.0更是得到了巨大的提升。
比如,在代码的项目级理解能力上,星火3.0可以根据纯自然语言提示,用Python画出要求的心形图案,并在内部呈现出大大小小五颜六色星星。
在英文写作上,星火3.0可以走native人设。
多模态能力惊人
讯飞星火认知大模型的多模态能力,首先就体现在大会现场所有操作都是按语音命令进行的。
这次,星火3.0在指令跟随和细节表达方面又有了显著提升。
比如告诉星火3.0.画一只武侠风的小猫咪,它画出的小猫,相比2.0时对武侠风有了更深的理解。
另一个令人印象深刻的演示,就是星火3.0的「有声绘本创作助手」,让我们能和孩子共创有声绘本。
从「一只充满好奇心的小兔子开启太空之旅」开始,星火3.0边写故事边出图,最后不仅完成了精彩的绘本,还能读出绘本故事。
这个过程,无论是文字故事的上下文连续性,还是主角的连续性,都依赖于大模型的认知能力。
星火3.0的多模态识图能力真的有这么惊艳?
小编来实测了一把。果然,3.0一眼就识别出了中科大的标志建筑图。
再来一波微软给GPT-4V的测试题。
老黄拿着新产品的图,答对了。
麻婆豆腐这道题,星火3.0不仅答对了,还给出了配料。
多种插件加持
在实测过程中,小编还发现,星火3.0有了诸多插件的加持。
比如,在「PPT生成」插件的加持下,它生成了一份非常精美的年终述职报告PPT模板。
用「ProcessOn 进程开启」插件,星火3.0可以绘制出清晰的流程图。
AI助手:感情、人格终极进化
现在,1200万星火用户对认知大模型的更高期待会是什么?
当然是希望它不仅能回答问题,还要能提出问题;不仅要有知识,还要有个性。
现在,AI正向情感、人格进化。
而从知识到个性,AI人设都为讯飞星火注入了「灵魂」。
有了人设、性格之后,星火认知大模型对于每个人,都是独特的AI助手。
比如,让星火3.0围绕通用认知大模型,解放生产力,写一篇发言稿,以教育和工业领域为例。
它的文风是中规中矩的。
而科大讯飞研究院院长刘聪希望能用自己的人设(喜欢讲故事、打比方),就可以在「个性化助手」中,上传自己的讲话内容。
这时星火3.0的发言稿,就有了院长本人的风格,不再是一篇泛泛的发言稿,而是有了人情味。
我们甚至可以让星火3.0用孔夫子的人设,发言以文言文为主。
发现友伴,让对话更有温度
此次升级,星火3.0还带来了16种友伴人格,让聊天更加幽默。
我们可以自定义自己想要的人格。
很多家长会遇到这样的问题:自己给孩子说话,孩子不听,但奥特曼说的话,他就听了。
用星火3.0的友伴功能,就可以教育小孩子听爸爸妈妈的话。
向诸葛孔明提问:「听闻星火大模型再次升级,此模型是否能助我们一统三国?」
他回答:「星火大模型之妙,在其智慧之源。吾观其能助人解惑,助力百业,亦可用于治国安邦。」
在星火3.0的「发现友伴」,有多愁善感的林黛玉,一统天下的秦始皇,称霸宇宙的威震天,喜欢唠嗑的居委会马大姐,还有殖民火星的马斯克……
问问唐三藏,如何才能看破红尘?
他回答:并非简单地抛弃世俗,而是要理解世间一切皆为虚空。
李白的理想是济苍生,安社稷。虽一时不遂,仍坚信天生我材必有用,千金散尽还复来。
而「硅谷钢铁侠」解释,自己之所以一直执着于殖民火星,是因为人类未来的居住地不仅限于地球,而是多行星的。
并且他预测:人类在未来几十年,就会走向地外星球了。
全新应用,遍地开花
相比2.0.星火3.0在医疗、教育、工业、代码、科研、办公等多个领域,又升级了全新的应用功能。
在1024开发者节的主论坛,讯飞晓医APP、AI答疑辅学、AI心理咨询、AI同传、图像生成与编辑、科技文献服务平台都可以亲身体验。
码农效率成倍提升
随着星火3.0代码能力的升级,智能编码助手iFlyCode也获得了巨大的提升。
它能更好地帮助程序员在编程过程中快速生成代码建议,提高编码的效率和准确性。
如果用传统的开发方式,Windows到Linux跨平台移植20万行代码,需要3个月。
而使用iFlyCode后,仅1个月就能完成了。
科研打工人利器
现场,专为科研打工人的设计利器也来了!
科大讯飞和中科院文献情报中心联合打造了「科技文献大模型」,学习了80T的海量数据。
全新工具能够帮助科研工作者,进行成果调研、论文研读、学术写作。
比如,近来比较火的九章三号量子计算机,若你想了解这方面的研究,输入「量子计算」。
然后,就得到了57篇与之相关的文献,并且调研助手在右边对话框中做了一个总结。
这么多篇论文,即便是专业的学者,也得需要花费几天的时间完成阅读。
而现在,「科技文献大模型」有了综述生成功能,选择2021年以来的研究,就可以1分钟生成概要了。
另外,论文研读这个功能,能够帮助你更详尽地阅读一篇论文。
举个例子,拿OpenAI团队在2022年发表的一篇论文「Training language models to follow instructions with human feedback」测试。
选中文章后,就会看到左边是论文原文,右边页面是对论文进行了主要的总结,包括摘要、方法、概述。
甚至,你还可以对其进行提问,「介绍GPT模型系列发展历程」,回答中还给出了不包含在论文中的内容GPT-4.
可以看到,借助星火大模型,可以生成没有包含在文本内容,但也可以覆盖外部内容的能力。
同时,你还可以要求它根据内容,构建代码。
在学术写作中,对于中国科研打工人最厉害的能力,便是文档翻译、英文润色了。
首先,你可以上传一份写完中文文档,然后选择翻译语种。
借助大模型的能力,更好地理解整个文章上下文,十几秒就完成了全文翻译。
对于英文润色,可以拿一段英文摘要去测试。
然后再与润色后的文字进行对比,就会发现原来的内容Chinglish的感觉很严重,而修改后的语言变得更加地道。
在这个日新月异的时代,有数据统计,仅在AI领域,全球每天大约有84篇文章发表,若是每篇研究耗费10分钟,就得需要14个小时才能读完。
而现在,有了大模型的加持,星火科研助手快速把全国最新进展抓取出来,用综述告诉你。
让成果调研的效率提升10倍,让论文研读效率、学术写作采纳率提升了90%。
全球有350万高校读书的研究生博士生。
如果一个在校研究生,因为讯飞星火,能够节约3个月的时间,可以想象得到,这将极大地释放中国的创造力、想象力。
人手一个的AI健康助手
前有ChatGPT发现了外国4岁男孩多年疑难杂症的病因,今有智医助理将患者「疑似妊娠」的诊断修正为「先兆流产」,挽救了一个新生命。
1024大会上,科大讯飞还发布了全新医疗大模型,以及讯飞晓医APP,希望为健康中国建设尽一份绵薄之力。
对于每个人来说,都需要一个健康助手。
当你看病前,需要了解要不要去医院,应该挂什么科时;当你用药时,还在考虑孩子、孕妇能不能吃、两个药可以一起吃的时候;还有体检后,遇到体检报告看不懂时。都需要一个健康助手为你提供帮助。
此刻,讯飞晓医APP的诞生,能够为每个人打造专属「AI健康助手」,为每一位医生打造专属的「诊疗助理」。
它集症状自查、报告解读、医疗信息快速查询、健康档案管理等功能于一体,让医疗过程更加智能化。
目前,它已经通过了中国第一个通过信通院、卫健委医疗大模型标准规范测评。
讯飞晓医能够通过预先对话,让你对病情有一个简要的了解。
还可以上传抽血后结果报告图,晓医根据图片信息给出分析。
对于继续就诊的情况,晓医会直接告诉你去医院找专业的医生看病。
又或者当你头疼病犯了时,手边有一盒药,拍照后,通过与晓医不断地交流,得到适合治疗方案。
要知道,每年几乎有66亿人去药店,每次平均花费80元,若是针对一些处方用药,大模型能够提供咨询,省了不少麻烦。
一般来说,体检报告往往是单向的,机器给出来的测评,并没有综合分析。
你可以发送自己的体检报告,便能够得到详细的分析。包括需要立即就诊的疾病风险,以及定期复查、日常关注都给标注了出来。
从性能的对比上来看,讯飞星火医疗大模已经实现对GPT-4的超越。
不过,若要说100%准确率,即便顶级专家也无法实现,只能在人机协作中共同前进。
AI健康助手讯飞晓医,就是要让你成为一个更懂自己健康,更有基础医学知识的人。
下一步,2024对标GPT-4
这一年,讯飞的超脑2030计划,又有了最新的进展!
2022年,科大讯飞宣布启动了「讯飞超脑2030」计划,旨在让人工智能懂知识、善学习、能进化,让软硬件一体的机器人走进每个家庭。
对此,科大讯飞还制定了「三步走」战略。
而星火认知大模型不断迭代升级,直接加速了「讯飞超脑2030」的进程。
这次,1024大会上,科大讯飞公布了这项计划的最新成果——人形机器人首次亮相,是业界首个集成大模型+具身智能的机器人。
科大讯飞机器人的诞生,是为了以人形机器人为牵引,进而推进「视觉-语言-动作」多模态具身大模型的发展。
它可以在园区运动,可以在虚拟世界中完成模拟。因讯飞的技术,让机器人的脑力大大升级。
为了把大模型赋能更多生活应用场景,科大讯飞现场还发布了AI扫拖机器人。
它具备领先的家庭环境全场景感知及运动能力,通过多模态交互,精准避障让扫地机器人在家庭常见的障碍物中灵活穿梭不卡困。
科大讯飞1024开发者大会上,科大讯飞董事长刘庆峰表示,大模型已经在千行百业赋能,是软硬一体化赋能,是可以主动对话赋能,给定个人人设的赋能。
一直以来,科大讯飞都在强调生态的繁荣,才有人工智能的大未来。可以看到,「讯飞星火正日益成为解放生产力工具」。截至目前,讯飞星火已有1200万用户,为千万用户持续创造刚需场景价值。
与此同时,大模型的突破,让讯飞开发者生态持续壮大。
自5月6日星火发布以来,讯飞开放平台新增143.4万开发者团队,同比增幅331%,汇聚553万AI生态开发者团队。其中新增大模型开发者17.8万。
现在,科大讯飞正与10万+企业用户,用星火共创应用新体验。
而大模型,也显著降低了开发者的创业门槛。
另外,科大讯飞还即将发布金融、汽车、运营商、工业、住键、物业、法律、科技文献、传媒、政务、文旅、水利十二个行业大模型。
现在,大模型时代的序幕才刚刚拉开,到2026年,80%的企业都会用到生成式AI,而现在,这个比例才仅为5%。
产业生态还要持续完善,利用场景还要不断深化,而科大讯飞,还会不断为通用人工智能解放生产力、释放想象力。
近期文章
更多