科大讯飞星火大模型3.0实测：高能进化，给AI注入灵魂，部分能力与GPT-4旗鼓相当-AI奇点网

首页 > 测评 > 文章

2023-10-25 14:06

科大讯飞星火大模型3.0实测：高能进化，给AI注入灵魂，部分能力与GPT-4旗鼓相当！新Flag赶超GPT-4

5月，科大讯飞立下超越ChatGPT的Flag，如今，这个目标实现了!

科大讯飞1024开发者大会上，科大讯飞星火认知大模型3.0正式发布。星火3.0的整体性能已经超越ChatGPT，部分能力已经与GPT-4旗鼓相当。

现在，星火3.0已经从七大维度全面提升，并且重磅升级了大模型的代码能力。

此外，现场全新推出了医疗大模型和讯飞晓医APP、科技文献大模型、AI答疑辅学和Al心理咨询，以及与行业龙头共同打造的12个行业大模型。

同时，科大讯飞还会联合华为，进一步布局算力底座。在此次大会上，基于昇腾生态的「飞星一号」平台正式发布。

就在飞星一号上，科大讯飞还会继续训练对标GPT-4的大模型。

没错，科大讯飞已经立下下一个Flag——2024年上半年，星火4.0要对标GPT-4!

星火3.0实测：全面对标ChatGPT

在2.0版本时，科大讯飞董事长刘庆峰曾表示，目前大模型依然存在不少待攻克的技术缺陷。比如，新知识难以及时更新、事实类问答容易「张冠李戴」，以及史实、传统典籍等容易「编造情节」。

这次，星火3.0在「指令跟随、深度理解、主动对话、代码能力、个性化」方面，又有了进一步的升级。

根据国务院发展研究中心、国研经济研究院横评报告，星火大模型的综合能力已经超越了ChatGPT，在教育、医疗、法律行业的表现格外突出。

其中，星火3.0的中文能力客观评测，已经超越ChatGPT；英文能力在对标ChatGPT的48项任务中，结果相当。

当然了，讯飞的星火认知大模型，目前距离GPT-4还有一些差距。

不过，在医疗、法律领域的中文知识和语言理解能力上，星火3.0还是可以小胜GPT-4的，分别为5.3%和4.1%。

基础能力大升级

在数学领域，科大讯飞表示，星火认知大模型早在8月15日就已超越了ChatGPT。

而升级后的星火3.0.目前已经可以通过观察算式，总结规律了。

在小样本学习上，如果给出运算规则，星火3.0就能用新规则解决问题。

这也给大模型的发展很多启发。比如大模型在应用领域中，如果数据量不够，能不能从小样本去学习?

在代码能力方面，星火3.0更是得到了巨大的提升。

比如，在代码的项目级理解能力上，星火3.0可以根据纯自然语言提示，用Python画出要求的心形图案，并在内部呈现出大大小小五颜六色星星。

在英文写作上，星火3.0可以走native人设。

多模态能力惊人

讯飞星火认知大模型的多模态能力，首先就体现在大会现场所有操作都是按语音命令进行的。

这次，星火3.0在指令跟随和细节表达方面又有了显著提升。

比如告诉星火3.0.画一只武侠风的小猫咪，它画出的小猫，相比2.0时对武侠风有了更深的理解。

另一个令人印象深刻的演示，就是星火3.0的「有声绘本创作助手」，让我们能和孩子共创有声绘本。

从「一只充满好奇心的小兔子开启太空之旅」开始，星火3.0边写故事边出图，最后不仅完成了精彩的绘本，还能读出绘本故事。

这个过程，无论是文字故事的上下文连续性，还是主角的连续性，都依赖于大模型的认知能力。

星火3.0的多模态识图能力真的有这么惊艳？

小编来实测了一把。果然，3.0一眼就识别出了中科大的标志建筑图。

再来一波微软给GPT-4V的测试题。

老黄拿着新产品的图，答对了。

麻婆豆腐这道题，星火3.0不仅答对了，还给出了配料。

多种插件加持

在实测过程中，小编还发现，星火3.0有了诸多插件的加持。

比如，在「PPT生成」插件的加持下，它生成了一份非常精美的年终述职报告PPT模板。

用「ProcessOn 进程开启」插件，星火3.0可以绘制出清晰的流程图。

AI助手：感情、人格终极进化

现在，1200万星火用户对认知大模型的更高期待会是什么?

当然是希望它不仅能回答问题，还要能提出问题；不仅要有知识，还要有个性。

现在，AI正向情感、人格进化。

而从知识到个性，AI人设都为讯飞星火注入了「灵魂」。

有了人设、性格之后，星火认知大模型对于每个人，都是独特的AI助手。

比如，让星火3.0围绕通用认知大模型，解放生产力，写一篇发言稿，以教育和工业领域为例。

它的文风是中规中矩的。

而科大讯飞研究院院长刘聪希望能用自己的人设(喜欢讲故事、打比方)，就可以在「个性化助手」中，上传自己的讲话内容。

这时星火3.0的发言稿，就有了院长本人的风格，不再是一篇泛泛的发言稿，而是有了人情味。

我们甚至可以让星火3.0用孔夫子的人设，发言以文言文为主。

发现友伴，让对话更有温度

此次升级，星火3.0还带来了16种友伴人格，让聊天更加幽默。

我们可以自定义自己想要的人格。

很多家长会遇到这样的问题：自己给孩子说话，孩子不听，但奥特曼说的话，他就听了。

用星火3.0的友伴功能，就可以教育小孩子听爸爸妈妈的话。

向诸葛孔明提问：「听闻星火大模型再次升级，此模型是否能助我们一统三国?」

他回答：「星火大模型之妙，在其智慧之源。吾观其能助人解惑，助力百业，亦可用于治国安邦。」

在星火3.0的「发现友伴」，有多愁善感的林黛玉，一统天下的秦始皇，称霸宇宙的威震天，喜欢唠嗑的居委会马大姐，还有殖民火星的马斯克……

问问唐三藏，如何才能看破红尘?

他回答：并非简单地抛弃世俗，而是要理解世间一切皆为虚空。

李白的理想是济苍生，安社稷。虽一时不遂，仍坚信天生我材必有用，千金散尽还复来。

而「硅谷钢铁侠」解释，自己之所以一直执着于殖民火星，是因为人类未来的居住地不仅限于地球，而是多行星的。

并且他预测：人类在未来几十年，就会走向地外星球了。

全新应用，遍地开花

相比2.0.星火3.0在医疗、教育、工业、代码、科研、办公等多个领域，又升级了全新的应用功能。

在1024开发者节的主论坛，讯飞晓医APP、AI答疑辅学、AI心理咨询、AI同传、图像生成与编辑、科技文献服务平台都可以亲身体验。

码农效率成倍提升

随着星火3.0代码能力的升级，智能编码助手iFlyCode也获得了巨大的提升。

它能更好地帮助程序员在编程过程中快速生成代码建议，提高编码的效率和准确性。

如果用传统的开发方式，Windows到Linux跨平台移植20万行代码，需要3个月。

而使用iFlyCode后，仅1个月就能完成了。

科研打工人利器

现场，专为科研打工人的设计利器也来了!

科大讯飞和中科院文献情报中心联合打造了「科技文献大模型」，学习了80T的海量数据。

全新工具能够帮助科研工作者，进行成果调研、论文研读、学术写作。

比如，近来比较火的九章三号量子计算机，若你想了解这方面的研究，输入「量子计算」。

然后，就得到了57篇与之相关的文献，并且调研助手在右边对话框中做了一个总结。

这么多篇论文，即便是专业的学者，也得需要花费几天的时间完成阅读。

而现在，「科技文献大模型」有了综述生成功能，选择2021年以来的研究，就可以1分钟生成概要了。

另外，论文研读这个功能，能够帮助你更详尽地阅读一篇论文。

举个例子，拿OpenAI团队在2022年发表的一篇论文「Training language models to follow instructions with human feedback」测试。

选中文章后，就会看到左边是论文原文，右边页面是对论文进行了主要的总结，包括摘要、方法、概述。

甚至，你还可以对其进行提问，「介绍GPT模型系列发展历程」，回答中还给出了不包含在论文中的内容GPT-4.

可以看到，借助星火大模型，可以生成没有包含在文本内容，但也可以覆盖外部内容的能力。

同时，你还可以要求它根据内容，构建代码。

在学术写作中，对于中国科研打工人最厉害的能力，便是文档翻译、英文润色了。

首先，你可以上传一份写完中文文档，然后选择翻译语种。

借助大模型的能力，更好地理解整个文章上下文，十几秒就完成了全文翻译。

对于英文润色，可以拿一段英文摘要去测试。

然后再与润色后的文字进行对比，就会发现原来的内容Chinglish的感觉很严重，而修改后的语言变得更加地道。

在这个日新月异的时代，有数据统计，仅在AI领域，全球每天大约有84篇文章发表，若是每篇研究耗费10分钟，就得需要14个小时才能读完。

而现在，有了大模型的加持，星火科研助手快速把全国最新进展抓取出来，用综述告诉你。

让成果调研的效率提升10倍，让论文研读效率、学术写作采纳率提升了90%。

全球有350万高校读书的研究生博士生。

如果一个在校研究生，因为讯飞星火，能够节约3个月的时间，可以想象得到，这将极大地释放中国的创造力、想象力。

人手一个的AI健康助手

前有ChatGPT发现了外国4岁男孩多年疑难杂症的病因，今有智医助理将患者「疑似妊娠」的诊断修正为「先兆流产」，挽救了一个新生命。

1024大会上，科大讯飞还发布了全新医疗大模型，以及讯飞晓医APP，希望为健康中国建设尽一份绵薄之力。

对于每个人来说，都需要一个健康助手。

当你看病前，需要了解要不要去医院，应该挂什么科时；当你用药时，还在考虑孩子、孕妇能不能吃、两个药可以一起吃的时候;还有体检后，遇到体检报告看不懂时。都需要一个健康助手为你提供帮助。

此刻，讯飞晓医APP的诞生，能够为每个人打造专属「AI健康助手」，为每一位医生打造专属的「诊疗助理」。

它集症状自查、报告解读、医疗信息快速查询、健康档案管理等功能于一体，让医疗过程更加智能化。

目前，它已经通过了中国第一个通过信通院、卫健委医疗大模型标准规范测评。

讯飞晓医能够通过预先对话，让你对病情有一个简要的了解。

还可以上传抽血后结果报告图，晓医根据图片信息给出分析。

对于继续就诊的情况，晓医会直接告诉你去医院找专业的医生看病。

又或者当你头疼病犯了时，手边有一盒药，拍照后，通过与晓医不断地交流，得到适合治疗方案。

要知道，每年几乎有66亿人去药店，每次平均花费80元，若是针对一些处方用药，大模型能够提供咨询，省了不少麻烦。

一般来说，体检报告往往是单向的，机器给出来的测评，并没有综合分析。

你可以发送自己的体检报告，便能够得到详细的分析。包括需要立即就诊的疾病风险，以及定期复查、日常关注都给标注了出来。

从性能的对比上来看，讯飞星火医疗大模已经实现对GPT-4的超越。

不过，若要说100%准确率，即便顶级专家也无法实现，只能在人机协作中共同前进。

AI健康助手讯飞晓医，就是要让你成为一个更懂自己健康，更有基础医学知识的人。

下一步，2024对标GPT-4

这一年，讯飞的超脑2030计划，又有了最新的进展!

2022年，科大讯飞宣布启动了「讯飞超脑2030」计划，旨在让人工智能懂知识、善学习、能进化，让软硬件一体的机器人走进每个家庭。

对此，科大讯飞还制定了「三步走」战略。

而星火认知大模型不断迭代升级，直接加速了「讯飞超脑2030」的进程。

这次，1024大会上，科大讯飞公布了这项计划的最新成果——人形机器人首次亮相，是业界首个集成大模型+具身智能的机器人。

科大讯飞机器人的诞生，是为了以人形机器人为牵引，进而推进「视觉-语言-动作」多模态具身大模型的发展。

它可以在园区运动，可以在虚拟世界中完成模拟。因讯飞的技术，让机器人的脑力大大升级。

为了把大模型赋能更多生活应用场景，科大讯飞现场还发布了AI扫拖机器人。

它具备领先的家庭环境全场景感知及运动能力，通过多模态交互，精准避障让扫地机器人在家庭常见的障碍物中灵活穿梭不卡困。

科大讯飞1024开发者大会上，科大讯飞董事长刘庆峰表示，大模型已经在千行百业赋能，是软硬一体化赋能，是可以主动对话赋能，给定个人人设的赋能。

一直以来，科大讯飞都在强调生态的繁荣，才有人工智能的大未来。可以看到，「讯飞星火正日益成为解放生产力工具」。截至目前，讯飞星火已有1200万用户，为千万用户持续创造刚需场景价值。

与此同时，大模型的突破，让讯飞开发者生态持续壮大。

自5月6日星火发布以来，讯飞开放平台新增143.4万开发者团队，同比增幅331%，汇聚553万AI生态开发者团队。其中新增大模型开发者17.8万。

现在，科大讯飞正与10万+企业用户，用星火共创应用新体验。

而大模型，也显著降低了开发者的创业门槛。

另外，科大讯飞还即将发布金融、汽车、运营商、工业、住键、物业、法律、科技文献、传媒、政务、文旅、水利十二个行业大模型。

现在，大模型时代的序幕才刚刚拉开，到2026年，80%的企业都会用到生成式AI，而现在，这个比例才仅为5%。

产业生态还要持续完善，利用场景还要不断深化，而科大讯飞，还会不断为通用人工智能解放生产力、释放想象力。

4

查看相关话题： #科大讯飞 #讯飞星火 #星火4.0 #星火大模型 #AI测评

相关文章

知名AI科技媒体

作者已发布 108 篇文章

近期文章

更多

OpenAI o1模型问世，五级AGI再突破！推理极限超博士，清北复旦华人立功

OpenAI o1模型问世，五级AGI再突破！推理极限超博士，清北复旦华人立功

全球最大，马斯克4个月建成10万张H100超算集群！xAI算力超越OpenAI，奥特曼怕了

全球最大，马斯克4个月建成10万张H100超算集群！xAI算力超越OpenAI，奥特曼怕了

阶跃星辰生图模型上线，国风意境绝美，隐藏咒语曝光！

阶跃星辰生图模型上线，国风意境绝美，隐藏咒语曝光！

商汤最新AI绘图大模型“秒画Artist”v0.3.5版本全面测评：作画水准比肩Midjourney！划重点——免费

上一篇

小红书悄悄灰度上线“AI群聊”功能，尝鲜体验：与《原神》一众角色侃大山，是怎样的体验？

下一篇