首页  >  测评  >  文章
2024-01-31 10:13

实测科大讯飞星火大模型V3.5:输出回复完全不输GPT-4,全程语音交互比肩ChatGPT,数字人声唠嗑根本停不下来

“2024年上半年对标GPT-4”——这是2023年科大讯飞在去年的“全球1024开发者节”现场给出的承诺。

2024刚开年,讯飞星火就迎来重大升级:

讯飞星火V3.5整体接近GPT-4 Turbo;数学、语言理解、语音交互能力超过GPT-4 Turbo;代码达到GPT-4 Turbo的96%;多模态达到GPT-4V的91%。

图片

尤其在语音交互功能上,超逼真的真人语音生成,直接让线上网友惊叹三连:

图片

图片

还有更多实用功能,比如现场几十秒的时间生成22页PPT!

这速度,很快啊……

图片

而围绕着这个大模型底座,科大讯飞还有一揽子产品和场景应用输出。

  • 国产首个语音大模型
  • 星火开源大模型“星火开源-13B”
  • 讯飞翻译机升级
  • 面向教育行业的智慧黑板
  • ……

从基础模型到应用场景,下面一起来看。

讯飞星火V3.5底座能力升级

讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。尤其对中文的理解更占优势,具体数据对比如下:

  • 语言理解、数学能力超过GPT-4 Turbo;
  • 代码打到GPT-4 Turbo 96%;
  • 多模态理解达到GPT-4V 91%;
  • ……

如果看数据图表还不够直观,我们也提前实测了一番。

就拿此次网友最为称道,也是本次更新最大的亮点——全语音交互,不是语音消息那样一条一条的,而是像打电话一样实时交互,下面先来看一段演示:

视频没有做加速处理,讯飞星火V3.5的语音响应就是这么快,与ChatGPT的语音交互相比,因为网络延迟更少,省去了大量的“等待AI思考”这个环节,整个对话过程更流畅。

“聆飞逸”“聆小玥”两种数字声线分别对应男声与女声两种音色,可自由切换。在音色自然,还像人说话的时候那样,时不时出现停顿、“嗯~”等语气助词。

在有感情,拟人度等方面,对比ChatGPT的“Ember”“Juniper”音色也不遑多让。

图片

在交互模式上还设计了“一键打断”功能,避免AI生成在一轮对话中内容过长。

图片

打断后,可继续提问下一个问题,也可以直接“挂断”语音,切回到文字模式,看到刚刚整个对话过程的文字版。

图片

除此之外,在其他能力表现上,我们先用一个经典挖坑题来考验。

结果讯飞星火V3.5不但回答了最后的问题,还没有被前面无关的信息绕进去,每一个不合理之处都被揪出来了。

做到这一点不仅需要推理问题中的文字逻辑,还要结合大模型在训练阶段学到的关于现实世界的知识。

图片

对比GPT-4,除了格式不同,推理能力、知识水平可以算是在一个Level层级了。

另外也可以推测,由于要兼顾语音表现,讯飞星火的回答总是一串连贯的句子,而GPT-4更注重视觉排版。

图片

时效性方面,提问最新网络流行梗,星火也是能跟得上潮流的。

图片

相比之下,GPT-4现在虽然默认也有联网功能,但不经特意提醒不会意识到回答这个问题需要联网搜索,而是开始了传统艺能“一本正经瞎编”。

图片

而在更实用场景功能升级,比如学习、办公等场景,也是讯飞星火一直以来的迭代重点。

比如在知识学习和内容创作方面。

发布会现场,只截取一段简单的新闻,就能提出问题,并且根据问题进行回答。

关键的是,里面回答的内容原文并没有。但它却能根据问题旁征博引、扩充内容。

图片

在PPT创作上,在确定主题、提纲以及内容的过程中,可以随时补充内容、精准生成。

图片

而在更多像工业、数智化的生产力场景中,对大模型的逻辑推理、空间理解、多模态等方面的能力都提出了更大的考验。

此次星火V3.5也得到了一定的增强。

图片

比如在多模态和空间理解能力上,只给了一张图,也没有更多提示(只说分析这张图片)。结果它直接判断:这是一个室内平面布局图,并且进一步准确给出房间、家居位置。

图片

除此之外,还可以帮忙设计装修图,并且根据自己的需求精细可控。

PS:你能看出这两个有什么不同吗?(提示:看后面的风格画)。

图片

总的来说,讯飞星火V3.5这次升级,在模型基础能力、实用性、交互模式上都有提升,也带领中国大模型行业进一步朝世界先进水平看齐。

不过在这幕后,还有一件更值得关注的进展。

这次讯飞星火V3.5能力升级,同时也是“飞星一号”平台能力的首秀。这是讯飞与华为共建的大模型算力平台,基于华为昇腾生态,实现了纯国产化算力。

在“飞星一号”平台首次对外宣布之时,刘庆峰曾表示“中国现有的大模型跟GPT-4比还有差距,所以我们必须正视今天和GPT-4的差距,找到差距所在。”如今在“飞星一号”平台正式投入使用后,这个差距正在逐渐缩短。

图片

不仅如此,一个完全国产化、自主可控的算力底座,在保障网络信息安全基础上,还能更好地满足国内各行各业的需求,以及支持开发者、高校、企业更好自主研发。

凭借此算力底座,除了讯飞星火V3.5,这次一同出炉的还有国产首个语音大模型。

首个语音大模型发布

借助基础大模型以及国产算力平台,此次科大讯飞在技术和生态层面,还有一揽子成果输出。

技术方面,首个语音大模型的发布。在语音技术上深耕二十余年的科大讯飞,它认为大模型给语音技术发展,包括语音合成、识别、多语种等方面带来了全新的机会。

图片

不同于常规的语音大模型,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中,比如语种表征、内容表征、韵律表征、音色表征。

图片

在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3.

图片

并且在多语种语音生成、超拟人语音生成上,也有一定的提升。

图片

目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

除此之外,还首次发布了星火开源大模型“星火开源-13B”。据介绍,此次深度适配国产算力,并且也在昇思社区上发布,助力开发者、高校、企业自主研发。

而在应用生态层面,此次同样也干货满满。

发布新一代讯飞星火智慧黑板

作为拥有超过全球590万开发者生态的讯飞,继续发挥着自己的场景势能——以大模型之力,持续在千行百业中落地。以最典型的教育场景为例。具体在教育场景上,此次讯飞星火智慧黑板有了一定升级。

刘庆峰认为,作为改变人类未来生产生活方式的重大技术突破,优先应该为孩子赋能、为教育赋能。

老师一声“上课”,讯飞星火智慧黑板就开始工作。

不管是数学、化学,立体几何还是化学方程式,只需在黑板上画一下,就能识别成书面格式,并且支持编辑。比如现场画个苯酚,结果它秒秒钟识别,并且推荐出视频科普课程。

图片

还能使用虚拟人,辅助老师授课。

图片

一节讲完,它还能自动存下来,课程实录、视频切片等内容都有,可以随时回顾重点。

除此之外,还有在保险、银行、能源、汽车、通信等方面的合作进展。

发布会现场,中国移动携手讯飞星火推出5G新通话创新应用“商务速记”,能够实现通话语音同步纪要,关键事项精准提炼,且无需下载APP,所有手机都支持。

值得一提的是,在农业领域,科大讯飞同安徽省农业农村厅联合打造“耕云农业大模型”,并被写入安徽省政府工作报告之中。

据介绍,在最新的安徽省政府工作报告中, “讯飞星火”还被评价道:科技创新实现新突破。讯飞星火认知大模型处于全国领先水平。

能得到这种自上而下的关注和协同合作,国内并不多见。这与科大讯飞本身在大模型生态影响力不无关系。截至目前,讯飞星火积累了这样一份成绩单:

讯飞听见已经拥有6500万用户;讯飞星火纯注册用户2400万;讯飞输入法有1.4亿活跃用户;内容创作平台讯飞智作(音视频创作)发布以来新增了21万会员用户,160万音视频内容;图文创作上,赋能企业用户生产百万内容。

半年来,大模型开发者生态积累了35万开发者数量,其中企业开发者数量为22万。

取得这样的成绩讯飞星火距离首次发布并不足一年。再次印证了大模型作为基础技术底座,持续释放在千行百业的应用潜力,而且迭代和落地速度只会越来越快。

去年十月,国务院发展研究中心下属的国研经济研究院开展了一项大模型行业应用能力测评研究。测评报告中显示:星火大模型V3.0在医学、法律、教育、零售、汽车工程、计算机和工业设计平均准确率达72.3%,在所有测评行业中表现均优于GPT-3.5,并且与GPT-4各有优劣。

而除了在行业场景中的生产势能外,此次国产语音大模型的发布同样值得关注。作为AI语音龙头,科大讯飞首次实践证明:借助大模型来推动自身语音技术积淀达到新的高度,继续引领语音技术发展。

大模型新阶段,该怎么走?

经历了2023年的百模大战,2024整个行业来到一个新的阶段。作为国内大模型的代表玩家,科大讯飞整场发布会看下来,能看到窥见到以下三点关键趋势:

基础技术层面,推理、多模态能力成为大模型技术升级的重点攻坚方向。此次讯飞星火V3.0的升级方向,与前段时间奥特曼剧透的GPT-5有不少相似之处。推理能力是重点提升方向,尤其在代表用户处理通用任务方面有重要进步。

在产品功能上,“应用户强烈要求”,奥特曼正在考虑给ChatGPT添加视频能力,以及给语音功能提供更好的语音质量。

企业层面,大模型只是基础底座,技术公司能够借大模型来带动自身技术升级和发展。

已经明显感知到的是,当下很多讨论的技术都有一个共性,就是它并非突然涌现,而是往往存在已久,终于来到了产业大规模应用的拐点。

因此对于技术公司来说,持续保持对新技术的感知和投入,其实就能快速部署应用,帮助自身技术布局和发展。

前段时间,Meta小扎官宣“All in 开源AGI”,但实则同此前元宇宙的布局并不冲突,他们将借助大模型,进一步推进雷朋Meta智能眼镜为代表AI新型计算设备的升级。

生态层面,大模型的开放性和可扩展性正在成为推动行业生态繁荣的关键因素。

讯飞星火正吸引着更多的开发者和合作伙伴,促进技术的快速迭代和创新。基于大模型构建出各种行业应用,形成一个多元化的应用生态。这种生态的构建,有助于形成良性的技术竞争环境,推动整个行业的技术进步和应用场景的拓展。

因此我们能看到,讯飞在教育、医疗等多个垂直领域的深入应用,这些领域的应用不仅能够解决实际问题,还能够反过来进一步为大模型提供丰富的数据支持,进一步优化模型性能,实现升级迭代的正向循环。

这也是讯飞一次次敢于在重要时间节点提前“立下Flag”,又能准时带着最新进展回来兑现承诺的底气所在。

图片

这一次,刘庆峰再次立Flag:今年上半年达到GPT-4现在水平。

而更长期的目标在于通用大模型持续对标、行业应用实现超越、自主可控生态繁荣。

9

相关文章