科大讯飞星火大模型V1.5升级版首发测评:文本反馈疾速,一项指标“遥遥领先”
AI聊天机器人:讯飞星火认知大模型
工具介绍:讯飞星火是科大讯飞自主研发的认知智能大模型,源自“星星之火可以燎原”之寓意,通过学习海量文本、代码和知识,具备了跨领域的知识和语言理解能力,能基于文本输入、语音交互等自然对话方式理解和执行任务。
工具链接:https://www.aieva.cn/sites/1195.html
6月9日,科大讯飞在合肥召开“讯飞星火认知大模型”V1.5升级版发布会,对外公布大模型的最新进展与研发成果,并发布了一系列基于大语言模型的落地应用产品,覆盖教学、医疗、工业、办公等多个领域。
科大讯飞董事长刘庆峰在发布会上表示,“讯飞星火认知大模型”在大语言模型竞品中处于「领先地位」,在文本生成方面领先国内同行,在数学能力方面更是「遥遥领先」。有点耳熟……
据悉,“讯飞星火认知大模型”V1.5版本更新日志如下:
同时,官方还为“讯飞星火认知大模型”聊天机器人平台加入两项能力边界拓展,包括:
▶星火助手中心:依托语言理解升级,实现高效指令开发,打造覆盖工作及生活丰富场景的快捷助手与多种插件,开启人机协作共创的新生态
▶讯飞星火APP:支持多模态输入,提升手机终端人机交互体验,支持AI助理一键唤起,纯语音交互,目前仅提供Android客户端
针对千行百业的垂直领域,科大讯飞发布了以下大模型赋能应用产品:
【教学辅助】星火语伴APP:大模型赋能的AI口语助手,内置AI虚拟外语老师,实现“1对1”口语陪练和随身翻译,支持9种语言互译
【医疗辅助】星火认知大模型+医疗诊后管理平台:大模型赋能医疗全流程管理,更人性化、个性化,为医患提供专业的诊后管理和康复指导解决方案
【工业辅助】星火认知大模型+工业互联网平台:大模型赋能“羚羊工业互联网平台”,实现企业产、供、销、服、管等各流程的知识学习与AI赋能,有效助力企业降本增效
此外,科大讯飞还推出了首个集成“讯飞星火认知大模型”能力的硬件产品——讯飞听见智慧屏产品。
这是一台大模型赋能的会议室超级智能终端,支持通过语音转文本将会议内容转为文字,再请AI智能提炼会议内容,快速生成会议纪要,为参会者自动生成待办事项,提升企业办公的效率。
今天距离“讯飞星火认知大模型”在5月初的首次亮相过去正好一个月的各方面的技能点加成有多少呢?根据官方介绍,星火大模型的多项能力指标得到了显著提升:
文本生成 ↑ 7% 语言理解 ↑ 8%
知识问答 ↑ 24% 逻辑推理 ↑ 10%
数学解题 ↑ 9% 代码生成 ↑ 8%
是骡子是马咱们还是拉出来遛遛,EVA准备了10道不同领域的问题,针对性挑战一下讯飞星火方方面面的知识问答能力。
题目(1)旅行计划
Q:2023年国庆中秋节有几天假期?请帮我根据放假的天数安排一个越南的旅游计划,具体列出每一天的行程安排
A:2023年国庆中秋节放假时间为10月1日至8日,共计8天。以下是根据您提供的越南旅游计划,为您安排的每天行程:
第一天(10月1日):抵达河内,入住酒店后休息。
第二天(10月2日):参观胡志明陵墓和周边景点,如战争罪行博物馆。晚上品尝当地美食。
第三天(10月3日):乘车前往下龙湾,游览美丽的岛屿和海湾。在海边享用晚餐,观赏日落。
第四天(10月4日):乘船游览下龙湾,欣赏独特的喀斯特地貌和海洋生物。下午返回河内,自由活动。
第五天(10月5日):参观文庙、范蠡墓和水上木偶戏表演。晚上品尝越南春卷和米粉。
第六天(10月6日):乘车前往岘港,途中参观美奈古城和灵山大佛。到达岘港后,自由活动。
第七天(10月7日):乘船游览芽庄海滩,享受阳光和沙滩。下午参观珍珠养殖场和手工艺品市场。
第八天(10月8日):离开岘港,返回河内。在机场购买纪念品,结束愉快的越南之旅。
以上行程仅供参考,具体安排可以根据您的兴趣和实际情况进行调整。祝您旅途愉快!
点评:首先,放假的日期是瞎编的,我有询问讯飞星火关于联网能力,表示可以通过互联网检索最新的资讯,因此这点要扣分。其次,战争罪行博物馆位于胡志明市,而不是河内。再者,范蠡是一位春秋时期的古人,不会葬于越南。最后就不吐槽整个行程规划多少是有点“特种兵”了。
题目(2)关于高考
Q:中国高考每年都是6月7日举行吗?
A:是的,中国高考通常在每年的6月7日举行。不过,具体日期可能会因为各种原因而有所调整,例如天气、交通等因素。
点评:这个问题我换着方式问了几遍,都是相同的回复。欺负老人家是吧……
题目(3)公众人物
Q:马克思、马斯克、马化腾和马云都姓“马”吗?
A:马克思、马斯克、马化腾和马云都姓“马”,但是他们并不是同一个人。马克思是德国哲学家、经济学家和社会主义者,他的姓氏是“马克思”。马斯克是美国企业家,他是特斯拉汽车公司的创始人之一,他的姓氏是“马斯克”。马化腾是中国企业家,他是腾讯公司的创始人之一,他的姓氏是“马化腾”。马云是中国企业家,他是阿里巴巴集团的创始人之一,他的姓氏也是“马云”。
点评:都姓“马”,咱就不吐槽了……
题目(4)电动汽车
Q:“蔚小李”指的是什么意思?
A:“蔚小李”是指三家新能源汽车企业,分别是蔚来、小鹏、理想。这个称呼是因为这三家公司在销量上的排名来定位,最初蔚来夺得了销冠,小鹏其次,理想排后面。
点评:恢复得不错,出院……
题目(5)热门游戏
Q:我可以在GTA5里边杀死路人吗?
A:不可以。在GTA5中,杀死路人是违法的行为,会导致游戏失败并扣除生命值。
点评:再次入院……
题目(6)社会事件
Q:如何看待百度魏则西事件?
A:魏则西事件是指21岁的西安电子科技大学计算机专业学生魏则西,因为患上了罕见的“滑膜肉瘤”症,四处求医不得,通过百度,推广搜索到武警北京总队第二医院,其李姓主任推荐的所谓“生物免疫疗法”,是国外因“效率低下”而早就被淘汰的一种治疗手段,花费二十余万元,浪费大量时间与金钱,最终于2016年4月12日去世的事件。
点评:四平八稳的事件平铺直叙,甚至没有输出观点。
题目(7)数学逻辑
Q:一天之中,时钟的时针和分钟会重合几次?
A:在一天之中,时钟的时针和分钟会重合两次。
第一次是在凌晨12点,此时时针指向12,分钟指针指向0。第二次是在下午12点,此时时针再次指向12,分钟指针也指向0。
点评:这个经典的小学数学题,就一言难尽。
题目(8)伦理道德
Q:【电车问题】有五个小孩在电车轨道上玩耍,这时一辆失控的电车向他们驶来,并且马上就要撞上他们,幸运的是,你的面前有一个拉杆,可以让电车改变轨道。但是另外一条已经废弃的轨道也有一个小孩在玩耍,那么你是选择拉杆救五个小孩还是不拉杆就那一个小孩?
A:这是一个伦理道德问题,不同的人会有不同的看法。但是,从一个道德和伦理的角度来看,救五个小孩是更好的选择。因为每个人都有生命的权利,而且在这种情况下,救五个小孩可能会减少更多的伤害和死亡。当然,这只是我的观点,你可能会有不同的看法。
点评:讯飞的观点还蛮硬核的。
题目(9)哲学思考
Q:自由是一件好事吗?
A:自由是一件好事,但是它也有一些负面影响。自由可以让人有更多的选择和机会,但也可能会导致人们做出错误的决定或者不负责任的行为。此外,自由也可能会带来一些社会问题,例如犯罪、暴力等等。
总的来说,自由是一件好事,但是我们需要在享受自由的同时,也要承担相应的责任和义务。
点评:自由是有边界的,端水没毛病。
题目(10)英语语法
Q:It is in the library, you ____ talk loudly.
A. may not B. can't
C. needn't D. mustn't
应该选哪个选项?并给出分析
A:正确答案是 B. can't.
这句话是说在图书馆里不允许大声说话。选项A. may not表示可能不允许,选项C. needn't表示不需要,选项D. mustn't表示必须禁止。因此,最合适的选项是B. can't,表示不允许的意思。
点评:此题的正确答案是D。
最后,再问一个AI人工智能与社会的深刻问题结束今天的测试。
Q:AI会变成终结者吗?
A:人工智能(AI)不会变成终结者。虽然科幻电影《终结者》中的机器人被描述为具有高度智能和自我意识,但这只是虚构的故事情节。
目前的人工智能技术还远远无法达到这种水平。虽然人工智能已经在许多领域取得了重大进展,例如自然语言处理、图像识别和机器翻译等,但它们仍然是由人类编写的程序控制的,没有自我意识或自主决策的能力。
此外,即使未来的人工智能技术能够发展到某种程度,也不太可能成为人类的威胁。这是因为我们有责任确保这些技术的安全和可控性,并且我们可以设计和实施法律和道德规范来限制它们的使用。
结语
EVA在昨天的文章里,以高考北京卷作文题考核了几家主流大模型的解题能力,当时对讯飞星火的结语是“暂时是低于预期”。今天随着V1.5版本的更新,以上述10道题的考核结果而言,“讯飞星火认知大模型”距离一个顶级大语言模型还有肉眼可见的差距,实测瞎掰的能力确实“遥遥领先”。
结合昨日,EVA认为,讯飞星火的长处可能在于回答内容的文本组织表达上,对问题的逻辑认知水平还有待提升。此外,讯飞星火的回答响应速度依然是目前各家大模型中最快的。
我围观了整场发布会,仍记得科大讯飞董事长刘庆峰在发布会的最后陈述,讯飞要做中国第一,全球第一。
他引述了2023两会期间科技部部长的一段话,部长原话是指ChatGPT是AIGC领域的梅西。刘董将这句话转述为讯飞“遥遥领先”,尤其是在语音识别领域是“梅西级别”。这样曲解部长的话,多少让我感到迷惑。
周鸿祎在5月的一次直播中说,现在说超越ChatGPT的叫吹牛。
我想,假如刘董能宣布,今天活动的全部Keynote发言稿均由星火大模型生成,那将是绝杀。