ChatGPT APP将推出语音输入和图像辨识功能丨阿里、百川推出新款大模型丨GitHub：AI无法取代程序员，无需恐慌-AI奇点网

首页 > 资讯 > 文章

2023-09-26 09:03

ChatGPT APP将推出语音输入和图像辨识功能丨阿里、百川推出新款大模型丨GitHub：AI无法取代程序员，无需恐慌

AI奇点网2023年9月26日报道丨AI资讯早报

基于DALL·E-3，ChatGPT手机APP将推出语音输入和图像辨识新功能

OpenAI在官网宣布，将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能。上述功能允许用户进行语音对话或向ChatGPT展示其正在谈论的内容。语音功能将在iOS和Android平台推出，图像功能将登陆所有平台。

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文本，然后生成答案。

图像输入功能则类似于Google Lens，用户可以拍摄自己感兴趣的事物，并上传到ChatGPT 中。ChatGPT 会尝试识别用户想要询问的内容，并给出相应的回答。

阿里云发布通义千问140亿参数Qwen-14B开源大模型

9月25日，阿里云举办通义千问开源发布会，正式发布通义千问140亿参数模型Qwen-14B及对话模型Qwen-14B-Chat，开源、免费。据介绍，Qwen-14B在众多同尺寸20B以内开源模型中突出重围，在MMLU、C-Eval、GSM8K、MATH、GaoKao-Bench等12个权威测评集上都取得了最优成绩，超越所有测评中的SOTA大模型。

此外，通义千问团队升级了Qwen模型对接外部系统的能力，开发者可以通过简单的操作实现复杂的插件调用，也可以基于Qwen系列基座模型快速开发Agent等AI系统，利用Qwen的理解和规划能力完成复杂的任务。同时，Qwen-7B也实现了全面升级，核心指标最高提升22.5%。

百川智能发布530亿参数量闭源大模型Baichuan2-53B

9月24日，百川智能发布Baichuan2-53B闭源大模型，全面升级了Baichuan1-53B的各项能力。据介绍，Baichuan2-53B的数学和逻辑推理能力显著提升，并通过高质量数据体系和搜索增强大幅降低了模型幻觉，是目前国内幻觉问题最低的大模型。

百川智能此次还开放了Baichuan2-53B API接口，宣布正式进军To B领域。

全球最大商业图库网站Getty Images将推出生成式AI绘图工具

据The Verge报道，全球最大的商业图库Getty Images将与英伟达合作推出生成式 AI 工具，它的名字也很直白：Generative AI by Getty Images（Getty Images 的生成式AI工具）。

据介绍，这款工具允许用户在 Getty Images 庞大的图库中进行训练，也意味着任何使用这种工具、商业发布该工具创作图片的人都会受到法律保护。此外，Getty Images 使用了英伟达生成式 AI 模型库 Picasso 上提供的模型“Edify”来开发这款工具。

Getty Images 还表示，使用这款工具声称的任何照片都不会被收录到自家主站和 iStock 的内容库中。若公司使用 AI 声称的图片来训练模型，将会向创作者支付报酬，每张图片文件收益将按照比例分配。

GitHub CEO：AI无法取代程序员，无需恐慌

外媒 TechCrunch 报道，GitHub CEO Thomas Dohmke 最近在近日的一场活动上分享他对于人工智能和软件开发之间关系的看法。

Thomas Dohmke 认为，在 Copilot 及其相关 Copilot Chat 等辅助工具的推动下，人工智能和软件开发现在已密不可分，凭借这些软件，微软已经将 AI 这一技术扩展到了个人消费者。AI奇点网了解到，Thomas Dohmke 坚持认为，滚雪球式的人工智能革命不会给软件开发行业敲响丧钟。

Dohmke声称，行业对软件开发者的需求将继续超过供应。Copilot 等 AI 代码辅助开发工具只是用于提高开发者的工作效率，而非取而代之。他说：“十年内软件的数量只会呈指数增长，我们需要管理的代码行数越来越多，我们的想法也越来越多。坦白说，现在每家公司都是软件公司。”

Thomas Dohmke 提到行业对于软件开发者仍有大量需求的原因，主要是有许多 “古老” 代码的存在。比如银行和融机构仍在运行 60 年代的 COBOL 代码，而且当时的代码没有采用基于单元测试和 CI / CD 进行编写，因此必须有人维护它，并希望将相关 COBOL 代码转换为 Java 或 Python。