首页  >  资讯  >  文章
2024-10-23 08:38

Anthropic发布Claude 3.5系列,AI可代理控制电脑丨Stable Diffusion 3.5发布丨微软正与OpenAI洽谈140亿美元股权投资方案

AI奇点网2024年10月23日报道丨AI资讯早报

Anthropic发布Claude 3.5系列,还可以模拟人类控制电脑操作

当地时间10月22日,国际知名的大语言模型开发商Anthropic发布了Claude 3.5 Sonnet升级版,以及新一代模型Claude 3.5 Haiku。

Claude 3.5 Haiku在V3.0基础上进行了大幅度更新,在相同成本的情况下推理效率、性能得到显著增强。即便与上一代的最大模型Claude 3 Opus相比,Claude 3.5 Haiku在许多智能基准测试中都表现出了超越的态势。

在编码任务方面,Claude 3.5 Haiku特别强,在 SWE-bench Verified 上得分达到了 40.6%,超越了许多使用公开可用的最先进模型的模型,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

在本次新版本的发布同时,Anthropic还宣布推出了一项革命性的功能——「Computer use」。通过 API 开发者可以让 Claude 像人类一样使用计算机控制鼠标、键盘,包括查看屏幕、移动光标、点击按钮和输入文本等操作,在开发者的圈子内一时惊起千层浪。

例如,用户可以让 Claude 代理执行搜索网页上的信息、在电子表格中填写数据;打开软件进行特定的操作;协助开发人员执行重复性任务、测试代码等,整个流程 Claude 都会根据指令自动执行相应的操作。

目前,「Computer use」主要依靠API来驱动自动化指令,当开发者通过API向Claude 发送指令时,Claude会运用其自然语言处理能力解析指令。其内部语言模型会对指令文本进行词法、句法和语义分析,将指令意图映射到对应的经典计算机操作概念上,预训练的知识包括常见的计算机操作术语、软件功能描述等,以便让大模型可以准确执行特定的操作,计算产业将迎来一个全新的自动化时代。

Stability AI开源新一代文生图模型Stable Diffusion 3.5

当地时间10月22日,知名开源图像生成器Stable Diffusion开发商Stability AI宣布推出全新的V3.5版本。

Stable Diffusion 3.5一共有Large、Large Turbo和Medium三个版本,可根据不同的商业环境提供高度定制功能,同时对这些模型进行了大幅度优化可在消费级GPU就能轻松推理运行。

Stable Diffusion 3.5提供了多个版本的图像大模型,以满足不同用户群体的需求。

  • Stable Diffusion 3.5 Large模型拥有80亿参数,提供了卓越的图片质量和高度文本语义还原,是Stable Diffusion家族中最强大的模型,非常适合专业使用,尤其是在100万像素分辨率的图片。
  • Stable Diffusion 3.5 Large Turbo模型则是一个蒸馏版本,它能够在仅仅4步之内生成高质量的图像,并且对提示的遵循性非常好,速度比Stable Diffusion 3.5 Large快得多。
  • Stable Diffusion 3.5 Medium模型将在10月29日发布,这个模型有25亿参数,采用了改进的MMDiT-X架构和训练方法,能在消费级硬件上即开即用,可生成0.25—200万像素之间生成图像,兼顾了质量和易定制性。

今年6月,Stability AI首次开源了第三代文生图模型Stable Diffusion 3 Medium,但在用户群里反馈效果未达到预期,在听取了社区反馈后,Stability AI花费大量时间进一步开发,便有了今天推出的V3.5版本。

微软正与OpenAI洽谈价值140亿美元的股权投资方案

当地时间10月20日,来自华尔街日报的独家消息,微软正与OpenAI进行140亿美元的投资股权谈判。

除了股权之外,微软作为目前OpenAI的最大股东与资金支持方,其转型为「营利性企业」之后,在未来的公司治理、发展方面具备多少的实际控制权也是谈判的重点。

OpenAI在近期取得了来自Thrive Capital、英伟达、微软、软银等科技巨头的66亿美元巨额投资,这些投资机构要求OpenAI在两年内需要转型成为一家正常的营利公司,不然就会要求OpenAI偿还所有的投资。虽然OpenAI今年的预期营收将会超过30亿美元,但其收入主要用于偿还投资者。

商汤CEO发布“三位一体”AI新战略,强化应用落地

10 月 22 日上午,据新浪科技报道,商汤科技即将迎来公司成立十周年之际,董事长兼CEO徐立在近日发布了公司的内部信,首次提及公司决策层最新确立的「大装置-大模型-应用」的”三位一体“AI新战略,同时宣布将围绕战略和核心资源,构建更加集中和高效的组织架构,加快组织和管理的轻盈化进程。

在报道中写道,徐立发布的内部信阐述了自己对于过去传统的 AI 1.0 时代以及今天的生成式大模型 AI 2.0 时代的不同差异的理解。

他指出,“AI 1.0 被看作是专用智能,专注于单任务和信息处理;而 AI 2.0 被视为通用智能,强调多任务和内容生成。”

在他看来,这样的描述虽然简单易懂,却并非完全准确,因为”通用“与”专用“之间并无明确界限,而且 AI 的落地应用终究要场景化,比如生成式大模型在垂直领域的应用。

Midjourney官网下周上线AI图像编辑功能

当地时间10月21日消息,Midjourney CEO David Holz 在 Discord 平台发布消息称,将于下周为 Midjourney 的用户带来一款全新的 AI 图像编辑器工具,这款工具将内潜在官网的图像生成工具内。

在新上线的官网内,注册用户在上传图像后,可针对图像进行AI修图,包括放大、缩小、调整角度等多种操作,这些操作都无需再经由 Discord 平台就可以完成了,只需直接使用简单命令即可完成;用户可以使用数字画笔进行修补,进行更精细的修改。

此外该 AI 图像编辑器还可以基于上传图像的深度信息生成新图片,保留原始构图和内容不变的情况下,彻底改变纹理、颜色和细节。

Kakao推出AI助理服务:总结群聊、记录日程等

10 月 22 日消息,据韩联社报道,韩国知名的即时通信应用巨头 Kakao 宣布推出名为「Kanana」的 AI 人工智能助理服务,作为一款内置在 Kakao 聊天软件内的 AI 机器人,将提供一些实用性的生成式 AI 功能。

Kakao CEO 郑新雅介绍称,「Kanana」不仅仅是一款经典的 AI 助理功能,它的定位其实是“AI伴侣”,能够在对话中记住关键信息,并根据上下文为用户提供回应。其具备理解群组对话的能力,并能提供相应的智能回应。

据悉,「Kanana」分为两个部分:作为群聊 AI 助手的 Kana 和作为个人 AI 伴侣的 Nana。

Nana 能记住用户的个人对话和群组对话内容,如帮助用户记住在群组讨论中的会议日程或提醒准备事项、总结群聊的要点,支持文字 / 语音互动,同时也可理解各种格式的文档,并生成摘要。

Kana 主要负责记住群聊内容,帮助用户解决实际问题,如可以在学习群里发布测验,并提供评分、解答,或者在情侣之间的对话中建议约会计划。

此外,「Kanana」还将推出车载模式,用户可以在智能汽车的车机上通过语音方式与 AI 实现互动。

7

相关文章