Anthropic发布Claude 3.5系列，AI可代理控制电脑丨Stable Diffusion 3.5发布丨微软正与OpenAI洽谈140亿美元股权投资方案-AI奇点网

首页 > 资讯 > 文章

2024-10-23 08:38

Anthropic发布Claude 3.5系列，AI可代理控制电脑丨Stable Diffusion 3.5发布丨微软正与OpenAI洽谈140亿美元股权投资方案

AI奇点网2024年10月23日报道丨AI资讯早报

Anthropic发布Claude 3.5系列，还可以模拟人类控制电脑操作

当地时间10月22日，国际知名的大语言模型开发商Anthropic发布了Claude 3.5 Sonnet升级版，以及新一代模型Claude 3.5 Haiku。

Claude 3.5 Haiku在V3.0基础上进行了大幅度更新，在相同成本的情况下推理效率、性能得到显著增强。即便与上一代的最大模型Claude 3 Opus相比，Claude 3.5 Haiku在许多智能基准测试中都表现出了超越的态势。

在编码任务方面，Claude 3.5 Haiku特别强，在 SWE-bench Verified 上得分达到了 40.6%，超越了许多使用公开可用的最先进模型的模型，包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

在本次新版本的发布同时，Anthropic还宣布推出了一项革命性的功能——「Computer use」。通过 API 开发者可以让 Claude 像人类一样使用计算机控制鼠标、键盘，包括查看屏幕、移动光标、点击按钮和输入文本等操作，在开发者的圈子内一时惊起千层浪。

例如，用户可以让 Claude 代理执行搜索网页上的信息、在电子表格中填写数据；打开软件进行特定的操作；协助开发人员执行重复性任务、测试代码等，整个流程 Claude 都会根据指令自动执行相应的操作。

目前，「Computer use」主要依靠API来驱动自动化指令，当开发者通过API向Claude 发送指令时，Claude会运用其自然语言处理能力解析指令。其内部语言模型会对指令文本进行词法、句法和语义分析，将指令意图映射到对应的经典计算机操作概念上，预训练的知识包括常见的计算机操作术语、软件功能描述等，以便让大模型可以准确执行特定的操作，计算产业将迎来一个全新的自动化时代。

Stability AI开源新一代文生图模型Stable Diffusion 3.5

当地时间10月22日，知名开源图像生成器Stable Diffusion开发商Stability AI宣布推出全新的V3.5版本。

Stable Diffusion 3.5一共有Large、Large Turbo和Medium三个版本，可根据不同的商业环境提供高度定制功能，同时对这些模型进行了大幅度优化可在消费级GPU就能轻松推理运行。

Stable Diffusion 3.5提供了多个版本的图像大模型，以满足不同用户群体的需求。

Stable Diffusion 3.5 Large模型拥有80亿参数，提供了卓越的图片质量和高度文本语义还原，是Stable Diffusion家族中最强大的模型，非常适合专业使用，尤其是在100万像素分辨率的图片。
Stable Diffusion 3.5 Large Turbo模型则是一个蒸馏版本，它能够在仅仅4步之内生成高质量的图像，并且对提示的遵循性非常好，速度比Stable Diffusion 3.5 Large快得多。
Stable Diffusion 3.5 Medium模型将在10月29日发布，这个模型有25亿参数，采用了改进的MMDiT-X架构和训练方法，能在消费级硬件上即开即用，可生成0.25—200万像素之间生成图像，兼顾了质量和易定制性。

今年6月，Stability AI首次开源了第三代文生图模型Stable Diffusion 3 Medium，但在用户群里反馈效果未达到预期，在听取了社区反馈后，Stability AI花费大量时间进一步开发，便有了今天推出的V3.5版本。

微软正与OpenAI洽谈价值140亿美元的股权投资方案

当地时间10月20日，来自华尔街日报的独家消息，微软正与OpenAI进行140亿美元的投资股权谈判。

除了股权之外，微软作为目前OpenAI的最大股东与资金支持方，其转型为「营利性企业」之后，在未来的公司治理、发展方面具备多少的实际控制权也是谈判的重点。

OpenAI在近期取得了来自Thrive Capital、英伟达、微软、软银等科技巨头的66亿美元巨额投资，这些投资机构要求OpenAI在两年内需要转型成为一家正常的营利公司，不然就会要求OpenAI偿还所有的投资。虽然OpenAI今年的预期营收将会超过30亿美元，但其收入主要用于偿还投资者。

商汤CEO发布“三位一体”AI新战略，强化应用落地

10 月 22 日上午，据新浪科技报道，商汤科技即将迎来公司成立十周年之际，董事长兼CEO徐立在近日发布了公司的内部信，首次提及公司决策层最新确立的「大装置-大模型-应用」的”三位一体“AI新战略，同时宣布将围绕战略和核心资源，构建更加集中和高效的组织架构，加快组织和管理的轻盈化进程。

在报道中写道，徐立发布的内部信阐述了自己对于过去传统的 AI 1.0 时代以及今天的生成式大模型 AI 2.0 时代的不同差异的理解。

他指出，“AI 1.0 被看作是专用智能，专注于单任务和信息处理；而 AI 2.0 被视为通用智能，强调多任务和内容生成。”

在他看来，这样的描述虽然简单易懂，却并非完全准确，因为”通用“与”专用“之间并无明确界限，而且 AI 的落地应用终究要场景化，比如生成式大模型在垂直领域的应用。

Midjourney官网下周上线AI图像编辑功能

当地时间10月21日消息，Midjourney CEO David Holz 在 Discord 平台发布消息称，将于下周为 Midjourney 的用户带来一款全新的 AI 图像编辑器工具，这款工具将内潜在官网的图像生成工具内。

在新上线的官网内，注册用户在上传图像后，可针对图像进行AI修图，包括放大、缩小、调整角度等多种操作，这些操作都无需再经由 Discord 平台就可以完成了，只需直接使用简单命令即可完成；用户可以使用数字画笔进行修补，进行更精细的修改。

此外该 AI 图像编辑器还可以基于上传图像的深度信息生成新图片，保留原始构图和内容不变的情况下，彻底改变纹理、颜色和细节。

Kakao推出AI助理服务：总结群聊、记录日程等

10 月 22 日消息，据韩联社报道，韩国知名的即时通信应用巨头 Kakao 宣布推出名为「Kanana」的 AI 人工智能助理服务，作为一款内置在 Kakao 聊天软件内的 AI 机器人，将提供一些实用性的生成式 AI 功能。

Kakao CEO 郑新雅介绍称，「Kanana」不仅仅是一款经典的 AI 助理功能，它的定位其实是“AI伴侣”，能够在对话中记住关键信息，并根据上下文为用户提供回应。其具备理解群组对话的能力，并能提供相应的智能回应。

据悉，「Kanana」分为两个部分：作为群聊 AI 助手的 Kana 和作为个人 AI 伴侣的 Nana。

Nana 能记住用户的个人对话和群组对话内容，如帮助用户记住在群组讨论中的会议日程或提醒准备事项、总结群聊的要点，支持文字 / 语音互动，同时也可理解各种格式的文档，并生成摘要。

Kana 主要负责记住群聊内容，帮助用户解决实际问题，如可以在学习群里发布测验，并提供评分、解答，或者在情侣之间的对话中建议约会计划。

此外，「Kanana」还将推出车载模式，用户可以在智能汽车的车机上通过语音方式与 AI 实现互动。

查看相关话题： #Claude #ai绘画 #AI电脑 #Stable Diffusion #微软 #OpenAI #商汤 #midjourney

Kardashian

工作人员

一打杂的

作者已发布 423 篇文章

近期文章

OpenAI明年将推出计算机控制智能体Operator丨小米成立AI平台部，酝酿智能眼镜丨传闻苹果正在研发AI智能家居中控

李彦宏：文心大模型日调用量超15亿丨百度发布文心「iRAG」文生图技术丨小度AI智能眼镜发布，搭载大模型边走边问

字节跳动内测豆包通用图像编辑模型SeedEdit丨Grok聊天机器人免费版内测丨月之暗面Kimi创始人被提起仲裁

李彦宏：文小言不必激进推广，百度不碰类Sora模型丨B200芯片出货预期高涨，英伟达股价创新高丨高通发布骁龙8至尊版

OpenAI满血版o1剧透：数学代码能力再破天花板，已开启测试评估