谷歌发布多模态互动服务Gemini Live丨AI手机谷歌Pixel 9系列发布丨快手上线AI陪伴APP「飞船」
AI奇点网2024年8月14日报道丨AI资讯早报
当地时间 8月 13 日,谷歌在山景城总部举行了今年的 Pixel 9 系列手机新品发布会。发布了 Gemini Live 实时对话服务,将于今天开始率先面向使用英语语言版本的 Gemini Advanced 订阅用户开放。
谷歌表示 Gemini Live 提供了一种随时随地的移动对话体验,让用户可以通过手机上的 Gemini AI 应用展开自由流畅的对话。通过 Gemini Live(内置在 Gemini 应用内),用户可以与 Gemini AI 进行直接的自然语言对话,并从10种自由选择的“自然声音”中选择它可以回应的声音。
Gemini Live 是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式。后者也采用了增强型的语音引擎,可以展开更连贯、更有情感表达力、更逼真的多轮对话。
谷歌表示,用户与 Gemini 聊天机器人说话时,可以在任何时候打断它发言,并提出后续的问题,聊天机器人会根据实时情况,来适应用户的说话模式。
目前的谷歌 Gemini Live 测试版本里边,暂时还不支持多模态多媒体上传信息提供分析能力。谷歌表示,多模态输入功能将在“今年晚些时候推出”,但拒绝透露更多的具体细节。
当地时间8月13日,谷歌方面正式发布了最新一代 Pixel 9 系列等多款新品。这是谷歌推出的第二代基于 AI 大模型基础开发的智能手机产品,作为一款“亲儿子”作品,谷歌往上倾注了最大的力量。
两款手机的定价展示如下:
具体来说,Pixel 9/Pixel 9 Pro 系列配备了一块 6.3 英寸 120Hz OLED 直屏,搭载 Tensor G4 处理器,从光学指纹传感器变为超声波指纹传感器,电池容量为 4700mAh。 影像上 Pixel 9 后摄搭载 50MP 主摄与 48MP 超广角,Pixel 9 Pro 多一个 48MP 长焦镜头。
在 RAM 方面,两款机型有所不同。Pixel 9 配备 12GB 内存,Pixel 9 Pro 配备 16GB 内存。
Pixel 9 Pro XL 屏幕大小为 6.8 英寸,分辨率比 Pixel 9 Pro 更高,电池容量为 5060mAh,其他配置基本和 Pixel 9 Pro 相同。
Pixel 9 Pro Fold 同样搭载 Tensor G4 处理器,采用 48MP 主摄、12MP 超广角、10.8MP 5 倍长焦镜头。屏幕方面,Pixel 9 Pro Fold 外屏大小为 6.3 英寸 ,内屏大小为 8 英寸,总体设计上比前代产品更长更薄,折叠后厚度为 10.5 毫米,展开厚度 5.1 毫米,重量为 257 克。
Pixel 9 系列支持卫星通信,在生成式 AI 功能上,这两款手机支持在本地运行的端侧的 Gemini Nano 小尺寸模型,以及 Pixel Screenshots(屏幕回溯)、Pixel Studio 图像生成应用,Magic Editor 图片编辑等功能。值得一提的是,Google 在发布会上强调,Gemini AI 不需要依赖第三方 AI 服务,能够在端侧进行独立的查询。
近日,快手公司在AI图文视频生成领域大展拳脚后,有最新发布了名为「飞船」(Kraft)的 AI 虚拟人物对话产品,这是一款类似于 Character.AI 的个性对话软件,提供一对一虚拟对话聊天的情感陪伴服务。
官方介绍称,「飞船」智能助手 App 是一款基于先进 AI 技术的互动软件,旨在提升用户的生活质量和工作效率。用户可以通过文字或语音与 AI 助手进行交流,解答疑问、获得娱乐、进行创作和角色定制等。
用户在飞船平台上扮演“船长”角色,名为快快的 AI 少女领航员引导用户体验,飞船基于快手自研大模型“快意”,更侧重于虚拟陪伴,拥有快速的回复速度和逼真的语音体验。
用户可以在该应用中创建和定制专属 AI 虚拟角色,进行内容创作、知识解答,并具备语音交互功能。
近日,国内 AI 初创企业面壁智能宣布,旗下的小参数大模型 MiniCPM-V 2.6 登顶了知名开源社区 GitHub 的第一位,并且在大模型生态社区 Hugging Face 趋势榜页进入了前三位。
MiniCPM-V 2.6 是一款多模态的开源大模型,不仅是一款性能十分不错的聊天机器人助理,而且在单图、多图和视频理解方面,MiniCPM-V 2.6 的部分性能甚至超越了 GPT-4V,甚至在单图理解上优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等商用闭源模型。
据介绍,MiniCPM-V 2.6 仅 8B 参数,量化后端侧内存仅 6 GB,将实时视频理解、多图联合理解、多图 ICL 等能力搬上了端侧多模态模型,支持多种语言。
人工智能系统依靠充足、高质量的训练数据来获得高性能,但麻省理工学院(MIT)等研究机构最近的一项研究发现,曾经免费提供的数据在多个方面变得越来越难获取。
随着生成式 AI 产品的开发和研究变得越来越广泛,训练数据的抓取许可也越来越成为受关注的话题。
最近,华裔人工智能科学家吴恩达在网站 The Batch 上提及了一篇有关数据许可的研究,其结果似乎让本就迫近的「AI数据荒」雪上加霜。
研究人员发现,C4、RefineWeb、Dolma 等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,曾经触手可及的开放数据越来越难以获取。
这不仅会影响商用 AI 模型的训练,也会对学术界和非营利机构的研究造成阻碍。
不仅如此,AI科技公司与出版商之间的版权纠纷日益突出。比如,从去年12月开始,《纽约时报》就对OpenAI展开了一系列的版权诉讼,指控其未经许可使用该报的内容进行AI模型训练,索赔金额达到数十亿美元。
今年,谷歌与法国的新闻出版商的纠纷谷歌因未适当使用法国新闻内容进行AI训练,被罚款2.5亿欧元,并且尝试与法国新闻出版商方面进行重新谈判合作。该事件反映了AI公司在处理版权问题时面临的法律风险和复杂性。
诸如此类的事件,标志着出版商对于AI科技公司借助互联网手段快速收集数据用于训练大模型的时代行将落幕,来自攻防双方的对抗也愈演愈烈。