Vidu视频大模型重磅升级：实现主体场景迁移丨GPT-4o语音功能的高管跑路丨夸克发布AI写作助手CueMe-AI奇点网

首页 > 资讯 > 文章

2024-09-12 09:09

Vidu视频大模型重磅升级：实现主体场景迁移丨GPT-4o语音功能的高管跑路丨夸克发布AI写作助手CueMe

AI奇点网2024年9月12日报道丨AI资讯早报

生数科技Vidu视频大模型重磅升级：实现主体场景迁移

9月11日，由生数科技和清华大学联合研发的视频大模型Vidu迎来重大更新，加入了“主体参照”（Subject Consistency）功能，该功能能够实现对任意主体的一致性生成，让视频生成更加稳定、可控。目前该功能面向用户免费开放。

现阶段，无论是文生图，还是文生视频，都存在严重的主体一致性问题。

生数科技举办的媒体开放日活动上，对外展示了“主体参照”功能，该功能允许用户上传任意主体的一张图片，Vidu 就能够锁定该主体的形象，通过描述词任意切换场景，输出主体一致的视频。

该功能不局限于单一对象，而是面向“任意主体”，无论是人物、动物、商品，还是动漫角色、虚构主体，都能确保其在视频生成中的一致性和可控性，这是视频生成领域的一大创新。

无论是真实人物还是虚构角色，Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。Vidu 也是全球首个支持该能力的视频大模型。

OpenAI高管又跑路：GPT-4o语音模式主管离职

当地时间9月10日，据外媒报道，OpenAI 的音频 AGI 团队的研究主管 Alexis Conneau 宣布将离开公司，进行个人创业，他同时也是该公司实时互动语音大模型 GPT-4o 研究团队的重要技术成员。

Alexis Conneau 在 2023 年 4 月加入 OpenAI，帮助 OpenAI 实现了类似于「HER」（她是机器人）的人工智能愿景，他也参与了 GPT-4o 实时音频技术，以及下一代大模型 GPT-5 的相关研发工作中。

根据彭博社最新的报道显示，OpenAI 目前的估值为 1500 亿美元，正在洽谈从投资者处筹集 65 亿美元资金，以及从银行处获得 50 亿美元信贷额度。

李彦宏内部讲话：未来大模型之间的差距将拉大

据媒体报道，近日新浪独家披露，百度 CEO 李彦宏在公司内部进行了一次内部讲话内容，谈到了业界对于大模型的认识误区，涵盖大模型竞争、开源模型效率、智能体趋势等。

李彦宏在演讲中表示，未来大模型之间的差距可能会越来越大，模型的天花板很高，现在距离理想情况还相差非常远，所以模型要不断快速迭代、更新和升级。大模型的投入，需要能几年、十几年如一日地投入，不断满足用户需求，降本增效。

李彦宏指出，模型之间的差距是多维度的，一个维度是「能力」方面：理解能力、生成能力、逻辑推理能力、记忆能力等;另一个维度是「成本」方面：想具备这个能力或者想回答这些问题，付出的成本是多少。

可以读懂唇语的AI产品Readtheirlips，火了

最近，国外一款据称可以轻松读出人类的唇语的 AI 软件 Readtheirlips 火了！

Readtheirlips 是一款利用人工智能技术进行唇语识别的软件。它通过分析视频中人物的嘴部动作来识别和转录所说的内容。根据搜索结果，这款软件在某些情况下表现出色，例如当视频中的人物正脸对着镜头时，Readtheirlips 能够准确地识别和转录对话内容。

让我们简单了解这款产品是如何读取唇语的：

首先，研究团队根据已知的嘴唇运动动作大数据与文本内容，采取大量的标注数据来对模型进行训练。

在此基础上，用户要上传一段视频，这段视频要包含说话者的面部特写，尤其是嘴部动作。

然后模型会对视频进行嘴部运动的分析：先是通过面部检测识别嘴唇的位置，然后再提取嘴唇的几何特征，(形状、开合程度、运动轨迹等)，最后分析嘴唇在说话过程中的动态变化（语速、方向和形状变化）。

最后，大模型会将提取的嘴唇特征与训练数据中的特征进行匹配，来识别出视频中人物所说的内容。

将识别出的单词或短语组合成完整的句子，进行一下上下文理解，确保语法和语义的正确性。最终将识别出的内容输出为文本格式。

夸克发布智能写作助理CueMe，支持20万字长文

9月12日，阿里旗下夸克发布全新智能对话助手 CueMe，用户现可通过登录 cueme.cn 或在夸克 App、小程序等平台使用。

CueMe 是基于夸克大模型自主研发，AI 写作能力突出，支持不同体裁、不同篇幅的内容生成，最长可生成 2 万字的内容。

夸克表示，CueMe 针对不同细分体裁进行了充分的语料预训练，可支持上千种不同体裁的写作需求，包括研究报告、日常写作、课程论文、新媒体文案等等，并且还在持续扩展中。

此外，CueMe 还支持文风定制，用户可选择根据平台风格、语言风格或个人文章风格生成符合其个性化需求的内容。

据夸克官方介绍，CueMe 实现了三项关键技术突破 —— 长文本理解与生成、专业知识检索与增强、以及复杂多轮文创指令遵循。在此基础上，CueMe 从三个方向进行内容深度优化。

首先是结构，对于研究报告等长文，高质量大纲生成是确保内容结构合理、逻辑清晰的关键。

其次是引用素材时效性强、内容丰富。

最后在生成内容中增加细节描述和鲜明观点，从而让生成内容不再“AI 痕迹明显”或者泛泛而谈。

以大纲内容优化为例，CueMe 首先会根据需求生成有明确方向的的高质量大纲，同时通过“增加每一部分具体内容描述”、“增加一个国际比较章节”等推荐指令，引导用户进一步打磨大纲。当然，用户也可直接与 CueMe 对话，输入具体修改要求。

马斯克：特斯拉2025年列装Dojo 2 AI训练芯片，对标英伟达B200

当地时间9月10日，马斯克出席 All-In Summit 2024 活动时，并发表了重要的产品推荐讲话。

他透露，特斯拉的下代 AI 运算芯片 Dojo 2 将于 2025 年末批量装备。

会议现场

马斯克表示在特斯拉的 AI 基础设施结构中 Dojo 负责模型训练，而车端芯片负责模型推理。特斯拉未来将推出数代 Dojo 芯片。

其中预计 2025 年末实现批量装备的 Dojo 2 可与英伟达 B200 AI 训练系统在一定程度上具有可比性;而再下一代的 Dojo 3 则有可能于 2026 年晚些时候推出。

马斯克认为技术通常需要 3 次重大迭代才能达到卓越水平，因此等到 Dojo 3 才能知道 Dojo 系列芯片到底有多么优秀。

查看相关话题： #Vidu #AI视频 #OpenAI #夸克 #特斯拉 #李彦宏

Altman

工作人员

AI奇点网主编

作者已发布 419 篇文章

近期文章

苹果与字节、腾讯、智谱AI接触大模型服务合作丨快手发布可灵AI V1.6模型丨库克：苹果不会对AI服务进行收费

OpenAI推出AI电话客服热线丨豆包发布AI视觉理解大模型丨即梦AI图像模型V2.1上线，一句话生成海报

OpenAI o1大模型API年度大促销丨谷歌发布AI图像生成新工具Whisk支持多图融合丨智谱AI新增30亿元融资

OpenAI推出ChatGPT Pro，即将发布“草莓”大模型丨字节硬件团队正在打造大模型耳机丨「苹果智能」中文版等待审批

OpenAI发布理科强推理大模型o1丨Midjourney预告7.0版本丨李彦宏：模型之间差距会越来越大，开源解决不了效率问题