文本生成超逼真语音，ElevenLabs获8000万美元融资-AI奇点网

首页 > 资讯 > 文章

2024-01-23 10:35

文本生成超逼真语音，ElevenLabs获8000万美元融资

1月23日，文本生成语音平台ElevenLabs在官网宣布，获得8000万美元(约5.7亿元)B轮融资。本次由Andreessen

Horowitz、 Nat Friedman领投，红杉资本、 SV Angel等跟投。

用户通过文本和语音的方式在ElevenLabs平台，就能生成中文、英文、日文、韩文等29种语言以及1000多种声音，同时可以对生成语音的清晰度、风格、稳定等参数进行自定义设置。

此外，ElevenLabs在宣布融资的同时发布了新的配音工作室、语音库和移动应用三款预览产品，以巩固其在生成式AI语音领域的独角兽地位。

资料显示，ElevenLabs创立于2022年4月，总部位于美国纽约，最初员工不超过10人，目前已增长至40多人。

ElevenLabs曾在2023年1月获得200万美元种子轮融资，6月21日获得1900万美元A轮融资。

ElevenLabs于2023年1月正式推出了测试产品，因简单、易用、免费等优势，其注册用户很快突破100万，目前41%的财富 500 强公司在使用其产品。

包括世界上最大的有声读物出版商之一的Storytel;全球著名内容创作者平台TheSoul Publishing;

知名游戏开发商Paradox Interactive等。这些企业通过ElevenLabs平台制作有声读物、电影配音、游戏NPC的声音等。

Eleven Labs核心团队

产品方面，ElevenLabs基于自研的Eleven Multilingual v2、Turbo v2等大模型，提供文本生成语音、语音生成语音、语音克隆、语音识别等特色功能。

文本生成语音：用户通过文本可直接生成中文、英文、韩文、日文等29种语言语音，同时支持跨文本语音生成。例如，上传了一段英语文本，可直接生成意大利语音。

使用方法也非常简单，先选择语音生成的类型，然后选择应用的模型、语音参数和模仿语音，再输入文本，通常几秒钟就能生成语音。

虽然ElevenLabs支持中文语音，但根据「AIGC开放社区」的实际体验，其语音、语调等方面还是有很强的机器人感觉，英语和其他语种表现却很好。

语音转语音：可帮助用户将语音自动转换成别的语音，例如，上传了一段男声语音，可以自动转换成老年人的声音。

传统的语音转换方法是，需要采集音频样本，然后提取基频、共振峰、时域和频域特征等，再进行去噪、归一化，整个流程非常繁琐复杂。

而ElevenLabs可实现一键语音转换，同时支持用户对语音进行可视化控制，例如，修改强度、音峰、情感等参数。

语音克隆：用户提供一段语音片段，将其上传到ElevenLabs平台。就能通过新上传的语音，创建全新的内容，整体模仿效果非常出色。

为了减少ElevenLabs平台生成一些非法语音，例如，模仿他人亲戚用于电信诈骗，ElevenLabs推出了语音识别分类功能，用户只需要上传语音便能快速识别出是真人发音或AI自动生成的，这对于提升产品的安全性非常重要。

此外，为了进一步提升语音方面的功能，ElevenLabs在今天宣布推出了新的配音工作室、语音库和移动应用三款全新的预览产品。

新的配音工作室：可帮助用户为整部电影配音，并生成和编辑其转录、翻译和时间码，从而为内容制作提供更多控制。该功能主要面向长视频和影业的用户。

语音库：用户可以将自建的语音模板在语音库进行分享，当有其他用户使用时可以获得报酬。这个功能与OpenAI的自定义ChatGPT商店类似，都是鼓励开发者共同创建产品生态。

移动应用：可以让用户通过移动应用中，使用ElevenLabs的产品功能。前三个月将免费为用户提供服务，目前处于申请预览版状态。

ElevenLabs首席技术官 Piotr Dąbkowski表示，通过此次 B 轮融资，ElevenLabs将巩固其在生成式AI语音领域的领导者地位。

这笔资金将用于产品研究、扩大基础设施、为特定垂直领域开发新产品，以及加强安全措施，确保以负责任和合乎道德的方式开发生成式AI技术。

查看相关话题：

专注AIGC领域的专业社区

作者已发布 71 篇文章

近期文章

Meta AI开源SAM-2丨可进行商用化，随意分割视频、图像

OpenAI发布SearchGPT丨挑战谷歌、正式进军搜索引擎!

更小、更强的多模态模型来了丨OpenAI发布GPT-4o mini，将免费为ChatGPT提供

OpenAI CEO奥特曼：AI不应该作出「生死攸关」的决策判断，包括驾驶汽车

科大讯飞官宣星火大模型V3.5版本1月30日发布：基于国产算力底座训练，还将发布语音模型与开源模型