概要:
ElevenLabs是一家成立仅两年的人工智能初创公司,由前谷歌和Palantir员工创立。他们在掌握了基于机器学习的语音克隆和合成技术后,正准备通过新的文本转声音模型扩展其产品组合。这一AI将允许创作者通过简单描述他们的想象来生成声音效果,预计将在AI驱动的数字体验时代丰富内容。
随着AI技术的不断发展,人工智能在各个领域的应用也变得日益广泛。而在音频领域,声音特效一直是制作内容不可或缺的一部分。在这一背景下,一家名为ElevenLabs的AI初创公司即将推出一款新的文本转声音模型,以实现通过文字描述想象来生成声音效果的目标。
ElevenLabs是一家成立仅两年的AI初创公司,由前谷歌和Palantir员工创立。该公司在掌握了基于机器学习的语音克隆和合成技术后,决定进一步扩展其产品组合,推出一款新的AI模型,允许创作者通过简单描述他们的想象来生成声音效果。这将为数字内容创作带来全新的可能性。
该模型目前尚未公开,但ElevenLabs通过发布一分钟长的预告片展示了其功能,该预告片展示了由OpenAI的新模型Sora生成的视频,并配以其自己的AI声音。该公司还设置了一个注册页面,呼吁潜在用户加入模型的早期访问等待列表。
创立于2022年的ElevenLabs一直在研究人工智能,旨在使音频和视频内容(从电影到播客)在跨语言和地理位置上更加可访问。该公司已经推出了一系列产品,包括文本转语音和语音转语音模型,可以在29种不同的语言中产生AI语音,并提供自然的语调和情感。尽管这些工具在企业和个人内容创作者中得到了广泛的应用,但也出现了完全由AI生成的内容的兴起,其中包括Runway、Pika和最近的OpenAI(Sora)。这些产品可以从简单的文本提示中生成逼真的AI视频,但它们缺乏默认的音频。而ElevenLabs的新模型将填补这一空缺,允许用户为其内容生成声音效果。
尽管ElevenLabs尚未透露计划何时公开发布该模型,但该公司已经开放了早期访问的注册。感兴趣的用户可以访问注册页面,并用他们的姓名和电子邮件注册,同时描述他们需要声音效果的用途。ElevenLabs还要求早期志愿者为AI声音效果编写样本提示,以优化模型的响应。完成注册后,用户将被列入等待列表,并在模型可用时获得访问权限。然而,目前尚不清楚具体的时间安排。
新的文本转声音技术可能为ElevenLabs带来先发优势,但值得注意的是,其他一些在AI语音领域活跃的公司也有可能进入这一领域。据Market US报道,2022年全球此类工具市场规模为12亿美元,预计到2032年将接近50亿美元,复合年增长率略高于15.40%。
ElevenLabs的这一新举措标志着人工智能技术在音频领域的不断创新与拓展。随着AI技术的进步,通过简单的文字描述生成复杂的声音效果已成为可能,这将为内容创作者带来更多的创作灵感和便利。然而,随之而来的挑战是确保生成的声音效果质量和逼真度,以满足用户的需求和期望。尽管ElevenLabs有望在此领域取得先发优势,但竞争激烈,其他公司也在积极探索类似的技术,市场竞争将会更加激烈。