引言
在AI技术的飞速发展下,语音克隆技术逐渐成为数字化软件领域的热门话题。最新推出的MyShell OpenVoice模型,由麻省理工学院(MIT)、清华大学和加拿大人工智能初创公司MyShell联合开发,提供了一种开源的语音克隆解决方案。本文将深入剖析OpenVoice的特点、技术原理,以及MyShell作为初创公司的战略布局。
MyShell OpenVoice模型的特点
OpenVoice模型是由MIT、清华大学和MyShell共同研发的一种开源语音克隆解决方案。与其他知名的语音克隆平台不同,OpenVoice以近乎瞬时的速度提供语音克隆,并提供了其他平台上无法找到的细粒度控制。MyShell在其官方X社区账户上表示,OpenVoice可以“以无与伦比的精确度克隆声音,精确控制语气,从情感到口音,节奏,停顿和语调,仅使用少量音频片段。”
OpenVoice的开源贡献
MyShell对外表示OpenVoice的推出是为了造福整个研究社区,而非仅限于商业应用。公司将提供资助、数据集和计算能力,以支持开源研究社区。MyShell的首席研究员之一,MIT和MyShell的Zengyi Qin在接受VentureBeat的采访时表示:“MyShell希望造福整个研究社区。OpenVoice只是一个开始。将来,我们甚至会提供资助、数据集和计算能力,支持开源研究社区。MyShell的核心理念是‘AI面向所有人’。”
Qin解释了为什么MyShell选择从开源克隆语音AI模型开始:“语言、视觉和语音是未来人工通用智能(AGI)的三个主要模态。在研究领域,尽管语言和视觉已经有一些不错的开源模型,但仍然缺乏一个良好的语音模型,尤其是一种强大的即时语音克隆模型,使每个人都能自定义生成的语音。因此,我们决定着手解决这个问题。”
OpenVoice的使用体验
本文作者在HuggingFace上对OpenVoice进行了非科学测试,并成功生成了一个相对令人信服的、尽管略显机械的自己的语音克隆。与其他语音克隆应用不同的是,作者无需读取特定的文本块,只需即兴说几秒钟,模型就迅速生成了一个几乎可以立即播放的语音克隆,读取了作者提供的文本提示。
作者还尝试通过下拉菜单调整“风格”(愉快、悲伤、友好、愤怒等),并听到了语调以匹配这些不同情绪的明显变化。
OpenVoice的技术原理
在科学论文中,OpenVoice的四位创作者描述了他们创建语音克隆AI的方法。OpenVoice包括两个不同的AI模型:文本转语音(TTS)模型和“音色转换器”。
第一个模型控制“风格参数和语言”,训练数据包括来自两名英语演讲者(美国和英国口音)、一名中国演讲者和一名日本演讲者的“3万句音频样本”,每个样本都按其中表达的情感进行标记。该模型还从这些片段中学到了语调、节奏和停顿。
与此同时,音色转换器模型则使用了来自20,000多位不同演讲者的30万多个音频样本。
在两种情况下,人类演讲的音频被转换成了音素(区分单词的具体声音),并由向量嵌入表示。
通过使用TTS模型的“基础发言者”,然后将其与用户提供的录音中提取的语调结合,这两个模型可以一起复制用户的声音,并改变其“音色”,即所表达文本的情感表达。以下是OpenVoice团队论文中包含的一张图,展示了这两个模型如何共同工作:
团队表示,他们的方法在概念上相当简单。尽管如此,它运作良好,使用的计算资源明显比其他方法少,包括Meta的竞争对手AI语音克隆模型Voicebox。
MyShell与OpenVoice背后的团队
MyShell成立于2023年,总部位于加拿大艾伯塔省的卡尔加里市,通过由INCE Capital主导的560万美元种子轮融资,以及Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC和OP Crypto的额外投资,已经成为一家拥有超过40万用户的初创公司。据The Saas News报道,在本文作者撰写本文时,MyShell的Discord服务器上有超过61,000名用户。
该初创公司自称是一个“去中心化且综合性的平台,用于发现、创建和质押AI本地应用”。除了提供OpenVoice之外,该公司的Web应用还包括各种基于文本的AI角色和机器人,具有不同的“个性”,类似于Character.AI,包括一些不适宜儿童的内容。它还包括一个动画GIF制作器和用户生成的基于文本的角色扮演游戏,其中一些涉及受版权保护的作品,如哈利·波特和漫威系列。
MyShell如何在OpenVoice开源的情况下盈利?该公司向Web应用的用户和希望在应用内推广其产品的第三方机器人创建者收取月度订阅费用。此外,它还为AI训练数据收费。
结论
MyShell OpenVoice模型的推出为数字化软件和AI行业带来了新的开源选择。其几乎即时的语音克隆速度以及对语气、情感等细节的精细控制,使其在众多竞争对手中脱颖而出。MyShell通过开源模型展示了对整个研究社区的责任心,并表示将通过提供资金、数据集和计算能力进一步支持开源研究。对于用户和开发者来说,这是一个令人期待的创新,为AI技术的未来发展提供了更多可能性。
原文:https://venturebeat.com/ai/open-source-ai-voice-cloning-arrives-with-myshells-new-openvoice-model/
文章来自ChatGPT3.5