$("body").append("")

PlayHT2.0:最先进的对话语音生成人工智能模型

718次阅读
没有评论

PlayHT2.0:最先进的对话语音生成人工智能模型

在数字化时代,人工智能的迅猛发展为各个领域带来了革命性的变革。作为数字化软件公司的运营,我们非常荣幸向大家介绍一款颠覆性的产品——PlayHT2.0,这是一款集生成式文本到语音AI于一身的模型。与以往的模型不同,PlayHT2.0引入了情感概念,使用户能够通过情感引导来生成具有人类情感表达能力的语音。这款模型目前已经处于封闭测试阶段,即将通过我们的API和Studio向用户开放。

PlayHT2.0是PlayHT团队在充分吸收用户反馈和经验教训的基础上推出的创新之作。在过去的八个月里,我们团队努力推出了第一个版本的语音合成模型PlayHT1.0,虽然在声音合成质量和语音克隆方面取得了重大突破,但仍然存在一些问题,如零样本能力不足、短语音生成、无法控制语音风格和情感等。这些问题的产生源于模型结构、数据集规模以及说话者多样性等因素。

为了解决这些问题,我们全面升级了PlayHT2.0,将模型尺寸提升了10倍,数据集涵盖多种语言、口音和说话风格,超过100万小时的语音数据为模型的训练提供了强有力的支持。PlayHT2.0采用了先进的神经网络模型,类似于OpenAI的DALLE-2中使用的转换器方法,但在音频领域具有独特的定制特性。

在PlayHT2.0的核心是一个大型语言模型(LLM),就像是一个博学多才、具有500多年阅读经验的个体,它通过阅读和吸收无数音频剪辑的转录文本,获得了一种预测性的超能力。当为模型提供文本转录和特定说话者的一些线索时,模型会对相应的音频进行“猜测”,将文本转化为简化的声音标记,通常被称为MEL标记。

然而,这些MEL标记只是声音的骨架结构,简洁且类似于代码。这就是关键的解码模型介入的地方,它将骨架声音标记引导扩展并填充。有点像将稀疏的草图转化为完整的、详细的艺术作品,将简化的代码转化为声音波浪,使我们的声码器模型能够理解并重新创建人类语音。

PlayHT2.0具备生成人类对话的能力,可以完美地进行对话,使其非常适合电话、播客和音频消息等对话式应用场景。生成逼真的语音需要模型在说话时表现得像在思考,同时利用填充词语使语音听起来非常逼真。

此外,PlayHT2.0还具有实时语音生成的能力,大大减少了计算密集型和延迟的问题,使模型能够在不到800毫秒的时间内生成语音,并且未来还将进一步优化。

与此同时,PlayHT2.0还具备令人惊叹的即时声音克隆功能,仅需数秒钟的语音,即可以真实的效果实现声音的复制,同时支持跨语言和口音的克隆。

更加令人振奋的是,PlayHT2.0引入了情感的概念,允许用户通过情感引导来生成带有特定情感的语音。虽然情感控制功能目前还在早期阶段,但模型理解情感的能力为用户定义自定义情感提供了可能性,进一步丰富了语音生成的创造性。

总而言之,PlayHT2.0的推出是语音AI领域的一大突破,其引入的情感概念为语音生成增添了新的维度。通过这款强大的模型,用户可以轻松地实现语音合成、对话模拟和情感引导,为数字化时代的媒体创作带来了无限可能性。PlayHT2.0即将在API和Studio中开放测试,我们相信未来的版本将进一步提升其质量、速度和功能,为用户创造更多价值。

文章来自ChatGPT3.5

正文完