PlayHT2.0：最先进的对话语音生成人工智能模型

在数字化时代，人工智能的迅猛发展为各个领域带来了革命性的变革。作为数字化软件公司的运营，我们非常荣幸向大家介绍一款颠覆性的产品——PlayHT2.0，这是一款集生成式文本到语音AI于一身的模型。与以往的模型不同，PlayHT2.0引入了情感概念，使用户能够通过情感引导来生成具有人类情感表达能力的语音。这款模型目前已经处于封闭测试阶段，即将通过我们的API和Studio向用户开放。

PlayHT2.0是PlayHT团队在充分吸收用户反馈和经验教训的基础上推出的创新之作。在过去的八个月里，我们团队努力推出了第一个版本的语音合成模型PlayHT1.0，虽然在声音合成质量和语音克隆方面取得了重大突破，但仍然存在一些问题，如零样本能力不足、短语音生成、无法控制语音风格和情感等。这些问题的产生源于模型结构、数据集规模以及说话者多样性等因素。

为了解决这些问题，我们全面升级了PlayHT2.0，将模型尺寸提升了10倍，数据集涵盖多种语言、口音和说话风格，超过100万小时的语音数据为模型的训练提供了强有力的支持。PlayHT2.0采用了先进的神经网络模型，类似于OpenAI的DALLE-2中使用的转换器方法，但在音频领域具有独特的定制特性。

在PlayHT2.0的核心是一个大型语言模型（LLM），就像是一个博学多才、具有500多年阅读经验的个体，它通过阅读和吸收无数音频剪辑的转录文本，获得了一种预测性的超能力。当为模型提供文本转录和特定说话者的一些线索时，模型会对相应的音频进行“猜测”，将文本转化为简化的声音标记，通常被称为MEL标记。

然而，这些MEL标记只是声音的骨架结构，简洁且类似于代码。这就是关键的解码模型介入的地方，它将骨架声音标记引导扩展并填充。有点像将稀疏的草图转化为完整的、详细的艺术作品，将简化的代码转化为声音波浪，使我们的声码器模型能够理解并重新创建人类语音。

PlayHT2.0具备生成人类对话的能力，可以完美地进行对话，使其非常适合电话、播客和音频消息等对话式应用场景。生成逼真的语音需要模型在说话时表现得像在思考，同时利用填充词语使语音听起来非常逼真。

此外，PlayHT2.0还具有实时语音生成的能力，大大减少了计算密集型和延迟的问题，使模型能够在不到800毫秒的时间内生成语音，并且未来还将进一步优化。

与此同时，PlayHT2.0还具备令人惊叹的即时声音克隆功能，仅需数秒钟的语音，即可以真实的效果实现声音的复制，同时支持跨语言和口音的克隆。

更加令人振奋的是，PlayHT2.0引入了情感的概念，允许用户通过情感引导来生成带有特定情感的语音。虽然情感控制功能目前还在早期阶段，但模型理解情感的能力为用户定义自定义情感提供了可能性，进一步丰富了语音生成的创造性。

总而言之，PlayHT2.0的推出是语音AI领域的一大突破，其引入的情感概念为语音生成增添了新的维度。通过这款强大的模型，用户可以轻松地实现语音合成、对话模拟和情感引导，为数字化时代的媒体创作带来了无限可能性。PlayHT2.0即将在API和Studio中开放测试，我们相信未来的版本将进一步提升其质量、速度和功能，为用户创造更多价值。

文章来自ChatGPT3.5