在当今科技飞速发展的时代,人工智能领域的创新成果层出不穷。(Hume AI)这家专注于情感智能语音界面的初创公司,推出了一项极具创新性的实验性功能——语音控制(Voice Control),为开发者和用户开启了定制 AI 语音的新大门。
Hume AI 此前推出的共情语音界面 2(EVI 2)已经在自然性、情感响应性和定制化方面展现出了先进的能力,而此次的语音控制功能则是在此基础上进一步拓展。它让用户无需具备编码、AI 提示工程或音效设计技能,就能够通过精确调节语音特征来创建定制 AI 语音,这无疑大大降低了定制语音的门槛,使得更多人能够参与到语音 AI 的个性化创作中来。
语音控制功能的一大亮点是提供了 10 个不同维度的语音调节选项。从“男性化/女性化”的性别特征体现,到“自信度”“热情度”等情感特质的调整,再到“鼻音”“平滑度”等语音质感的塑造,这些维度涵盖了人们对语音感知的多个重要方面。用户可以通过虚拟屏幕滑块实时微调语音属性,这种直观的操作方式就像是把声音的控制权直接交到了用户手中。目前,该功能在Hume 的虚拟游乐场中可供使用,用户只需免费注册即可体验。
在 AI 行业中,一直存在着对预设语音的过度依赖问题,这些预设语音往往难以满足品牌或应用的特定需求。而且,语音克隆虽然在某些方面有所应用,但也面临着诸多伦理和实际操作上的挑战,如考恩所指出的那样。Hume AI 则巧妙地避开了这些风险,专注于提供创建独特、富有表现力且符合用户需求的语音工具。无论是用于客服聊天机器人、数字助手、家教、导游还是无障碍功能等方面,都能够根据具体场景定制出合适的语音形象。
Hume 的研究驱动型方法在其产品开发中起到了核心作用。由前谷歌 DeepMind 的艾伦·考恩共同创立的这家公司,采用了基于跨文化语音记录与情感调查数据相结合的专有模型。这种基于情感科学的方法论,为 EVI 2 和新推出的语音控制功能奠定了坚实的基础。语音控制通过滑块界面来反映语音的常见感知品质,如“浮力”或“自信”等,避免了通过基于文本的提示来过度简化这些属性,从而更精准地捕捉到人类对声音微妙而难以言喻的感知差异。
对于开发者而言,语音控制目前已进入测试版,并与Hume 的共情语音界面(EVI)相集成,可广泛应用于各种场景。开发者可以选择一个基础语音,调整其特征,并实时预览结果。这一过程确保了在不同会话中的可重复性和稳定性,对于客服机器人或虚拟助手等实时应用来说至关重要。EVI 2 所引入的诸如对话提示和多语言能力等功能,在语音控制中也得以体现并进一步拓展。例如,EVI 2 支持亚秒级响应时间,能够实现自然流畅的即时对话,还能在交互过程中动态调整说话风格,这使得它成为企业的多功能工具。
在竞争激烈的语音 AI 市场中,Hume 凭借其对语音定制化和情感智能的专注,脱颖而出成为有力的竞争者。与提供预设语音库的 OpenAI 及其高级语音模式和 ElevenLabs 等资金雄厚的竞争对手相比,休姆有着自己独特的优势。休姆还计划进一步拓展语音控制功能,包括引入更多可修改的维度、在极端调整下优化语音质量以及增加可用的基础语音范围等。
随着语音控制功能的推出,Hume 进一步巩固了其在语音 AI 创新领域的领先地位。它所提供的工具将定制化、情感智能和实时适应性置于首位,为开发者和用户在 AI 驱动的语音解决方案发展历程中迈出了坚实的又一步,让我们看到了语音 AI 未来更加丰富多元和人性化的发展前景。