$("body").append("")

Gladia:改变音频数据处理的AI技术

367次阅读
没有评论

Gladia:改变音频数据处理的AI技术

Gladia是一家法国的人工智能初创公司,致力于改变企业与音频数据的互动方式。该公司开发了一款音频转录应用程序接口(API),可与其他产品集成,并且据称在功能上要比市面上现有的解决方案更出色。这一技术基础为音频数据开启了全新的应用场景。

对于熟悉音频转录API的人来说,大型云服务提供商已经有了自己的API,如Google的语音转文字API、Amazon Transcribe、微软的语音转文本等。这些API虽然功能强大,但价格昂贵、速度较慢且功能有限。

Gladia的联合创始人兼首席执行官Jean-Louis Quéguiner曾在OVHcloud担任AI主管,并与Jonathan Soto共同创办了该公司。他告诉我现有API存在三个痛点。首先是价格,一小时音频的转录通常需要1.5至2美元。

第二,输出结果不总是非常可靠,一些语言效果良好,而其他语言则几乎不受支持。当涉及到高级功能时,如果人们使用多种语言进行对话,API可能无法识别语言变化,并不能将音频转录为多种语言。

第三,转录API的速度较慢。转录一小时的音频可能需要超过15分钟。如果不需要即时转录,这样的速度也许还能接受,但在某些行业中无法使用这些API。

Gladia基于OpenAI的开源转录模型Whisper开发。Quéguiner告诉我:“我们的起点是Whisper。我们没有重新发明轮子,但我们听取了客户的意见,他们告诉我们:‘我想要的是一个像Whisper一样好用的东西。’”

然而,Whisper并非完美。原始版本的速度仍然相当慢,因此Gladia花费了很多时间将Whisper转变为快速响应的转录模型。这并不是唯一的问题。

Quéguiner表示:“Whisper的一半是GPT-2。你们见过LLMs和ChatGPT,它们往往会出现幻觉。我们做了很多工作,以避免幻觉问题。”

他特别提到,Whisper是通过对网络上的封闭字幕进行训练的,比如YouTube上的字幕。OpenAI的模型往往会听到在线视频中常见的短语,比如“如果你喜欢这个视频,请点赞和订阅”。这种短语的出现次数有数学上的过度表达,Gladia努力修正了这些问题。

除了对Whisper进行的修改和实现外,Gladia还使用了一些预处理和后处理算法来改进最终的转录结果。

Gladia承诺,他们可以以0.61美元的价格转录一小时的音频,并且转录过程大约需要60秒。其API可以检测到多个发言者,添加时间戳,检测语言并在需要时切换语言。Gladia还自动添加标点和大小写。

与大多数API一样,最终的结果以JSON格式呈现。但Gladia还支持SRT和VTT文件,以满足需要生成字幕的公司的要求。

我创建了一个账户并上传了一段采访的音频录音,以了解Gladia的工作原理。它花费的时间比预期的要长一些,但明显比Google或Azure的语音转文本API快得多。

结果并不完美,但非常好——它可以理解首字母缩写词和技术术语。我还在Mac上使用了Sindre Sorhus开发的Aiko应用程序,该应用程序使用Whisper在本地转录音频文件。如预期所示,Aiko的输出结果与Gladia的输出结果接近,但Gladia在我的MacBook Pro上运行比Aiko快得多。

Gladia是一家专注于音频数据处理的AI技术公司。通过基于Whisper的高性能转录模型和相关的优化算法,Gladia实现了高质量、快速和成本效益的音频转录。

该公司的目标不仅是提供出色的转录API,还希望在此基础上构建更多功能,如多语言翻译、生成字幕、内容摘要、情感分析等。Gladia的技术为企业开展音频数据处理带来了全新的可能性。

正文完