Gladia：改变音频数据处理的AI技术

Gladia是一家法国的人工智能初创公司，致力于改变企业与音频数据的互动方式。该公司开发了一款音频转录应用程序接口（API），可与其他产品集成，并且据称在功能上要比市面上现有的解决方案更出色。这一技术基础为音频数据开启了全新的应用场景。

对于熟悉音频转录API的人来说，大型云服务提供商已经有了自己的API，如Google的语音转文字API、Amazon Transcribe、微软的语音转文本等。这些API虽然功能强大，但价格昂贵、速度较慢且功能有限。

Gladia的联合创始人兼首席执行官Jean-Louis Quéguiner曾在OVHcloud担任AI主管，并与Jonathan Soto共同创办了该公司。他告诉我现有API存在三个痛点。首先是价格，一小时音频的转录通常需要1.5至2美元。

第二，输出结果不总是非常可靠，一些语言效果良好，而其他语言则几乎不受支持。当涉及到高级功能时，如果人们使用多种语言进行对话，API可能无法识别语言变化，并不能将音频转录为多种语言。

第三，转录API的速度较慢。转录一小时的音频可能需要超过15分钟。如果不需要即时转录，这样的速度也许还能接受，但在某些行业中无法使用这些API。

Gladia基于OpenAI的开源转录模型Whisper开发。Quéguiner告诉我：“我们的起点是Whisper。我们没有重新发明轮子，但我们听取了客户的意见，他们告诉我们：‘我想要的是一个像Whisper一样好用的东西。’”

然而，Whisper并非完美。原始版本的速度仍然相当慢，因此Gladia花费了很多时间将Whisper转变为快速响应的转录模型。这并不是唯一的问题。

Quéguiner表示：“Whisper的一半是GPT-2。你们见过LLMs和ChatGPT，它们往往会出现幻觉。我们做了很多工作，以避免幻觉问题。”

他特别提到，Whisper是通过对网络上的封闭字幕进行训练的，比如YouTube上的字幕。OpenAI的模型往往会听到在线视频中常见的短语，比如“如果你喜欢这个视频，请点赞和订阅”。这种短语的出现次数有数学上的过度表达，Gladia努力修正了这些问题。

除了对Whisper进行的修改和实现外，Gladia还使用了一些预处理和后处理算法来改进最终的转录结果。

Gladia承诺，他们可以以0.61美元的价格转录一小时的音频，并且转录过程大约需要60秒。其API可以检测到多个发言者，添加时间戳，检测语言并在需要时切换语言。Gladia还自动添加标点和大小写。

与大多数API一样，最终的结果以JSON格式呈现。但Gladia还支持SRT和VTT文件，以满足需要生成字幕的公司的要求。

我创建了一个账户并上传了一段采访的音频录音，以了解Gladia的工作原理。它花费的时间比预期的要长一些，但明显比Google或Azure的语音转文本API快得多。

结果并不完美，但非常好——它可以理解首字母缩写词和技术术语。我还在Mac上使用了Sindre Sorhus开发的Aiko应用程序，该应用程序使用Whisper在本地转录音频文件。如预期所示，Aiko的输出结果与Gladia的输出结果接近，但Gladia在我的MacBook Pro上运行比Aiko快得多。

Gladia是一家专注于音频数据处理的AI技术公司。通过基于Whisper的高性能转录模型和相关的优化算法，Gladia实现了高质量、快速和成本效益的音频转录。

该公司的目标不仅是提供出色的转录API，还希望在此基础上构建更多功能，如多语言翻译、生成字幕、内容摘要、情感分析等。Gladia的技术为企业开展音频数据处理带来了全新的可能性。