随着数字化和人工智能技术的迅猛发展,Meta公司日前推出了一款名为SeamlessM4T的AI模型,该模型能够在文字和语音领域内,翻译和转录近100种不同语言。作为一个数字化软件公司的运营,我将在本文中就这一重要突破性进展进行详细介绍。
Meta公司不仅公开了SeamlessM4T模型,还发布了一个名为SeamlessAlign的新翻译数据集,这在AI驱动的语音到语音以及语音到文字领域被称为“重大突破”。通过SeamlessM4T,人们可以实现即时翻译,使不同语言之间的交流更加有效。此外,SeamlessM4T能够在不使用单独的语言识别模型的情况下,隐式地识别源语言。
这款SeamlessM4T可以被视为Meta公司“无语言落后计划”的精神继任者,后者是一款文本到文本的机器翻译模型,以及Universal Speech Translator,这是少数支持福建语的直接语音到语音翻译系统之一。此外,SeamlessM4T还基于Meta公司的Massively Multilingual Speech框架,该框架在1100多种语言之间提供了语音识别、语言识别和语音合成技术。
然而,Meta并不是唯一投入资源开发复杂AI翻译和转录工具的公司。除了亚马逊、微软、OpenAI等公司以及众多初创公司提供的商业服务和开源模型外,谷歌也正在开发所谓的“通用语音模型”,这是这家科技巨头努力构建的能够理解全球最常用的1000种语言的模型之一。与此同时,Mozilla公司发起了Common Voice项目,该项目是一个用于训练自动语音识别算法的最大多语言语音库之一。
然而,SeamlessM4T可以说是迄今为止将翻译和转录能力融合到单一模型中的更为雄心勃勃的尝试之一。Meta公司在开发过程中,从公开可获得的文本(约数百亿句)和语音(400万小时)中获取数据。对于数据的确切来源,Meta公司的研究科学家Juan Pino在接受TechCrunch采访时没有透露,只是称数据来源“多样”。
然而,并非所有内容创作者都同意利用公开数据来训练可能被商业用途使用的模型。一些人对使用公开可获得的数据来构建AI工具提出诉讼,认为这些供应商应当在不提供报酬的情况下提供认可,并提供明确的选择退出方式。
然而,Meta公司声称挖掘的数据不受版权保护,并且主要来自开源或已许可的来源。无论如何,Meta公司使用这些文本和语音数据创建了SeamlessM4T的训练数据集SeamlessAlign。研究人员将443,000小时的语音与文本对齐,创建了29,000小时的“语音到语音”对齐数据,从而“教会”了SeamlessM4T如何将语音转录为文字,翻译文本,从文本生成语音,甚至将一种语言中的单词翻译成另一种语言中的单词。
根据Meta公司的说法,在内部基准测试中,SeamlessM4T在处理背景噪声和“说话者变化”等语音到文字任务时,表现优于当前最先进的语音转录模型。Meta公司将这归因于训练数据集中丰富的语音和文本数据的组合,这使得SeamlessM4T在仅有语音或仅有文本的模型之上具有优势。