人工智能领域在不断发展和扩展,每一次眨眼都会有新的参与者加入。我们已经知道Meta想要制作自己的语言模型,就像ChatGPT背后的模型一样,但是这家公司做了一些更令人激动的事情,至少从更广泛的角度来看,就是发布了其SeamlessM4T多模态AI模型。
为了真正理解SeamlessM4T发布为何如此令人兴奋,让我们首先看看SeamlessM4T是什么。从最基本的层面来看,SeamlessM4T是一个多语言多模态的AI翻译和转录模型。虽然我们过去看到过类似的模型,但SeamlessM4T将允许进行语音到文本、语音到语音、文本到语音和文本到文本的翻译,全部来自一个单一的模型。
它可以识别近100种不同的语言,语音到文本翻译适用于近100种输入和输出语言。简而言之,这个模型是一个步行的翻译工具,可以弥合不同语言使用者之间的差距。比这些可能性更令人激动的是Meta发布这个模型的方式。
与ChatGPT的模型GPT-3.5和GPT-4.0不同,SeamlessM4T完全开源,允许研究人员获取代码并将其应用于适合自己应用程序的领域。这将使数百乃至数千名AI研究人员能够使用Meta实施的代码,并可能以不同的方式进行改进,使其变得更加优秀。
“构建一个像《银河系漫游指南》中虚构的Babel Fish一样的通用语言翻译器是具有挑战性的,因为现有的语音到语音和语音到文本系统只涵盖了世界上语言的一小部分,”Meta在其发布的公告中写道。由于它使用单一模型而不是多个模型,Meta认为SeamlessM4T将有助于减少翻译中的错误和延迟,使其更加有效。
目前翻译工具的现状非常令人失望,特别是考虑到它们所支持的语言种类是如此有限。因此,如果Meta的SeamlessM4T像公司所说的那样强大,它可能会为我们如何与说不同语言的人进行交流打开新的大门,使在重要研究和科学合作方面更加容易。
本文来自ChatGPT3.5。