打造多语言人工智能解决方案：Cohere发布新的Aya模型

概要： Cohere发布了Aya：用于支持多语言人工智能工作负载的新模型和数据集组合。该模型覆盖了101种不同的语言，可以开源使用，并且在自然语言理解、摘要和翻译方面表现优异。这一举措旨在填补现有开源模型所忽视的语言空白，为全球范围内更有效地服务全球用户提供支持。

Cohere公司近日发布了一项名为Aya的新开源项目，旨在为跨越100多种语言的人工智能应用提供支持。在商业领域，英语是最重要的语言之一。但为了更有效地为全球用户提供服务，企业需要具备多语言能力。因此，Cohere推出了Aya模型，它是一个支持101种不同语言的全新人工智能模型。

Aya模型采用Apache 2.0许可证，可供商业用途。该模型的设计目标之一是覆盖大多数先进模型忽视的语言。它可以用于客户支持聊天机器人或虚拟代理，也可以用于支持内容翻译或本地化业务网站或产品营销。

Cohere声称，Aya模型覆盖的语言数量是现有开源模型（如BLOOMZ和mT0）的两倍，并且其自然语言理解、摘要和翻译能力优于竞争模型。

该公司表示，Aya在加纳特威语中意味着“蕨类植物”，象征着“坚韧和足智多谋的精神，捕捉到了我们加速多语言人工智能进步的承诺精神”。该公司指出，虽然只有5%的世界人口以英语为家庭语言，但63.7%的互联网内容为英文。而大量用于训练人工智能模型的数据来自互联网。

此外，Cohere还公布了用于训练Aya的底层数据集。这一数据集跨越114种语言，包含了来自本族人和流利说者的注释，总共涵盖了约5.13亿个提示。该数据集中包含了各种方言的语言示例，使Aya返回的响应更加有机和自然。

Cohere表示，Aya模型和其数据集“可以有效服务到迄今为止访问有限的广泛全球受众”。

该公司加入了其他研究实验室的行列，试图推动人工智能的民主化，以涵盖被忽视的社会群体。例如，Meta推出了其“无语言被遗忘”项目，以支持低资源语言的翻译。而Google的通用语音模型正在为其产品线提供多语言能力的支持。

通过这一新模型和数据集的发布，Cohere为多语言人工智能解决方案的发展迈出了重要一步，为全球用户提供了更广泛、更普惠的人工智能服务。