概要:
Cohere发布了Aya:用于支持多语言人工智能工作负载的新模型和数据集组合。该模型覆盖了101种不同的语言,可以开源使用,并且在自然语言理解、摘要和翻译方面表现优异。这一举措旨在填补现有开源模型所忽视的语言空白,为全球范围内更有效地服务全球用户提供支持。
Cohere公司近日发布了一项名为Aya的新开源项目,旨在为跨越100多种语言的人工智能应用提供支持。在商业领域,英语是最重要的语言之一。但为了更有效地为全球用户提供服务,企业需要具备多语言能力。因此,Cohere推出了Aya模型,它是一个支持101种不同语言的全新人工智能模型。
Aya模型采用Apache 2.0许可证,可供商业用途。该模型的设计目标之一是覆盖大多数先进模型忽视的语言。它可以用于客户支持聊天机器人或虚拟代理,也可以用于支持内容翻译或本地化业务网站或产品营销。
Cohere声称,Aya模型覆盖的语言数量是现有开源模型(如BLOOMZ和mT0)的两倍,并且其自然语言理解、摘要和翻译能力优于竞争模型。
该公司表示,Aya在加纳特威语中意味着“蕨类植物”,象征着“坚韧和足智多谋的精神,捕捉到了我们加速多语言人工智能进步的承诺精神”。该公司指出,虽然只有5%的世界人口以英语为家庭语言,但63.7%的互联网内容为英文。而大量用于训练人工智能模型的数据来自互联网。
此外,Cohere还公布了用于训练Aya的底层数据集。这一数据集跨越114种语言,包含了来自本族人和流利说者的注释,总共涵盖了约5.13亿个提示。该数据集中包含了各种方言的语言示例,使Aya返回的响应更加有机和自然。
Cohere表示,Aya模型和其数据集“可以有效服务到迄今为止访问有限的广泛全球受众”。
该公司加入了其他研究实验室的行列,试图推动人工智能的民主化,以涵盖被忽视的社会群体。例如,Meta推出了其“无语言被遗忘”项目,以支持低资源语言的翻译。而Google的通用语音模型正在为其产品线提供多语言能力的支持。
通过这一新模型和数据集的发布,Cohere为多语言人工智能解决方案的发展迈出了重要一步,为全球用户提供了更广泛、更普惠的人工智能服务。