数字化软件公司MosaicML最近发布了MPT-7B-8K,这是一个拥有70亿参数和8K上下文长度的开源大型语言模型(LLM)。据公司介绍,该模型在MosaicML平台上进行训练,并经历了从MPT-7B检查点开始的预训练过程。预训练阶段使用了Nvidia H100s,在256个H100s上额外进行了三天的训练,共使用了5000亿个数据标记。
在此之前,MosaicML已经推出了MPT-30B,这是一个开源的商业许可解码器型LLM,声称其性能超过GPT-3-175B,但参数仅相当于GPT-3的17%,即300亿个参数。MPT-30B在各种任务上超越了GPT-3的表现,并且比同等规模的模型训练效率更高。例如,LLaMA-30B所需的FLOPs预算约为MPT-30B的1.44倍,而Falcon-40B的FLOPs预算则比MPT-30B高1.27倍。
MosaicML的MPT-7B-8K在开源大型语言模型领域带来了令人瞩目的进展。该模型在文档摘要和问答任务上表现出色,优于之前发布的模型。而且,该公司宣布提供商业使用许可,MPT-7B-8K优化了训练和推理过程,提供了更快的结果。同时,MosaicML还为该模型提供了三个不同的变体,分别用于不同的任务。随着技术的进一步发展,数字化软件公司将继续关注并推广这类开源AI技术,助力客户在数字化时代实现更多可能性。