关注work2e公众号（work2e企业数字化），帮助中小企业解决数字化系统的问题

MosaicML推出MPT-7B-8K：7B参数开源大型语言模型

695次阅读

数字化软件公司MosaicML最近发布了MPT-7B-8K，这是一个拥有70亿参数和8K上下文长度的开源大型语言模型（LLM）。据公司介绍，该模型在MosaicML平台上进行训练，并经历了从MPT-7B检查点开始的预训练过程。预训练阶段使用了Nvidia H100s，在256个H100s上额外进行了三天的训练，共使用了5000亿个数据标记。

在此之前，MosaicML已经推出了MPT-30B，这是一个开源的商业许可解码器型LLM，声称其性能超过GPT-3-175B，但参数仅相当于GPT-3的17%，即300亿个参数。MPT-30B在各种任务上超越了GPT-3的表现，并且比同等规模的模型训练效率更高。例如，LLaMA-30B所需的FLOPs预算约为MPT-30B的1.44倍，而Falcon-40B的FLOPs预算则比MPT-30B高1.27倍。

MosaicML的MPT-7B-8K在开源大型语言模型领域带来了令人瞩目的进展。该模型在文档摘要和问答任务上表现出色，优于之前发布的模型。而且，该公司宣布提供商业使用许可，MPT-7B-8K优化了训练和推理过程，提供了更快的结果。同时，MosaicML还为该模型提供了三个不同的变体，分别用于不同的任务。随着技术的进一步发展，数字化软件公司将继续关注并推广这类开源AI技术，助力客户在数字化时代实现更多可能性。

正文完