在企业中,训练大型语言模型(LLM)是最昂贵和耗时的任务之一。今天,ServiceNow 发布的一项新的开源模型可能会带来巨大的改变,它承诺可以将训练速度提高 20%,为企业节省时间和金钱。Fast-LLM 技术已经在公司内部开发,帮助 ServiceNow 加速了自己的 LLM 训练工作。Fast-LLM 帮助训练了 ServiceNow 今年早些时候发布的 StarCoder 2 LLM。StarCoder 本身也是一项开源工作,受益于 Hugging Face、Nvidia 等公司的贡献。ServiceNow 还使用 Fast-LLM 对现有模型进行大规模的万亿令牌连续预训练,以及微调工作。由于它是一项开源技术,任何人都可以使用 Fast-LLM 来帮助加速 AI 训练,包括微调操作。其目的是可以在现有的 AI 训练管道中进行最小配置更改的情况下进行替换。这个新的开源项目旨在通过一系列数据并行和内存管理的创新,与常用的 AI 训练框架(包括开源的 PyTorch)区分开来。“当你处理的计算集群成本数亿美元,训练运行成本数百万美元时,20%在美元、时间和总体二氧化碳足迹方面都可能是巨大的节省,”ServiceNow 研究副总裁 Nicolas Chapados 告诉 VentureBeat。Fast-LLM 加速 AI 训练的创新AI 行业非常清楚更高效地训练 AI 的挑战。VentureBeat Transform 2024 有一个小组讨论了这个问题,详细介绍了扩展基础设施的选项。Fast-LLM 的方法不是关于扩展基础设施,而是关于优化现有训练资源的效率。“我们仔细研究了训练大型语言模型所需的所有操作,特别是基于变压器的大型语言模型,”Chapados 解释说。“我们仔细优化了计算分配到 GPU 内各个核心的方式,以及模型本身使用内存的方式。”Fast-LLM 的竞争优势源于两个主要创新,有助于使其与众不同。第一个是 Fast-LLM 的计算排序方法,它定义了 AI 训练运行中计算发生的顺序。Chapados 解释说,Fast-LLM 使用了一种 ServiceNow 称为“广度优先管道并行”的新技术。“这是围绕计算调度方式的基本科学创新,无论是在单个 GPU 内部还是跨多个 GPU,”Chapados 说。第二个主要创新解决了内存管理问题。在大型训练操作中,内存会随着时间的推移而碎片化。这意味着随着训练的进行,内存会逐渐破碎成碎片。碎片化会导致内存效率低下,阻止训练集群正确使用所有可用内存。“我们在设计 Fast LLM 时非常小心,几乎完全消除了训练这些大型语言模型时的内存碎片化问题,”Chapados 说。企业今天如何使用 Fast-LLM 加速训练Fast-LLM 框架旨在保持企业级功能的同时易于访问。它可以作为 PyTorch 环境的替代品,并与现有的分布式训练设置集成。“对于任何模型开发人员或研究人员来说,这只是一个简单的配置文件,允许您指定所有重要的架构细节,”Chapados 说。更快地运行训练操作有多个好处,可以让企业进行更多的实验。“它降低了大型训练运行的风险,”Chapados 说。“它为用户、研究人员和模型构建者提供了更多的雄心壮志来进行更大规模的训练,因为他们不再担心成本会如此之高。”展望未来,期望作为一个开源项目,Fast-LLM 能够更快地扩展,受益于外部贡献。ServiceNow 已经在 StarCoder 上成功地采用了这种方法。“我们的目标是在使用这个框架方面非常透明和响应社区的贡献,”Chapados 说。“我们仍在收到关于人们喜欢什么、他们能够用它做什么的早期反馈,我们的目标是真正扩大这个规模。”