Hugging Face 推出新的代码生成模型 StarCoder2

680次阅读

概要：
Hugging Face发布了新的代码生成模型StarCoder2，得益于Nvidia的协助，这些紧凑而强大的新编码模型现在推出了三种规模，最小的规模与原始模型一样强大。新版本的StarCoder2可以生成超过600种编程语言的代码。Nvidia参与了StarCoder项目，利用其基础设施来训练150亿参数版本，而ServiceNow负责3亿和7亿参数版本的训练。StarCoder2是基于The Stack v2构建的，这是一个庞大的新数据集，用于支持代码生成模型。

Hugging Face最新发布了其代码生成模型StarCoder的最新版本StarCoder2，这一次，他们联合Nvidia共同努力将其打造出来。原始的StarCoder是与ServiceNow合作开发的，去年五月发布。而这个新版本，StarCoder2，可以跨越600多种编程语言生成代码。

StarCoder2分为三种规模，但设计初衷是小巧高效，其中最大的版本拥有150亿参数，这样开发人员可以更有效地在其个人电脑上运行它。新版本的StarCoder也更加强大，即使是一套规模最小的代码生成模型也能与原始的StarCoder 15亿参数模型相媲美。StarCoder2-15B是其规模级别中最好的，并且可以与其两倍大小的模型相匹配。

这个StarCoder项目的新成员是Nvidia。这家人工智能芯片制造巨头的基础设施被用于训练150亿参数版本。ServiceNow负责3亿参数模型的训练，而Hugging Face则负责7亿参数版本。此外，Nvidia还利用了其NeMo框架，该框架用于开发最大规模的StarCoder2模型。NeMo允许用户构建定制的生成式人工智能模型和服务。

Hugging Face 推出新的代码生成模型 StarCoder2

Nvidia的应用研究副总裁Jonathan Cohen表示，他们在StarCoder项目中的参与“引入了安全、负责任的开发模型，并支持更广泛地访问可问责的生成式人工智能，我们相信这将有益于全球社区。”

除此之外，StarCoder2是基于The Stack v2构建的，这是一个庞大的新数据集，用于支持代码生成模型。The Stack v2的数据量比之前的The Stack v1要大得多，达到67.5TB，而不仅如此，它还拥有更好的语言和许可证检测程序以及更好的过滤启发式方法。该数据集还具有更好的过滤启发式方法，这使得可以训练带有存储库上下文的模型。

要访问该数据集，请前往Hugging Face。要批量下载它，用户需要获得来自Software Heritage和Inria的许可。由于The Stack v2由多个源代码组成，因此需要处理各种许可证，因此可能不清楚整个数据集是否可以用于商业应用。Hugging Face已经编制了相关许可证列表，以确保合规性。

这一系列创新标志着人工智能领域的持续发展，将使开发人员更轻松地生成高质量的代码，推动了人工智能技术在软件开发领域的应用和进步。

正文完