概要:
Hugging Face发布了新的代码生成模型StarCoder2,得益于Nvidia的协助,这些紧凑而强大的新编码模型现在推出了三种规模,最小的规模与原始模型一样强大。新版本的StarCoder2可以生成超过600种编程语言的代码。Nvidia参与了StarCoder项目,利用其基础设施来训练150亿参数版本,而ServiceNow负责3亿和7亿参数版本的训练。StarCoder2是基于The Stack v2构建的,这是一个庞大的新数据集,用于支持代码生成模型。
Hugging Face最新发布了其代码生成模型StarCoder的最新版本StarCoder2,这一次,他们联合Nvidia共同努力将其打造出来。原始的StarCoder是与ServiceNow合作开发的,去年五月发布。而这个新版本,StarCoder2,可以跨越600多种编程语言生成代码。
StarCoder2分为三种规模,但设计初衷是小巧高效,其中最大的版本拥有150亿参数,这样开发人员可以更有效地在其个人电脑上运行它。新版本的StarCoder也更加强大,即使是一套规模最小的代码生成模型也能与原始的StarCoder 15亿参数模型相媲美。StarCoder2-15B是其规模级别中最好的,并且可以与其两倍大小的模型相匹配。
这个StarCoder项目的新成员是Nvidia。这家人工智能芯片制造巨头的基础设施被用于训练150亿参数版本。ServiceNow负责3亿参数模型的训练,而Hugging Face则负责7亿参数版本。此外,Nvidia还利用了其NeMo框架,该框架用于开发最大规模的StarCoder2模型。NeMo允许用户构建定制的生成式人工智能模型和服务。
Nvidia的应用研究副总裁Jonathan Cohen表示,他们在StarCoder项目中的参与“引入了安全、负责任的开发模型,并支持更广泛地访问可问责的生成式人工智能,我们相信这将有益于全球社区。”
除此之外,StarCoder2是基于The Stack v2构建的,这是一个庞大的新数据集,用于支持代码生成模型。The Stack v2的数据量比之前的The Stack v1要大得多,达到67.5TB,而不仅如此,它还拥有更好的语言和许可证检测程序以及更好的过滤启发式方法。该数据集还具有更好的过滤启发式方法,这使得可以训练带有存储库上下文的模型。
要访问该数据集,请前往Hugging Face。要批量下载它,用户需要获得来自Software Heritage和Inria的许可。由于The Stack v2由多个源代码组成,因此需要处理各种许可证,因此可能不清楚整个数据集是否可以用于商业应用。Hugging Face已经编制了相关许可证列表,以确保合规性。
这一系列创新标志着人工智能领域的持续发展,将使开发人员更轻松地生成高质量的代码,推动了人工智能技术在软件开发领域的应用和进步。