$("body").append("")

Nvidia利用OpenStack Swift存储技术推动AI/ML进程

463次阅读
没有评论

Nvidia利用OpenStack Swift存储技术推动AI/ML进程

当谈及人工智能(AI)和机器学习(ML)时,人们不太会将开源基础设施即服务(IaaS)云平台OpenStack和其对象存储组件Swift与其联系在一起。然而,千亿美元级别的芯片和人工智能巨头Nvidia正是利用它们来推动其机器学习工作。

Nvidia首席系统软件工程师John Dickinson在最近的OpenInfra Summit上解释说,机器学习需要快速、稳健的存储解决方案。他表示:“随着人工智能和机器学习技术的兴起,作为存储提供者,我们的主要任务是尽可能快地为引擎提供尽可能多的数据。”为了满足不断增长的需求,存储解决方案必须具备高容量、可用性和聚合吞吐量。

结论:通过利用OpenStack Swift存储技术,Nvidia成功推动了其机器学习工作,为其提供了高吞吐量、大容量的存储能力,并提高了性能和工作负载的可移植性。Swift的优势在于其针对多租户和高并发设计的分布式对象存储系统,它通过简单的基于REST的API实现访问。Swift提供的高吞吐量和大容量满足了机器学习对于大规模数据集的需求,这些数据集远远超出了GPU内存或服务器闪存存储的容量。

Nvidia通过实施“内环”和“外环”两个关键概念来应对这些问题。内环具有高速、低延迟的特点,与特定的GPU集群相连,类似于面向最终用户的文件存储。而外环则提供大容量、高吞吐量和高可用性。对于外环存储,Nvidia使用了Swift,因为它非常适合大容量和高吞吐量的存储需求。

通过实施这些存储概念,Nvidia能够支持以前无法处理的大规模数据集,提高性能,并增加工作负载的可移植性。Swift还通过从外环进行一次读取来提供改进的I/O性能,并且每个计算集群都可以访问这些外环数据。此外,由于Swift支持许多标准API(如POSIX和NFS用于文件访问,S3、Azure和原生Swift用于对象访问),无论以何种方式访问数据集,使用者都能轻松处理这些数据。

除了提供内环和外环存储,Nvidia还意识到随着数据集的增长,数据探索的难度越来越大,因此他们创建了一个数据集服务,旨在简化这一过程。在现场演示中,Dickinson展示了这些存储服务如何促进大规模机器学习,突出了用户如何将数据集加载到Swift中,在Jupyter notebook中进行探索,并在不必担心访问存储细节的情况下运行机器学习任务。

这个现场演示给约750名OpenInfra用户带来了深刻的印象。技术人员很少会被演示所吸引,他们见过各种各样的演示,了解各种花招。但这次演示引起了他们的注意。OpenStack和Swift在处理大规模机器学习数据集的复杂工作中发挥了明确的作用。

正文完