Lambda 推出推理 API，为企业提供低成本 AI 模型部署服务

369次阅读

Lambda 是一家成立 12 年的旧金山公司，以向机器学习研究人员和 AI 模型构建者及训练者提供按需图形处理单元（GPU）服务而闻名。今天，该公司进一步推出了 Lambda 推理 API（应用程序编程接口），声称这是市场上同类服务中成本最低的。该 API 允许企业将 AI 模型和应用程序部署到生产环境中，供最终用户使用，而无需担心采购或维护计算资源。

此次发布补充了 Lambda 现有的专注于为训练和微调机器学习模型提供 GPU 集群的业务。Lambda 收入副总裁罗伯特·布鲁克斯在接受 VentureBeat 视频采访时表示：“我们的平台是完全垂直化的，这意味着与 OpenAI 等其他提供商相比，我们可以将巨大的成本节约传递给最终用户。此外，没有速率限制阻碍扩展，而且您无需与销售人员交谈即可开始使用。”

事实上，正如布鲁克斯告诉 ventureBeat 的那样，开发人员可以前往 Lambda 的新推理 API 网页，生成一个 API 密钥，并在不到五分钟的时间内开始使用。Lambda 的推理 API 支持领先的模型，如 Meta 的 Llama 3.3 和 3.1、Nous 的 Hermes-3 和阿里巴巴的 Qwen 2.5，使其成为机器学习社区最容易访问的选项之一。完整列表可在此处获得，包括：

deepseek-coder-v2-lite-instruct
dracarys2-72b-instruct
hermes3-405b
hermes3-405b-fp8-128k
hermes3-70b
hermes3-8b
lfm-40b
llama3.1-405b-instruct-fp8
llama3.1-70b-instruct-fp8
llama3.1-8b-instruct
llama3.2-3b-instruct
llama3.1-nemotron-70b-instruct
llama3.3-70b

定价从小型模型（如 Llama-3.2-3B-Instruct）的每百万令牌 0.02 美元起，到大模型（如 Llama 3.1-405B-Instruct）的每百万令牌 0.90 美元不等。

与许多其他服务不同，Lambda 的按需付费模式确保客户只为使用的令牌付费，无需订阅或速率限制计划。

关闭 AI 循环

Lambda 拥有十多年支持 AI 进步的历史，其基于 GPU 的基础设施为其提供了支持。从硬件解决方案到训练和微调能力，该公司已成为企业、研究机构和初创企业可靠的合作伙伴，享有盛誉。

布鲁克斯解释说：“要知道，Lambda 十多年来一直在向我们的用户群部署 GPU，因此我们拥有数以万计的 Nvidia GPU，其中一些可能来自较旧的生命周期和较新的生命周期，这使我们仍然能够以降低的成本为更广泛的 ML 社区从这些 AI 芯片中获得最大的效用。随着 Lambda 推理的推出，我们正在关闭全栈 AI 开发生命周期的循环。新的 API 正式化了许多工程师已经在 Lambda 平台上所做的事情——使用它进行推理——但现在有了专门的服务，简化了部署。”

布鲁克斯指出，其丰富的 GPU 资源是 Lambda 的显著特点之一，他重申：“Lambda 在过去十年中部署了数以万计的 GPU，使我们能够为新旧 AI 芯片提供成本效益高的解决方案和最大的效用。”

这种 GPU 优势使该平台能够支持每月扩展到数万亿令牌，为开发人员和企业提供了灵活性。

开放和灵活

Lambda 通过提供不受限制的高性能推理访问，将自己定位为云巨头的灵活替代品。布鲁克斯解释说：“我们希望为机器学习社区提供不受限制的速率限制推理 API。您可以即插即用，阅读文档，并快速扩展到数万亿令牌。”

该 API 支持一系列开源和专有模型，包括流行的指令调整 Llama 模型。该公司还暗示将在不久的将来扩展到多模态应用，包括视频和图像生成。布鲁克斯说：“最初，我们专注于基于文本的 LLM，但很快我们将扩展到多模态和视频-文本模型。”

为开发人员和企业提供隐私和安全服务

Lambda 推理 API 面向广泛的用户，从初创企业到大型企业，涵盖媒体、娱乐和软件开发等行业。这些行业越来越多地采用 AI 来为文本摘要、代码生成和生成内容创建等应用提供支持。

布鲁克斯强调：“我们的平台上不会保留或共享用户数据。我们充当将数据提供给最终用户的渠道，确保隐私。”这加强了 Lambda 对安全和用户控制的承诺。

随着 AI 采用率的不断提高，Lambda 的新服务有望吸引寻求部署和维护 AI 模型的成本效益解决方案的企业的关注。通过消除速率限制和高运营成本等常见障碍，Lambda 希望使更多组织能够利用 AI 的潜力。

Lambda 推理 API 现已推出，详细的定价和文档可通过 Lambda 的网站访问。