Chinese AI startup DeepSeek 发布新超大型模型 DeepSeek-V3以挑战领先 AI 供应商的创新开源技术而闻名的中国 AI 初创公司 DeepSeek,今天发布了一款新的超大型模型:DeepSeek-V3。模型参数及性能该模型可通过 Hugging Face 在公司的许可协议下获得,拥有 671B 参数,但使用了混合专家架构,仅激活选定的参数,以便准确有效地处理给定任务。根据 DeepSeek 分享的基准测试,该产品已经在排行榜上名列前茅,超过了领先的开源模型,包括 Meta 的 Llama 3.1-405B,并与 Anthropic 和 OpenAI 的封闭模型性能接近。推动开源 AI 发展,迈向通用人工智能此次发布标志着封闭和开源 AI 之间差距的进一步缩小。最终,DeepSeek 希望这些发展将为通用人工智能(AGI)铺平道路,使模型能够理解或学习人类可以完成的任何智力任务。DeepSeek 最初是中国量化对冲基金 High-Flyer Capital Management 的分支机构。DeepSeek-V3 的特点与之前的 DeepSeek-V2 一样,新的超大型模型使用相同的基本架构,围绕多头潜在注意力(MLA)和 DeepSeekMoE 旋转。这种方法确保它保持高效的训练和推理——每个令牌由 671B 中的 37B 参数的专业和共享“专家”(大型模型中的较小神经网络)激活。虽然基本架构确保了 DeepSeek-V3 的强大性能,但该公司还推出了两项创新,以进一步推动发展。创新一:辅助无损负载均衡策略第一个是辅助无损负载均衡策略。该策略动态监控和调整专家的负载,以平衡的方式利用它们,而不会影响整体模型性能。创新二:多令牌预测(MTP)第二个是多令牌预测(MTP),它允许模型同时预测多个未来令牌。这项创新不仅提高了训练效率,还使模型的速度提高了三倍,每秒生成 60 个令牌。训练过程及优化“在预训练期间,我们在 14.8T 高质量和多样化的令牌上训练了 DeepSeek-V3……接下来,我们对 DeepSeek-V3 进行了两阶段的上下文长度扩展,”该公司在详细介绍新模型的技术论文中写道。“在第一阶段,最大上下文长度扩展到 32K,在第二阶段,进一步扩展到 128K。在此之后,我们对 DeepSeek-V3 的基础模型进行了后期训练,包括监督微调(SFT)和强化学习(RL),以使其与人类偏好一致,并进一步释放其潜力。在后期训练阶段,我们从 DeepSeekR1 系列模型中提取推理能力,同时小心地保持模型准确性和生成长度之间的平衡。”值得注意的是,在训练阶段,DeepSeek 使用了多种硬件和算法优化,包括 FP8 混合精度训练框架和用于管道并行的 DualPipe 算法,以降低训练成本。该公司声称,在大约 2788K H800 GPU 小时内完成了 DeepSeek-V3 的整个训练,假设 GPU 小时的租赁价格为 2 美元,则约为 557 万美元。这比通常用于预训练大型语言模型的数亿美元要低得多。例如,Llama-3.1 估计已投入超过 5 亿美元进行训练。DeepSeek-V3 成为目前最强的开源模型尽管训练成本经济实惠,但 DeepSeek-V3 已成为市场上最强的开源模型。该公司进行了多项基准测试,以比较 AI 的性能,并指出它令人信服地超过了领先的开放模型,包括 Llama-3.1-405B 和 Qwen 2.5-72B。它甚至在大多数基准测试中超过了封闭源 GPT-4o,除了以英语为重点的 SimpleQA 和 FRAMES——OpenAI 模型分别以 38.2 和 80.5 的分数领先(分别为 24.9 和 73.3)。值得注意的是,DeepSeek-V3 的性能在以中文和数学为中心的基准测试中尤为突出,得分高于所有同行。在 Math-500 测试中,它得分为 90.2,Qwen 的得分为 80,是下一个最好的。唯一能够挑战 DeepSeek-V3 的模型是 Anthropic 的 Claude 3.5 Sonnet,它在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 等方面的得分更高。开源模型的发展对行业的意义这项工作表明,开源正在接近封闭源模型,在不同任务上提供几乎相同的性能。这种系统的开发对行业非常有利,因为它有可能消除一个大型 AI 玩家统治游戏的机会。它还为企业提供了多种选择,可以在编排其堆栈时进行选择和合作。目前,DeepSeek-V3 的代码可通过 GitHub 在 MIT 许可证下获得,而模型则在公司的模型许可证下提供。企业还可以通过类似 ChatGPT 的平台 DeepSeek Chat 测试新模型,并访问 API 进行商业使用。DeepSeek 在 2 月 8 日之前以与 DeepSeek-V2 相同的价格提供 API,之后将对输入令牌收取 0.27 美元/百万令牌(缓存命中的令牌为 0.07 美元/百万令牌),对输出令牌收取 1.10 美元/百万令牌。