微软发布开源 Phi-4 模型
尽管其大型投资合作伙伴 OpenAI 不断推出更强大的推理模型,如最新的 o3 系列,但微软并没有坐以待毙。相反,它正在追求以自己的品牌发布更强大的小型模型的开发。
正如几位现任和前任微软研究人员和 AI 科学家今天在 X 上宣布的那样,微软正在将其 Phi-4 模型作为一个完全开源的项目发布,在 AI 代码共享社区 Hugging Face 上提供可下载的权重。
“我们对[phi-4 发布]的反应感到非常惊讶,”微软 AI 首席研究工程师 Shital Shah 在 X 上写道。“很多人一直在要求我们发布权重。[一些]人甚至在 HuggingFace 上上传了盗版的 phi-4 权重……好了,不用再等了。我们今天在 HuggingFace 上发布了官方的 phi-4 模型!使用 MIT 许可证(原文如此)!!”
权重是指指定 AI 语言模型(无论大小)如何理解和输出语言和数据的数值。模型的权重是通过其训练过程建立的,通常通过无监督深度学习,在此期间,它根据收到的输入确定应提供的输出。模型的权重可以通过人类研究人员和模型创建者在训练期间向模型添加自己的设置(称为偏差)来进一步调整。通常,只有在模型的权重公开后,模型才被视为完全开源,因为这使其他人类研究人员能够获取模型并完全自定义它或使其适应自己的目的。
虽然 Phi-4 实际上是微软上个月透露的,但它的使用最初仅限于微软新的 Azure AI Foundry 开发平台。
现在,Phi-4 可以在该专有服务之外提供给任何拥有 Hugging Face 帐户的人,并附带允许其用于商业应用的宽松 MIT 许可证。
此版本为研究人员和开发人员提供了对模型的 140 亿个参数的完全访问权限,从而可以在没有通常与大型 AI 系统相关的资源限制的情况下进行实验和部署。
AI 效率的转变
Phi-4 于 2024 年 12 月首次在微软的 Azure AI Foundry 平台上推出,开发人员可以根据研究许可协议访问它。
该模型在数学推理和多任务语言理解等领域迅速超越了许多更大的竞争对手,同时需要的计算资源明显更少,这引起了人们的关注。
该模型的精简架构及其对推理和逻辑的关注旨在满足 AI 在计算和内存受限环境中保持高效的高性能需求。通过在宽松的 MIT 许可证下开源发布 Phi-4,微软使其更容易为更广泛的研究人员和开发人员(甚至商业开发人员)所使用,这标志着 AI 行业在模型设计和部署方法上可能发生的转变。
Phi-4 的突出之处
phi-4 在测试高级推理和特定领域能力的基准测试中表现出色。亮点包括:
• 在 MATH 和 MGSM 等具有挑战性的基准测试中得分超过 80%,优于 Google 的 Gemini Pro 和 GPT-4o-mini 等更大的模型。
• 在数学推理任务中表现出卓越的性能,这是金融、工程和科学研究等领域的关键能力。
• 在 HumanEval 中进行功能代码生成的结果令人印象深刻,使其成为 AI 辅助编程的强大选择。
此外,phi-4 的架构和训练过程在设计时考虑了精度和效率。其 140 亿参数的密集、仅解码器的变压器模型在 9.8 万亿个标记的策划和合成数据集上进行了训练,包括:
• 经过严格筛选质量的公开可用文档。
• 专注于数学、编码和常识推理的教科书式合成数据。
• 高质量的学术书籍和问答数据集。
训练数据还包括多语言内容(8%),尽管该模型主要针对英语语言应用进行了优化。
微软的创建者表示,安全和对齐过程,包括监督微调和谐波偏好优化,确保了强大的性能,同时解决了对公平性和可靠性的担忧。
开源优势
通过在 Hugging Face 上提供完整权重和 MIT 许可证的 phi-4,微软为企业在其商业运营中使用它打开了大门。
开发人员现在可以将模型集成到他们的项目中或针对特定应用进行微调,而无需大量的计算资源或来自微软的许可。
此举也符合开源基础 AI 模型以促进创新和透明度的日益增长的趋势。与通常限于特定平台或 API 的专有模型不同,phi-4 的开源性质确保了更广泛的可访问性和适应性。
平衡安全和性能
随着 phi-4 的发布,微软强调了负责任的 AI 开发的重要性。该模型经过了广泛的安全评估,包括对抗性测试,以最大限度地降低偏见、有害内容生成和错误信息等风险。
然而,建议开发人员在高风险应用中实施额外的保障措施,并在敏感场景中部署模型时将输出基于经过验证的上下文信息。
对 AI 格局的影响
phi-4 挑战了将 AI 模型扩展到大规模的流行趋势。它表明,设计良好的小型模型可以在关键领域实现可比或更好的结果。
这种效率不仅降低了成本,而且降低了能源消耗,使先进的 AI 功能更容易为中型组织和计算预算有限的企业所使用。
随着开发人员开始对该模型进行实验,我们很快就会看到它是否可以作为 OpenAI、Anthropic、Google、Meta、DeepSeek 等众多竞争对手的商业和开源模型的可行替代品。