概要:苹果研究人员最近在多模态AI领域取得了突破性进展。他们开发了新的训练方法,能够同时处理文本和图像,为人工智能和未来的苹果产品带来更强大和灵活的系统。这一研究成果可能对人工智能领域具有重大意义。
苹果公司的研究人员在最近一篇名为“MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training”的论文「https://arxiv.org/abs/2403.09611」中公布了他们的研究成果。这项工作展示了如何在训练大规模语言模型时,同时结合文本和图像数据,并采用不同的模型架构,可以实现在一系列人工智能基准测试中的最先进性能。
结合不同类型的训练数据和模型架构可以实现最先进的性能。
研究人员发现,对于大规模多模态预训练,结合图像标题、交错的图像文本以及仅文本数据进行训练至关重要。通过在涵盖视觉和语言信息的多样数据集上训练模型,MM1模型能够在图像字幕、视觉问答和自然语言推理等任务上表现出色。
研究人员还发现,图像编码器的选择以及输入图像的分辨率对模型性能有重大影响。他们表示:“我们展示了图像编码器与图像分辨率以及图像令牌数量的选择对模型性能具有重大影响,而视觉语言连接器的设计相对重要性较小。”这表明,继续扩展和完善这些多模态模型的视觉组件将是解锁进一步收益的关键。
30亿参数的MM1模型表现出了强大的上下文学习能力,使其能够使用少量提示进行多步推理。这表明大规模多模态模型有望解决需要基于语言理解和生成的复杂、开放式问题。
这项研究成果是苹果公司加大在人工智能领域投资的一部分,目的是追赶谷歌、微软和亚马逊等竞争对手,在将生成式人工智能能力整合到其产品中方面走在前列。根据彭博社最近的一篇报道,苹果公司计划每年在人工智能开发上投入10亿美元。
苹果CEO蒂姆·库克在最近的一次财报电话会议上表示:“我们将人工智能和机器学习视为基本技术,它们是我们几乎所有产品的核心。”他还暗示道:“我们很兴奋地将在今年晚些时候分享我们在人工智能领域的持续工作。”
对于苹果来说,留意全球开发者大会将是重要的。届时,苹果有望推出新的AI功能和开发者工具。与此同时,来自苹果研究实验室的Keyframer动画工具和性能增强等小型人工智能进展显示出在幕后正在稳步取得进展。