概要:Meta发布了一款新的人工智能模型,名为V-JEPA,通过观看视频学习,可能是迈向人工智能的第一步。该模型通过填补视频中的空白部分来训练,Meta希望构建更像人类学习方式的先进机器智能。
Meta最新发布了一款AI模型,该模型的训练方式类似于今天的大型语言模型,但不同于从书面文字中学习,而是从视频中学习。
通常情况下,大型语言模型(LLMs)是在成千上万个句子或短语上进行训练的,其中一些词被屏蔽,迫使模型找到填充空白的最佳词语。通过这样做,它们会获得对世界的一种初步感知。Meta的FAIR(基础人工智能研究)组负责人Yann LeCun提出,如果AI模型可以使用相同的屏蔽技术,但是对视频素材进行操作,它们可以更快地学习。
“我们的目标是构建能够更像人类一样学习的先进机器智能,”LeCun表示,“形成对周围世界的内部模型,以便在完成复杂任务时学习、适应和有效地制定计划。”
LeCun理论的具体体现是一种名为视频联合嵌入预测架构(V-JEPA)的研究模型。它通过处理未标记的视频并弄清楚在一段时间内屏幕的某个部分被遮挡时可能发生了什么来学习。
需要注意的是,V-JEPA并不是一个生成模型。它会建立一个内部的概念性世界模型。Meta的研究人员表示,经过视频屏蔽的预训练后,“V-JEPA在检测和理解对象之间高度详细的互动方面表现出色。”
这项研究可能对Meta和更广泛的人工智能生态系统都有重大影响。
Meta之前在其增强现实眼镜的工作中谈到了“世界模型”。这些眼镜将使用这样一个模型作为AI助手的大脑,该助手将在其他任务之外,预测要向用户显示什么数字内容,以帮助用户完成任务并获得更多乐趣。该模型将对眼镜外部世界有一个视听理解,但随后可以通过设备的摄像头和麦克风非常快速地学习用户世界的独特特征。
V-JEPA也可能导致AI模型训练方式的改变。当前的基础模型预训练方法需要大量的时间和计算资源(这对生态有影响)。换句话说,开发基础模型目前是富人的专利。如果训练成本降低,这将符合Meta释放大部分研究成果为开源而不是像OpenAI和其他公司一样保护其作为有价值知识产权的策略。如果训练成本降低,较小的开发者可能能够训练出更大、更强大的模型。
LeCun认为,当前LLMs无法通过视觉和听觉学习,这在阻碍向人工智能的进展。
V-JEPA之后的Meta下一步是向视频中添加音频,这将为模型提供全新的数据维度进行学习——就像一个孩子看着静音电视然后把声音调大一样。孩子不仅能看到物体如何移动,还能听到人们谈论它们,例如。
Meta表示,他们将以创意共享许可协议发布V-JEPA模型,以便研究人员可以对其进行实验,或许可以扩展其功能。