$("body").append("")

OpenAI 的 o3 模型:突破还是局限?

73次阅读
没有评论

OpenAI 的 o3 模型:突破还是局限?
OpenAI 的最新 o3 模型取得了令 AI 研究界惊讶的突破。在标准计算条件下,o3 在超级困难的 ARC-AGI 基准测试中获得了前所未有的 75.7%的分数,高计算版本更是达到了 87.5%。

虽然在 ARC-AGI 中的成就令人印象深刻,但这并不意味着已经破解了通往通用人工智能(AGI)的代码

# Abstract Reasoning Corpus

ARC-AGI 基准测试基于抽象推理语料库,测试 AI 系统适应新任务并展示流畅智力的能力。ARC 由一组需要理解对象、边界和空间关系等基本概念的视觉谜题组成。虽然人类可以轻松地用很少的演示解决 ARC 谜题,但当前的 AI 系统却在这些谜题上挣扎。ARC 长期以来一直被认为是 AI 最具挑战性的衡量标准之一。

# 示例 ARC 谜题(来源:arcprize.org)

ARC 的设计方式使其无法通过在数百万个示例上训练模型来作弊,希望涵盖所有可能的谜题组合。

该基准测试由包含 400 个简单示例的公共训练集组成。训练集辅以包含 400 个更具挑战性的谜题的公共评估集,作为评估 AI 系统泛化能力的手段。ARC-AGI 挑战包含每个 100 个谜题的私有和半私有测试集,这些测试集不与公众共享。它们用于评估候选 AI 系统,而不会冒着将数据泄露给公众并使未来系统受到先验知识污染的风险。此外,比赛对参与者可以使用的计算量设置了限制,以确保谜题不是通过暴力方法解决的。

# 在解决新任务方面的突破

o1-preview 和 o1 在 ARC-AGI 上的最高得分为 32%。研究人员 Jeremy Berman 开发的另一种方法使用混合方法,将 Claude 3.5 Sonnet 与遗传算法和代码解释器相结合,达到了 53%,这是 o3 之前的最高得分。

在一篇博客文章中,ARC 的创建者 François Chollet 将 o3 的性能描述为“AI 能力的惊人且重要的阶跃式增长,展示了以前在 GPT 系列模型中从未见过的新任务适应能力”。

值得注意的是,在以前的模型上使用更多的计算并不能达到这些结果。相比之下,从 2020 年 GPT-3 的 0%到 2024 年初 GPT-4o 的仅 5%,模型花了 4 年时间才取得进展。虽然我们对 o3 的架构了解不多,但可以确信它并不比其前辈大几个数量级。

# 不同模型在 ARC-AGI 上的性能(来源:arcprize.org)

“这不仅仅是渐进式的改进,而是真正的突破,标志着与 LLM 先前的局限性相比,AI 能力的质的转变,”Chollet 写道。“o3 是一个能够适应以前从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平的性能。”

值得注意的是,o3 在 ARC-AGI 上的性能是以高昂的成本为代价的。在低计算配置下,解决每个谜题的模型成本为 17 至 20 美元和 3300 万个令牌,而在高计算预算下,模型使用的计算量增加了约 172 倍,每个问题使用数十亿个令牌。然而,随着推理成本的不断降低,我们可以期望这些数字变得更加合理。

# LLM 推理的新范式?

解决新问题的关键是 Chollet 和其他科学家所说的“程序合成”。思维系统应该能够开发用于解决非常特定问题的小程序,然后将这些程序组合起来解决更复杂的问题。经典语言模型吸收了大量知识,并包含丰富的内部程序。但它们缺乏组合性,这使得它们无法解决超出其训练分布的谜题。

不幸的是,关于 o3 如何在幕后工作的信息很少,在这里,科学家们的意见分歧。Chollet 推测 o3 使用一种结合了思维链(CoT)推理和搜索机制的程序合成,以及一个在模型生成令牌时评估和改进解决方案的奖励模型。这类似于开源推理模型在过去几个月中一直在探索的方法。

其他科学家,如艾伦人工智能研究所的 Nathan Lambert,则认为“o1 和 o3 实际上可能只是一个语言模型的前向传递”。在 o3 宣布的当天,OpenAI 的研究员 Nat McAleese 在 X 上发布说,o1 是“只是用 RL 训练的 LLM。o3 是通过进一步扩大 RL 超过 o1 而实现的。”

同一天,来自 Google DeepMind 推理团队的 Denny Zhou 称搜索和当前强化学习方法的结合是“死胡同”。

“LLM 推理中最美丽的事情是思维过程是以自回归的方式生成的,而不是依赖于对生成空间的搜索(例如 mcts),无论是通过精心调整的模型还是精心设计的提示,”他在 X 上发布。

虽然与 o3 在 ARC-AGI 上的突破相比,o3 如何推理的细节可能看起来微不足道,但它很可能定义了训练 LLM 的下一个范式转变。目前,关于通过训练数据和计算扩展 LLM 的规律是否已经达到极限存在争议。测试时的扩展是否取决于更好的训练数据或不同的推理架构,可以决定下一步的前进方向。

# 不是 AGI

ARC-AGI 的名称具有误导性,有些人将其等同于解决 AGI。然而,Chollet 强调“ARC-AGI 不是 AGI 的酸性测试”。

“通过 ARC-AGI 并不等同于实现 AGI,事实上,我认为 o3 还不是 AGI,”他写道。“o3 在一些非常简单的任务上仍然失败,表明与人类智能存在根本差异。”

此外,他指出 o3 无法自主学习这些技能,它在推理过程中依赖于外部验证器,在训练过程中依赖于人类标记的推理链。

其他科学家也指出了 OpenAI 报告结果的缺陷。例如,为了达到最先进的结果,该模型在 ARC 训练集上进行了微调。“求解器不需要在领域本身或每个特定任务上进行太多特定的‘训练’,”科学家 Melanie Mitchell 写道。

为了验证这些模型是否具有 ARC 基准测试旨在测量的那种抽象和推理能力,Mitchell 建议“看看这些系统是否能够适应特定任务的变体或使用与 ARC 相同概念但在其他领域的推理任务。”

Chollet 和他的团队目前正在开发一个对 o3 具有挑战性的新基准测试,即使在高计算预算下,也可能将其得分降低到 30%以下。同时,人类无需任何训练即可解决 95%的谜题。

“当创造对普通人类来说容易但对 AI 来说困难的任务变得根本不可能时,你就会知道 AGI 已经到来,”Chollet 写道。

正文完