中国电商巨头阿里巴巴发布了其不断扩张的 Qwen 家族中的最新模型 ——Qwen with Questions(QwQ),它成为了 OpenAI 的 o1 推理模型在开源领域的新对手。
与其他大型推理模型(LRMs)类似,QwQ 在推理过程中会利用额外的计算周期来审视自己的答案并纠正错误,这使其更适用于数学和编程等需要逻辑推理与规划的任务。
阿里巴巴推出了参数达 320 亿且上下文长度为 32000 词元的 QwQ 版本,目前该模型处于预览阶段,意味着后续可能会有性能更优的版本。据阿里巴巴测试,在评估数学解题能力的 AIME 和 MATH 基准测试中,QwQ 胜过 o1-preview;在科学推理基准测试 GPQA 中表现优于 o1-mini。在 LiveCodeBench 编码基准测试里,QwQ 虽不及 o1,但仍超越了 GPT-4o 和 Claude 3.5 Sonnet 等其他前沿模型。
QwQ 没有附带描述训练数据或过程的论文,这给重现模型结果带来困难。不过因其开源,与 OpenAI o1 不同,其 “思考过程” 是公开透明的,有助于理解模型在解题时的推理逻辑。阿里巴巴依据 Apache 2.0 许可证发布该模型,意味着可用于商业用途。
伴随模型发布的一篇博客提到:“通过深入探索与无数次试验,我们有了深刻发现:当给予模型思考、质疑与反思的时间,它对数学和编程的理解就如花朵向阳绽放…… 这种仔细反思与自我提问的过程在解决复杂问题上实现了显著突破。” 这与我们所了解的推理模型工作原理相似,通过生成更多词元并审视之前的回复,模型更有可能纠正潜在错误。阿里巴巴近期发布的另一个推理模型 Marco - o1 或许也暗示了 QwQ 的工作方式,Marco - o1 在推理时运用蒙特卡罗树搜索(MCTS)和自我反思来创建不同推理分支并选出最佳答案,且模型基于思维链(CoT)示例与 MCTS 算法生成的合成数据训练。
阿里巴巴指出 QwQ 仍存在局限,如语言混淆或陷入循环推理等问题。该模型可在 Hugging Face 下载,且在 Hugging Face Spaces 有在线演示。
o1 的发布引发了创建 LRMs 的热潮,尽管除了利用推理时的规模来优化模型回复外,人们对其内部工作原理知之甚少。如今 o1 有了多个中国竞争对手。中国 AI 实验室 DeepSeek 近期发布了其 o1 竞品 R1 - Lite - Preview,目前仅能通过公司在线聊天界面使用,据报道在多个关键基准测试中胜过 o1。另一个近期发布的模型是由中国多所大学研究人员开发的 LLaVA - o1,它将推理时的推理范式引入开源视觉语言模型(VLMs)。
对 LRMs 的关注源于模型缩放定律未来的不确定性。有报道称 OpenAI、Google DeepMind 和 Anthropic 等 AI 实验室在训练更大模型时收益递减,且随着模型已基于从互联网收集的数万亿词元进行训练,创建大量高质量训练数据愈发困难。与此同时,推理时的规模提供了一种可能为下一代 AI 模型能力提升带来突破的替代方案。有报道称 OpenAI 正利用 o1 生成合成推理数据来训练下一代其大语言模型(LLMs)。开源推理模型的发布有望推动进展并加剧竞争。