$("body").append("")

Microsoft 的 rStar-Math:小语言模型的新突破

319次阅读
没有评论

Microsoft 的 rStar-Math:小语言模型的新突破
Microsoft 推出新的推理技术 rStar-Math,可提升小语言模型在数学问题上的表现

Microsoft 正在加倍押注小语言模型(SLM)的潜力,推出了 rStar-Math,这是一种新的推理技术,可以应用于小模型,使用推理技术提高它们在数学问题上的性能——其性能类似于,在某些情况下甚至超过了 OpenAI 的 o1-preview 模型。

虽然仍处于研究阶段——正如在预审查网站 arXiv.org 上发表的一篇论文中所述,该论文由微软、北京大学和清华大学的八位作者共同撰写——但该技术已应用于几个不同的较小的开源模型,包括微软自己的 Phi-3 mini、阿里巴巴的 Qwen-1.5B(一个 15 亿参数的模型)和 Qwen-7B(一个 70 亿参数的模型)。它在所有这些模型上都表现出了改进的性能,甚至在涵盖几何和代数等各个分支以及所有难度级别的 12,500 个问题的 MATH(解决文字问题)第三方基准测试中超过了 OpenAI 以前最先进的模型。

研究人员计划在 Github 上开源代码和数据

最终,根据 Hugging Face 上的一篇文章,研究人员计划在 Github 上的 https://github.com/microsoft/rStar 上提供他们的代码和数据,尽管该论文的作者之一 Li Lyna Zhang 在 Hugging Face 文章的评论中写道,该团队“仍在进行内部审查以进行开源发布”。因此,“该存储库目前仍然是私有的。请继续关注!”

社区成员表示热情,称这些创新“令人印象深刻”,并赞扬了蒙特卡罗树搜索(MCTS)与逐步推理的结合。一位评论者强调了使用 Q 值进行步骤评分的简单性和实用性,而其他人则推测了在几何证明和符号推理中的未来应用。

rStar-Math 通过使用多个模型和组件帮助目标小模型“自我进化”

这一消息紧随微软 Phi-4 模型的开源之后,Phi-4 是一个较小的 140 亿参数的 AI 系统,现在可以在 Hugging Face 上根据宽松的 MIT 许可证获得。

虽然 Phi-4 的发布扩大了对高性能小模型的访问,但 rStar-Math 展示了一种专门的方法:使用较小的 AI 系统在数学推理中实现最先进的结果。

rStar-Math 的关键在于它利用了蒙特卡罗树搜索(MCTS),这是一种通过迭代细化数学问题的逐步解决方案来模拟人类“深度思考”的方法。

研究人员使用 MCTS,因为它“将复杂的数学问题分解为更简单的单步生成任务,降低了难度”,对于较小的模型来说。

然而,他们不仅仅像其他研究人员那样应用 MCTS。相反,他们还以一种聪明的方式要求他们训练的模型始终输出其“思维链”推理步骤,既作为自然语言描述,又作为 Python 代码。

他们要求模型将自然语言响应作为 Python 代码注释包含在内,并且仅使用使用 Python 的那些输出来训练模型。

研究人员还训练了一个“策略模型”来生成数学推理步骤,以及一个过程偏好模型(PPM)来选择解决问题的最有前途的步骤,并在四轮“自我进化”中对它们进行了改进,每个模型都改进了另一个模型。

对于他们的起始数据,研究人员表示,他们使用了“来自公开来源的 747,000 个数学文字问题”以及它们的解决方案,但使用上述两个模型为解决这些问题生成了新的步骤。

创纪录的结果

经过四轮自我进化,rStar-Math 取得了显著的里程碑:

• 在 MATH 基准测试中,Qwen2.5-Math-7B 模型的准确性从 58.8%跃升至 90.0%,超过了 OpenAI o1-preview。

• 在美国数学邀请赛(AIME)上,它解决了 53.3%的问题,在高中竞争对手中排名前 20%。

这些结果突出了 SLM 在处理复杂数学推理方面的能力,传统上由较大的系统主导。

更小更好?

近年来,AI 创新主要由扩大语言模型驱动,增加参数被视为提高性能的一种方式。然而,与这些大规模模型相关的高成本,从计算资源到能源消耗,都引发了对可扩展性的质疑。

Microsoft 提供了一种替代路径,专注于效率。rStar-Math 的发布进一步强调了这一承诺,展示了 SLM 如何与——在某些情况下甚至超过——其更大的对应物的能力相媲美。

Microsoft 同时发布 Phi-4 和 rStar-Math 论文表明,紧凑的专业模型可以为行业最大的系统提供强大的替代方案。

此外,通过在关键基准测试中超过更大的竞争对手,这些模型挑战了更大总是更好的观念。它们为中型组织和学术研究人员打开了大门,使他们能够在没有大规模模型的财务或环境负担的情况下获得前沿能力。

正文完