$("body").append("")

小型语言模型如何超越大型模型?

79次阅读
没有评论

小型语言模型如何超越大型模型?
在一项新的案例研究中,Hugging Face 研究人员展示了如何配置小型语言模型(SLM)以超越更大的模型。他们的发现表明,具有 3B 参数的 Llama 3 模型在复杂数学问题上可以胜过 70B 版本的模型。

Hugging Face 已经完整记录了整个过程,并为希望创建自己定制推理模型的企业提供了路线图。

# 灵感来源
这项工作的灵感来自于 OpenAI 的 o1,它使用额外的“思考”来解决复杂的数学、编码和推理问题。

像 o1 这样的模型背后的关键思想是扩展“测试时间计算”,这实际上意味着在推理过程中使用更多的计算周期来测试和验证不同的响应和推理路径,然后再生成最终答案。当没有足够的内存来运行大型模型时,扩展测试时间计算特别有用。

由于 o1 是一个私有模型,OpenAI 对其内部工作原理一直保持沉默,研究人员一直在猜测它是如何工作的,并试图反向工程这个过程。已经有几个开放的 o1 替代品。

Hugging Face 的工作基于 DeepMind 在 8 月份发布的一项研究,该研究调查了推理时间和预训练计算之间的权衡。该研究为如何在固定预算下平衡训练和推理计算以获得最佳结果提供了全面的指导方针。

# 关键组件
除了使用额外的推理时间计算外,该技术的成功还取决于两个关键组件:一个评估 SLM 答案的奖励模型,以及一个优化其答案精炼路径的搜索算法。

# 不同的推理算法
使用测试时间扩展的最简单方法是“多数投票”,其中将相同的提示多次发送到模型,并选择得票最多的答案。在简单问题上,多数投票可能很有用,但其收益在复杂推理问题或错误在各代中一致的任务上很快就会达到平台期。

一种更先进的推理方法是“Best-of-N”。在这种技术中,SLM 生成多个答案,但不是多数投票,而是使用奖励模型来评估答案并选择最佳答案。“Weighted Best-of-N”是这种方法的更细致版本,它考虑了一致性,以选择既自信又比其他答案更频繁出现的答案。

研究人员使用了一种“过程奖励模型”(PRM),该模型不仅根据最终答案对 SLM 的响应进行评分,还根据其达到答案的多个阶段进行评分。他们的实验表明,Weighted Best-of-N 和 PRM 使 Llama-3.2 1B 在困难的 MATH-500 基准上接近 Llama-3.2 8B 的水平。

# 添加搜索
为了进一步提高模型的性能,研究人员在模型的推理过程中添加了搜索算法。他们不是在一次通过中生成答案,而是使用“波束搜索”,这是一种逐步引导模型答案过程的算法。

在每个步骤中,SLM 生成多个部分答案。搜索算法使用奖励模型来评估答案,并选择值得进一步探索的子集。这个过程会重复,直到模型用尽其推理预算或达到正确答案。这样,推理预算就可以缩小到专注于最有希望的答案。

研究人员发现,虽然波束搜索在复杂问题上提高了模型的性能,但在简单问题上往往不如其他技术。为了解决这个挑战,他们在推理策略中添加了两个元素。

首先是多样化验证器树搜索(DVTS),这是波束搜索的一种变体,可确保 SLM 不会陷入错误的推理路径,并使其响应分支多样化。其次,他们开发了一种“计算最优扩展策略”,如 Deepmind 论文中所建议的,该策略根据输入问题的难度动态选择最佳的测试时间扩展策略。

这些技术的结合使 Llama-3.2 1B 能够超越其规模,并以显著优势胜过 8B 模型。他们还发现,该策略是可扩展的,当应用于 Llama-3.2 3B 时,他们能够胜过更大的 70B 模型。

# 并非完美解决方案
扩展测试时间计算改变了模型成本的动态。企业现在可以选择在哪里分配他们的计算资源。例如,如果您内存不足或可以容忍较慢的响应时间,则可以使用小型模型并花费更多的推理时间周期来生成更准确的答案。

然而,测试时间扩展也有其局限性。例如,在 Hugging Face 进行的实验中,研究人员使用了一个专门训练的 Llama-3.1-8B 模型作为 PRM,这需要并行运行两个模型(即使它比 70B 模型更节省资源)。研究人员承认,测试时间扩展的圣杯是实现“自我验证”,即原始模型验证自己的答案,而不是依赖外部验证器。这是一个开放的研究领域。

本研究中提出的测试时间扩展技术也仅限于可以明确评估答案的问题,例如编码和数学。为主观任务(如创意写作和产品设计)创建奖励模型和验证器需要进一步的研究。

但很明显的是,测试时间扩展已经引起了很多兴趣和活动,我们可以期待在未来几个月中出现更多的工具和技术。企业明智的做法是密切关注这一领域的发展。

正文完