稳定性AI(Stability AI)发布了两个全新的大型语言模型(LLM),它们分别命名为FreeWilly1和FreeWilly2。这两个模型基于Meta的LLaMA和LLaMA 2开源模型的版本,但在一个全新、较小的数据集上进行了训练,其中包括合成数据。这两个模型在复杂推理、语言细微差别以及涉及法律和数学等专业领域的复杂问题回答方面表现出色。
Stability AI的子公司CarperAI以“非商业许可证”发布了FreeWilly模型,这意味着它们不能用于赢利、企业或商业目的,而是旨在推动AI社区的研究进展和促进开放访问。
这些模型的名字是对微软研究人员开发的“Orca” AI训练方法的一种戏谑,这种方法允许“较小”模型(暴露于更有限的数据)达到暴露于更大数据集的大型基础模型的性能。这些模型使用了Enrico Shippole创建的四个数据集的指令进行训练,共有600,000个数据点,仅为Orca数据集大小的10%。相比原始的Orca模型和大多数领先的LLM,这些模型成本更低、环保性更强(能耗更低、碳足迹更小),同时表现出色,有时甚至超越了GPT-3.5上的ChatGPT。
Stability AI的一项开放访问论文描述了“模型崩溃”的过程,即LLM在越来越多的AI生成数据上进行训练时,性能比之前在人类生成数据上训练的模型要差。然而,在训练FreeWilly模型时,Stability AI使用了另外两个LLM生成了50万个实例和10万个合成实例,并发现FreeWilly模型的性能依然出色,这表明合成数据可能是防止模型崩溃以及避免使用版权或专有数据的一种解决方案。
结论:Stability AI推出的FreeWilly语言模型标志着新型开放访问LLM领域的里程碑,有望提升自然语言理解和复杂任务的能力。这些模型不仅展现了合成数据在训练LLM中的潜力,还为研究人员和开发者提供了更广阔的研究和应用领域。通过推动开放访问和使用合成数据,Stability AI为AI社区带来了无限的可能性和新的应用前景。