Meta发布LLama 2 Long长人工智能模型:比肩GPT-3.5 Turbo和Claude 2
Meta在加州门洛帕克举行的 annual Meta Connect 会议上发布了一系列新的 AI 功能,但可能是由于 paper 发布的高度机密,该论文详细介绍了 Meta 的 Open Source LLama 2,该模型基于 Meta 2022 年夏季发布的 LML 模型,但在持续使用更长的训练序列和数据集(在一个数据集中,长文本被放大)后,该模型在生成更长的用户提示时表现出色。
LLama 2 Long 的研究论文的作者是 Meta 的研究专家,他们在 arXiv.org 上发布了一份计算机科学论文,该论文详细介绍了 Meta 研究人员是如何持续使用 LML 模型,并在原始数据集的基础上使用更长的文本数据,进一步扩充数据集,从而创造出新的 LML 模型。LLama 2 Long 的模型采用了一种名为 RoPE(旋转位置编码)的编码方法,这是一种 3D 图形编码方法,它将模型 token 嵌入转换为一张表示位置关系的 3D 图形,即使模型发生旋转,这种方法仍然允许模型生成准确的回答。
LLama 2 Long 的性能表明,它能够超越一些最先进的封闭源 AI 模型,包括 OpenAI 的 GPT-3.5 Turbo 和 Claude 2。GPT-3.5 Turbo 是一个在单个计算节点上训练和部署的模型,具有超过 1750 亿个参数,而 Claude 2 则是一个在多个计算节点上训练和部署的模型。虽然 LLama 2 Long 的性能不如这些封闭源模型,但它仍然能够在一些任务上与它们相媲美,其中包括在编程、数学、语言理解和回答人类用户问题等常见任务上。
LLama 2 Long 的研究论文中指出,Meta 将持续使用人类反馈强化学习(RLHF)方法来提高其模型的性能,并使用由人类反馈强化学习产生的合成数据来补充模型知识库。