Meta发布LLama 2 Long长人工智能模型：比肩GPT-3.5 Turbo和Claude 2

956次阅读

Meta在加州门洛帕克举行的 annual Meta Connect 会议上发布了一系列新的 AI 功能，但可能是由于 paper 发布的高度机密，该论文详细介绍了 Meta 的 Open Source LLama 2，该模型基于 Meta 2022 年夏季发布的 LML 模型，但在持续使用更长的训练序列和数据集（在一个数据集中，长文本被放大）后，该模型在生成更长的用户提示时表现出色。

LLama 2 Long 的研究论文的作者是 Meta 的研究专家，他们在 arXiv.org 上发布了一份计算机科学论文，该论文详细介绍了 Meta 研究人员是如何持续使用 LML 模型，并在原始数据集的基础上使用更长的文本数据，进一步扩充数据集，从而创造出新的 LML 模型。LLama 2 Long 的模型采用了一种名为 RoPE（旋转位置编码）的编码方法，这是一种 3D 图形编码方法，它将模型 token 嵌入转换为一张表示位置关系的 3D 图形，即使模型发生旋转，这种方法仍然允许模型生成准确的回答。

LLama 2 Long 的性能表明，它能够超越一些最先进的封闭源 AI 模型，包括 OpenAI 的 GPT-3.5 Turbo 和 Claude 2。GPT-3.5 Turbo 是一个在单个计算节点上训练和部署的模型，具有超过 1750 亿个参数，而 Claude 2 则是一个在多个计算节点上训练和部署的模型。虽然 LLama 2 Long 的性能不如这些封闭源模型，但它仍然能够在一些任务上与它们相媲美，其中包括在编程、数学、语言理解和回答人类用户问题等常见任务上。
LLama 2 Long 的研究论文中指出，Meta 将持续使用人类反馈强化学习（RLHF）方法来提高其模型的性能，并使用由人类反馈强化学习产生的合成数据来补充模型知识库。

https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/

正文完