$("body").append("")

Meta 推出开源的 Llama 3.3,将强大的大模型压缩至更小尺寸

131次阅读
没有评论

Meta 推出开源的 Llama 3.3,将强大的大模型压缩至更小尺寸

Meta 的生成式人工智能副总裁艾哈迈德·达勒今日在竞争对手的社交网络 X 上宣布了 Llama 3.3 的发布。这是 Facebook、Instagram、WhatsApp 和 Quest VR 母公司推出的最新开源多语言大语言模型(LLM)。

他写道:“Llama 3.3 以显著更低的成本提升了核心性能,让整个开源社区都能更容易地使用。”这款模型有 700 亿参数,能产生与 Meta 今年夏天发布的 4050 亿参数的 Llama 3.1 模型相当的结果,但成本和计算开销却只是其一小部分,比如运行模型推理所需的 GPU 容量大大降低。它旨在在更小的规模下提供顶级性能和易用性,相较于之前的基础模型有了很大突破。

Meta 的 Llama 3.3 遵循 Llama 3.3 社区许可协议,该协议授予对模型及其输出进行使用、复制、分发和修改的非排他性、免版税许可。将 Llama 3.3 整合到产品或服务中的开发者必须进行适当的标注,比如“基于 Llama 构建”,并且要遵守可接受使用政策,禁止生成有害内容、违反法律或进行网络攻击等活动。一般情况下该许可免费,但月活跃用户超过 7 亿的组织则必须直接从 Meta 获取商业许可。Meta 人工智能团队的一份声明强调了这一愿景:“Llama 3.3 在基于文本的用例中以极低的推理成本提供领先的性能和质量。”

那到底能节省多少成本呢?简单算一下:根据 Substratus 博客(针对开源跨云基板),Llama 3.1 - 405B 需要 243GB 到 1944GB 的 GPU 内存。而同一博客显示,较旧的 Llama 2 - 70B 需要 42 - 168GB 的 GPU 内存,不过也有人称低至 4GB,就像 Exo Labs 所展示的,一些配备 M4 芯片且无独立 GPU 的 Mac 电脑就能运行。所以,如果低参数模型在 GPU 内存节省方面的情况在此适用,那些想要部署 Meta 最强大开源 Llama 模型的人预计可节省近 1940GB 的 GPU 内存,对于标准的 80GB Nvidia H100 GPU 来说,GPU 负载可能降低 24 倍。按每块 H100 GPU 约 25000 美元计算,潜在的前期 GPU 成本节省可达 60 万美元,更不用说持续的电力成本了。

小尺寸却高性能的模型。Meta 人工智能在 X 上表示,Llama 3.3 模型在多语言对话、推理和其他高级自然语言处理(NLP)任务等多个基准测试中轻松超越相同规模的 Llama 3.1 - 70B 以及亚马逊的新 Nova Pro 模型(不过 Nova Pro 在 HumanEval 编码任务中表现更优)。

Llama 3.3 根据 Meta 在其网站发布的“模型卡”信息,已在来自“公开可用”数据的 15 万亿词元上进行了预训练,并在超过 2500 万个合成生成的示例上进行了微调。利用 H100 - 80GB 硬件上的 3930 万 GPU 小时,该模型的开发彰显了 Meta 对能源效率和可持续性的重视。Llama 3.3 在多语言推理任务中处于领先地位,在 MGSM 上的准确率达到 91.1%,证明了它除英语外,对德语、法语、意大利语、印地语、葡萄牙语、西班牙语和泰语等语言的支持有效性。

经济高效且环保。Llama 3.3 专门针对经济高效的推理进行了优化,每百万词元的生成成本低至 0.01 美元。这使得该模型相较于 GPT - 4 和 Claude 3.5 等行业竞品极具竞争力,对于寻求部署复杂人工智能解决方案的开发者来说更具可负担性。Meta 还强调了此次发布的环境责任。尽管其训练过程密集,但公司利用可再生能源抵消了温室气体排放,使得训练阶段实现净零排放。基于地理位置的排放量总计为 11390 吨二氧化碳当量,但 Meta 的可再生能源举措确保了可持续性。

Meta 推出开源的 Llama 3.3,将强大的大模型压缩至更小尺寸

先进的功能和部署选项。该模型引入了多项增强功能,包括 128k 词元的更长上下文窗口(与 GPT - 4o 相当,约 400 页书籍文本),适用于长文本内容生成和其他高级用例。其架构采用了分组查询注意力(GQA),提高了推理过程中的可扩展性和性能。为了符合用户对安全性和实用性的偏好,Llama 3.3 使用了基于人类反馈的强化学习(RLHF)和监督微调(SFT)。这种校准确保了对不适当提示的有力拒绝,并为现实世界应用优化了类似助手的行为。Llama 3.3 已经可以通过 Meta、Hugging Face、GitHub 和其他平台下载,为研究人员和开发者提供了整合选项。Meta 还提供诸如 Llama Guard 3 和 Prompt Guard 等资源,以帮助用户安全且负责任地部署该模型。

正文完