Meta发布新的AI图像生成模型CM3leon：实现文本到图像的新突破

Meta公司，即Facebook的母公司，推出了CM3leon（读作chameleon），这是一个全新的单一基础生成式AI图像模型。与一些以文本到图像或图像到文本任务为重点的先前模型不同，CM3leon是一个休闲的混合模态（CM3）模型，因此它可以使用文本和图像根据其他图像和文本内容生成回应（无论是图像形式还是文本形式）。一些用例包括通过提示生成图像、使用提示编辑图像、生成图像描述或回答关于图像的问题。

在AI图像生成工具中，包括Midjourney、Stable Diffusion和Dall-E等，主要依赖于扩散模型。而CM3leon则采用基于分词的自回归模型。尽管该模型的计算资源比之前基于Transformer的模型少了五倍，但Meta称在最常用的图像生成基准测试（零样本MS-COCO）上，CM3leon获得了4.88的FID（Fréchet Inception Distance）分数，创造了文本到图像生成的最新技术水平，并超越了Google的文本到图像模型Parti。这一成就凸显了检索增强的潜力，并突出了扩展策略对自回归模型性能的影响。

Meta公司推出的CM3leon是一种新的AI图像生成模型，它实现了文本到图像生成的新突破。相比于传统的扩散模型，CM3leon采用了分词的自回归模型，并通过比之前基于Transformer的模型少五倍的计算资源训练，却实现了文本到图像生成的最新技术水平。这一突破有望为图像生成领域带来更高的性能和更广泛的应用前景。Meta公司在生成式AI领域的持续创新将为数字化和AI技术的发展开辟更多可能性。