$("body").append("")

Meta发布新的AI图像生成模型CM3leon:实现文本到图像的新突破

578次阅读
没有评论

Meta公司,即Facebook的母公司,推出了CM3leon(读作chameleon),这是一个全新的单一基础生成式AI图像模型。与一些以文本到图像或图像到文本任务为重点的先前模型不同,CM3leon是一个休闲的混合模态(CM3)模型,因此它可以使用文本和图像根据其他图像和文本内容生成回应(无论是图像形式还是文本形式)。一些用例包括通过提示生成图像、使用提示编辑图像、生成图像描述或回答关于图像的问题。

在AI图像生成工具中,包括Midjourney、Stable Diffusion和Dall-E等,主要依赖于扩散模型。而CM3leon则采用基于分词的自回归模型。尽管该模型的计算资源比之前基于Transformer的模型少了五倍,但Meta称在最常用的图像生成基准测试(零样本MS-COCO)上,CM3leon获得了4.88的FID(Fréchet Inception Distance)分数,创造了文本到图像生成的最新技术水平,并超越了Google的文本到图像模型Parti。这一成就凸显了检索增强的潜力,并突出了扩展策略对自回归模型性能的影响。

Meta发布新的AI图像生成模型CM3leon:实现文本到图像的新突破Meta公司推出的CM3leon是一种新的AI图像生成模型,它实现了文本到图像生成的新突破。相比于传统的扩散模型,CM3leon采用了分词的自回归模型,并通过比之前基于Transformer的模型少五倍的计算资源训练,却实现了文本到图像生成的最新技术水平。这一突破有望为图像生成领域带来更高的性能和更广泛的应用前景。Meta公司在生成式AI领域的持续创新将为数字化和AI技术的发展开辟更多可能性。

正文完