Hugging Face推出了一款名为aMUSEd的新型AI模型,可以在几秒内生成图像。相较于Stable Diffusion等竞争对手,aMUSEd采用了掩蔽图像模型(MIM)架构,极大提高了生成速度。
aMUSEd:秒生成图像的轻量模型
在AI图像生成模型中,速度一直是一个重要问题:使用ChatGPT或Stable Diffusion等模型创建一张图像可能需要数分钟。甚至在去年的Meta Connect上,Meta首席执行官马克·扎克伯格也抱怨了图像生成速度的问题。
为了加速这个过程,Hugging Face团队推出了一款名为aMUSEd的新模型,可以在短短几秒内生成图像。
这个轻量级的文本到图像模型基于谷歌的MUSE模型,拥有大约8亿个参数,适用于移动设备等嵌入式应用。
aMUSEd的速度来自于它的构建方式。它采用了掩蔽图像模型(MIM)架构,而不是Stable Diffusion和其他图像生成模型中的潜在扩散。Hugging Face团队表示,MIM减少了推理步骤,从而提高了模型的生成速度和可解释性。而其小巧的体积也是其快速生成的原因之一。
你可以通过Hugging Face上的演示来亲自尝试aMUSEd。目前,该模型以研究预览的形式提供,但带有OpenRAIL许可证,这意味着可以进行实验或调整,同时也适用于商业应用
aMUSEd生成的图像质量
aMUSEd生成的图像质量还有进一步提升的空间,团队公开承认了这一点,并选择发布它以“鼓励社区探索非扩散框架(如MIM)用于图像生成”。
以下是Hugging Face展示的示例生成图像,仅用2.5秒钟生成,使用以下提示:“皮卡丘在艾菲尔铁塔附近用餐”(左)和“一只认真的水豚在工作,穿着西装”(右)。
该模型还可以进行零-shot图像修复,而Stable Diffusion XL无法做到,根据Hugging Face团队的说法。
秒生成AI图像的方法
aMUSEd中的MIM方法类似于语言建模中使用的技术,其中某些数据的某些部分被隐藏(或掩蔽),模型学会预测这些隐藏部分。在aMUSEd的情况下,这是图像而不是文本。
在训练模型时,Hugging Face团队使用称为VQGAN(矢量量化生成对抗网络)的工具将输入图像转换为一系列令牌。图像令牌然后部分掩蔽,模型被训练以预测掩蔽部分。预测基于未掩蔽部分和使用文本编码器的提示。
在推理过程中,文本提示通过相同的文本编码器转换为模型理解的格式。然后,aMUSEd从一组随机掩蔽的令牌开始,并逐步优化图像。在每次优化中,它预测图像的部分,保留其最有信心的部分,并继续优化其余部分。经过一定数量的步骤后,模型的预测通过VQGAN解码器处理,生成最终的图像。
Hugging Face展示了使用8位Adam优化器和float16精度微调的aMUSEd模型,这个过程仅使用了不到11 GB的GPU VRAM。微调模型的训练脚本可以在这里获取。
结语
aMUSEd的推出使得秒生成AI图像成为可能,为图像生成领域注入了新的活力。其快速、小巧的特点使其适用于各种应用场景,尤其是对于需要实时图像生成的移动设备来说,具有重要的意义。
Hugging Face团队的努力旨在推动图像生成技术的发展,鼓励社区更多地尝试和探索非传统的框架,为AI图像生成带来更多可能性。
原文:https://aibusiness.com/ml/generate-ai-images-in-seconds-with-ai-model-from-hugging-face
本文来自ChatGPT3.5