stable-diffusion

文本到图像扩散模型

Stable Diffusion 是一种潜在的文本到图像扩散模型。由于Stability AI的慷慨计算捐赠和LAION的支持，我们能够对LAION-5B数据库的512x512图像的子集进行潜在扩散模型的训练。

类似于Google的Imagen，该模型使用一个冻结的CLIP ViT-L/14文本编码器来根据文本提示对模型进行调节。具有860M UNet和123M文本编码器，该模型相对轻量，并且可以在至少具有10GB VRAM的GPU上运行。请参见下面的本节以及模型卡片。