Stable Diffusion
现在比较厉害的是Stable Diffusion,能够比较好的生成图像。其基本理念是,学习图像中的噪声,通过多级,逐步获得噪声后,减去所有的噪声,就形成了图像。这是有一定理论依据的,大概意思就是说图像中的这些噪声是满足高斯分布的。 细节后再来补!
-
有人说,VAE与diffusion很像,前者是用MLP做转化,后者是用马尔可夫链作转化。
-
有人说,diffusion之前有提出,近期在CLIP上表现突出,所以火了。
所以 CLIP是其中的一个重要概念。CLIP其实是文本与图像的共有特征空间。在CLIP学到的空间里,图像与文本有着共通的语义,能够相互转化。而且其学习过程是使用互联网上抓取的信息自动实现监督学习,其迁移能力也很强。通过CLIP,使得stable diffusion能够理解主义并且将语义转化为图像。
重要参考链接: