Stable Diffusion 是一种基于扩散技术的深度学习文本生成图像模型,于2022年发布。作为当前人工智能热潮的一部分,它在图像生成领域具有显著影响。

核心功能与应用

Stable Diffusion 主要用于根据文本描述生成详细图像,但它还可以应用于其他任务,如图像修复、扩展和基于文本提示的图像翻译。其开发得益于慕尼黑路德维希·马克西米利安大学的CompVis小组、Runway的研究人员,以及Stability提供的计算资源和来自非营利组织的训练数据。

技术架构

Stable Diffusion 是一种潜在扩散模型(LDM),属于深度生成人工神经网络。其代码和模型权重已公开发布,可以在大多数配备至少4GB显存的消费级硬件上运行,这与之前只能通过云服务访问的专有模型(如DALL-E和Midjourney)有所不同。

模型的架构包括三个主要部分:变分自编码器(VAE)、U-Net和可选的文本编码器。VAE 编码器将图像从像素空间压缩到更小的潜在空间,捕捉图像的基本语义意义。在前向扩散过程中,压缩的潜在表示会迭代地应用高斯噪声。U-Net 块则通过反向扩散去噪,最终由VAE 解码器生成最终图像。

模型的去噪步骤可以灵活地基于文本、图像或其他模态进行条件化。用于文本条件化的CLIP文本编码器将文本提示转换为嵌入空间。

开发历史

Stable Diffusion 起源于一个名为Latent Diffusion的项目,由慕尼黑路德维希·马克西米利安大学和海德堡大学的研究人员开发。最初的开发团队包括Robin Rombach、Andreas Blattmann、Patrick Esser和Dominik Lorenz,他们后来加入Stability AI,并发布了后续版本的Stable Diffusion。

该模型的技术许可由慕尼黑路德维希·马克西米利安大学的CompVis小组发布。开发工作由Runway的Patrick Esser和CompVis的Robin Rombach领导,他们是潜在扩散模型架构的发明者之一。

技术细节

Stable Diffusion 使用一种称为潜在扩散模型(LDM)的扩散模型,由慕尼黑路德维希·马克西米利安大学的CompVis小组开发。扩散模型的训练目标是通过去除高斯噪声来逐步生成图像,可以看作是一系列去噪自编码器。Stable Diffusion 包括三个部分:变分自编码器(VAE)、U-Net 和一个可选的文本编码器。

模型版本

  • SD XL: 这个版本使用相同的架构,但规模更大,包括更大的U-Net主干和双文本编码器。
  • SD 3.0: 这一版本使用新的架构——Rectified Flow Transformer,结合了文本和图像编码。

训练数据

Stable Diffusion 训练于LAION-5B数据集,该数据集由来自网络的公共图像和文本对组成。模型在高分辨率和美学评分较高的子集上进行训练,以确保图像质量。

模型训练

Stable Diffusion的训练使用了亚马逊AWS上的256个Nvidia A100 GPU,总计150,000 GPU小时,成本约为60万美元。SD3的训练成本约为1000万美元。

局限性与挑战

Stable Diffusion在某些场景下存在质量下降和不准确的问题。初始版本的模型训练在512×512分辨率的图像上,当用户生成不同分辨率的图像时质量会明显下降。模型在生成人体肢体和面部特征时也存在挑战,因为训练数据中缺乏代表性特征。

用户定制与个人化

用户可以通过额外训练对模型进行微调,以满足特定用例。方法包括嵌入(embedding)、超网络(hypernetwork)和DreamBooth,这些方法可以用来减少原始模型中的偏见或模仿特定的艺术风格。

生成能力与应用

Stable Diffusion 可以通过文本提示生成新图像,修改现有图像,进行图像修复和扩展。模型的图像生成脚本(如txt2img和img2img)提供了多种参数选项,用户可以调整采样类型、输出图像尺寸和种子值以实现不同的生成效果。

争议与使用问题

Stable Diffusion的开放性和自由使用权引发了一些争议,尤其是在隐私和版权问题上。2023年初,几位艺术家对Stability AI提起了版权侵权诉讼,指控其未经同意使用了艺术家的图像进行训练。同月,Getty Images也对Stability AI提起诉讼。

许可证

Stable Diffusion的源码和预训练权重均公开发布,采用Creative ML OpenRAIL-M许可证,禁止用于违法或有害目的。用户拥有生成图像的使用权,并可以自由商业化使用这些图像。

Stable Diffusion 的开发和应用标志着人工智能在图像生成领域的重要进展,同时也带来了新的挑战和争议。尽管如此,它为研究人员和开发者提供了强大的工具,推动了生成性AI技术的发展。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...