首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >Stable Diffusion：全能开源AI绘图模型，覆盖图像生成、编辑与风格创作

Stable Diffusion：全能开源AI绘图模型，覆盖图像生成、编辑与风格创作

来源：互联网时间：2026-06-11 13:05:55

一、Stable Diffusion是什么

说到AI绘画，

Stable Diffusion

是一个绕不开的名字。它由慕尼黑大学计算机视觉与学习实验室（CompVis）联合 Stability AI、Runway ML 共同开发，是一个

开源潜在扩散模型

（Latent Diffusion Model, LDM），专门用来搞文本生成图像、图像编辑这些多模态视觉创作。代码托管在 GitHub 上，是最早一批实现

轻量化、可本地部署

的开源文生图大模型。可以说，它把AI绘画的门槛彻底拉了下来。

这个项目脱胎于论文 High-Resolution Image Synthesis with Latent Diffusion Models，训练数据来自海量公开图文数据集。和传统的扩散模型相比，它最大的改进就是把图像运算搬到了隐空间里，算力消耗大幅降低。自开源以来，衍生出的插件、UI客户端、二次开发项目数不胜数，如今已经成为AI绘画领域的

底层标杆框架

，个人创作、设计行业、内容生产……都能看到它的影子。

Stable Diffusion 的核心逻辑其实不复杂，分两大步：

正向扩散
：往一张原图里不断加高斯噪声，直到图像细节全被抹掉，变成一堆纯噪声。
逆向扩散
：拿文本提示词（Prompt）、参考图像这些当条件，一步步把噪声去掉，还原出一张符合描述的全新图像。

关键的区别在于，它不是直接在像素级别上做运算——那太吃算力了。Stable Diffusion 通过

编码器

先把高清图像压缩到低维隐空间，所有加噪、去噪都在这个“精简版”空间里完成，运算量直接降了两个数量级。普通消费级显卡就能跑，这也是它能快速普及的根本原因。

项目源码里包含了完整的训练代码、推理代码、预训练模型权重、示例脚本，开发者可以二次开发、微调模型、拓展功能；普通用户也有纯可视化的方案，兼顾了

技术开发

和

大众创作

两类人群。

二、功能特色

Stable Diffusion 原生集成了多项图像生成和编辑能力，加上开源生态的加持，功能列表相当亮眼：

文生图（Text to Image）
：输入一句自然语言描述，自动生成对应风格、构图、内容的原创图像，中英文都支持。
图生图（Image to Image）
：上传一张参考图，配合文字指令修改风格、元素、构图，原图的基础轮廓可以保留。
图像修复（Inpainting）
：框选图像的某个区域，重新生成那里的内容，修瑕疵、换元素、补画面都行。
图像超分/降噪
：配合拓展模型可以实现图片放大、去除噪点、提升清晰度。
自由分辨率生成
：原生支持 512×512 标准分辨率，参数调一调就能适配不同尺寸的画面。
模型可定制微调
：开发者可以拿自己的数据集训练专属 LoRA、Embedding、大模型权重，做出垂直领域的专属绘图模型。
跨平台运行
：Linux、Windows、macOS 都支持，云端服务器、本地 GPU、低配显卡（开了显存优化）都能跑。
开放接口调用
：提供 Python 代码接口，可以嵌入网站、软件、小程序，把 AI 绘画能力集成进去。

三、技术细节

3.1 整体架构

Stable Diffusion 的架构很清晰，三个核心模块串联完成图文转图像的任务：

CLIP 文本编码器

用的是 CLIP ViT-L/14 模型，作用是把用户输入的自然语言提示词转化成模型能识别的
文本语义向量
，建立文字和视觉特征的映射。它只负责语义解析，不参与图像生成。
VAE 变分自编码器

分编码器（Encoder）和解码器（Decoder）。编码器把像素空间里的图像压缩成
低维隐向量
，降低计算维度；解码器则把隐空间生成的向量还原成可视的像素图像，是隐空间和图像空间之间的转换枢纽。
UNet 去噪网络

整个模型的核心生成模块，参数体量最大。它接收文本向量和隐空间噪声图像，通过多层网络迭代完成
逆向去噪
，一步步入生成符合文本描述的隐空间图像。

3.2 核心参数与硬件要求

硬件配置参考表

运行场景	最低显存	推荐显存	系统环境	补充说明
基础推理（512×512）	4GB（启用显存优化）	8GB+	Windows/Linux	仅文生图、图生图基础功能
正常全功能使用	8GB	10GB~12GB	Windows/Linux	支持 Inpainting、多插件
模型训练/微调	12GB	16GB+	Linux 优先	训练 LoRA、全模型微调

3.3 核心技术原理要点

隐空间计算

传统扩散模型直接在像素空间里算，一张 512×512 的图像数据量巨大，算力开销大到吓人。Stable Diffusion 通过 VAE 把图像压缩到
1/8 尺寸的隐向量
，计算量直接降了两个数量级——这才是它能本地运行的核心技术突破。
扩散迭代步数

默认步数是 20~50 步，步数越高画面细节越丰富，但耗时也越长；步数太低画面会模糊、元素乱跑，可以根据需求灵活调整。
引导强度（CFG Scale）

控制
文本提示词对图像的约束力度
。数值越高，图像越贴合文字描述；数值低了，模型就开始自由发挥，画面和提示词偏差变大。常规使用取 7~12 比较稳。

3.4 代码结构简述

项目仓库代码用 Python 写，依赖 PyTorch、Transformers、Diffusers 等主流 AI 库，核心目录分工很明确：

stable-diffusion/
├── configs/        # 模型配置文件、参数配置
├── models/        # UNet、VAE、CLIP 等核心网络代码
├── scripts/        # 推理、训练、图生图、修复等执行脚本
├── utils/            # 工具函数、数据处理、显存优化
└── main.py        # 项目主入口文件

Stable Diffusion：全能开源AI绘图模型，覆盖图像生成、编辑与风格创作

四、应用场景

Stable Diffusion 开源、灵活、成本低，覆盖了

个人创作、商业设计、工业生产、内容文娱

几乎全场景。主流应用大概分这几类：

艺术与插画创作

插画师、原画师拿来快速出草图、画概念图、做动漫插画和二次元人设，效率提升明显，也能做艺术风格试验。
商业平面设计

海报、电商主图、宣传物料、LOGO 辅助图形、包装设计，快速出多版方案，设计成本降不少。
游戏与影视行业

场景原画、角色设定、影视分镜、概念场景绘制，辅助美术团队做前期创意工作。
自媒体与内容创作

短视频封面、公众号配图、图文素材、表情包，批量生成配图，满足高频出图需求。
工业与建筑设计

建筑效果图、室内设计方案、工业产品概念渲染，快速把设计思路可视化。
教育与科研

AI 算法学习、扩散模型原理教学、计算机视觉课题研究，开源代码本身就是优质学习案例。
二次开发与产品集成

开发者把模型封装成在线绘图网站、桌面软件、小程序、APP，对外提供 AI 绘画服务。

五、使用方法

Stable Diffusion 的使用方式分两种：

原生代码运行

和

可视化客户端运行

。前者面向开发者，后者面向普通用户。

5.1 前置环境准备

基础依赖：Python 3.8~3.10、PyTorch、CUDA（NVIDIA 显卡）
必备文件：项目源码、官方预训练权重文件（.ckpt/.safetensors 格式）

5.2 方式一：原生命令行运行（开发者）

克隆官方代码仓库

git clone https://github.com/CompVis/stable-diffusion.git
cd stable-diffusion

安装项目依赖

pip install -r requirements.txt

把预训练模型权重放到指定目录，执行文生图脚本

python scripts/txt2img.py --prompt "a beautiful landscape"

执行完，生成的图像会自动保存到项目输出文件夹里。

5.3 方式二：可视化客户端运行（普通用户，主流方案）

原生命令行对普通用户不太友好，好在市面上有很多基于该项目衍生的可视化 UI。以

AUTOMATIC1111 Stable Diffusion WebUI

为例，通用步骤如下：

下载 WebUI 客户端和模型权重；
双击启动程序，自动加载环境和模型；
在文本框输入
正向提示词
（画面内容和风格）和
反向提示词
（要规避的瑕疵、不良元素）；
设置分辨率、迭代步数、CFG 强度等参数；
点击生成按钮，等几秒钟就能拿到图像了。同时支持图生图、局部修复等功能切换。

六、竞品对比

来看看它在市面上到底处于什么位置。选取当下最主流的三款文生图模型——Stable Diffusion、Midjourney、DALL·E 3，从开源性、部署方式、画质、使用成本、定制能力几个维度做个全面对比。

对比维度	Stable Diffusion	Midjourney	DALL·E 3
开源属性	完全开源，代码、权重公开	闭源，不公开代码和权重	闭源，仅开放 API 调用
部署方式	本地部署、服务器部署、云端部署	仅在线使用（Discord/官网）	在线调用、API 对接
硬件要求	消费级显卡就能本地跑	不需要本地显卡，纯云端运算	不需要本地显卡
使用成本	一次性部署，本地用免费	按月订阅付费	按调用次数计费/整合进订阅服务
自定义能力	极强，支持模型微调、LoRA、插件拓展、二次开发	弱，只能调提示词，不能自定义模型	较弱，只能调基础参数和提示词
画面风格	风格多样，全靠模型和插件，写实、二次元、艺术风全覆盖	艺术质感强，氛围感和光影表现顶尖	语义理解精准，贴合文字描述，写实风表现优秀
适用人群	开发者、设计师、深度创作用户、团队部署	普通创作者、艺术爱好者	普通用户、办公配图、轻量创作

七、常见问题解答

Q：Stable Diffusion 运行时报显存不足怎么办？

A：可以开启显存优化模式，比如启用 xformers 加速、低显存模式、CPU 内存分流等配置；同时适当降低生成图像的分辨率和迭代步数，低配显卡也能正常运行基础功能。

Q：生成的图像和输入的提示词差距很大是什么原因？

A：原因主要有三个：一是 CFG 引导强度数值太低，文本约束力不够；二是提示词描述太模糊、语义混乱，模型没法精准理解；三是用的模型权重偏向特定风格，和描述内容不匹配。可以试试换权重或者优化提示词。

Q：Stable Diffusion 可以商用吗？

A：官方权重遵循 CreativeML OpenRAIL M 协议，在遵守协议规范、做好内容安全管控的前提下，支持个人和企业商业使用。二次训练的衍生模型需要同步遵循对应的开源协议。

Q：新手入门用原生代码还是可视化客户端？

A：纯创作、没代码基础的新手，优先选 AUTOMATIC1111 这类可视化 WebUI；如果想学模型原理、做二次开发、训练模型，那就从原生代码入手。

Q：模型权重文件 .ckpt 和 .safetensors 有什么区别？

A：两者都是模型权重格式。.ckpt 是传统格式，存在安全风险；.safetensors 是安全格式，杜绝恶意代码嵌入。现在主流社区都推荐用 .safetensors 格式。

Q：为什么相同的提示词，每次生成的图片都不一样？

A：扩散模型生成过程自带随机噪声因子。在不固定随机种子（Seed）的情况下，每次初始噪声不同，最终图像自然也就不同。固定种子后，用相同参数就可以复现完全一样的图像。

八、相关链接

GitHub仓库地址：https://github.com/CompVis/stable-diffusion
论文原址（Latent Diffusion Models）：https://arxiv.org/abs/2112.10752

九、总结

Stable Diffusion 作为开源潜在扩散模型的标杆项目，靠隐空间运算这个核心技术突破，打破了高端 AI 绘画模型对超高算力的依赖和闭源收费的行业现状。普通用户和中小团队都能低成本拥有专业级的图像生成能力。项目代码模块化、拓展性强，本身就是一个优秀的文生图工具，更带动了一个庞大的上下游生态——可视化客户端、专属模型、插件、微调工具……各种衍生产品层出不穷。它同时照顾了普通创作者的使用需求和技术人员的开发需求，应用场景从艺术设计、内容生产到行业赋能、技术学习都有覆盖。直到今天，它依然是 AI 视觉生成领域最核心、使用最广泛的底层框架之一。

Stable Diffusion：全能开源AI绘图模型，覆盖图像生成、编辑与风格创作

一、Stable Diffusion是什么

Stable Diffusion

开源潜在扩散模型

轻量化、可本地部署

底层标杆框架

正向扩散

逆向扩散

编码器

技术开发

大众创作

二、功能特色

文生图（Text to Image）

图生图（Image to Image）

图像修复（Inpainting）

图像超分/降噪

自由分辨率生成

模型可定制微调

跨平台运行

开放接口调用

三、技术细节

3.1 整体架构

CLIP 文本编码器

文本语义向量

VAE 变分自编码器

低维隐向量

UNet 去噪网络

逆向去噪

3.2 核心参数与硬件要求

硬件配置参考表

3.3 核心技术原理要点

隐空间计算

1/8 尺寸的隐向量

扩散迭代步数

引导强度（CFG Scale）

文本提示词对图像的约束力度

3.4 代码结构简述

四、应用场景

个人创作、商业设计、工业生产、内容文娱

艺术与插画创作

商业平面设计

游戏与影视行业

自媒体与内容创作

工业与建筑设计

教育与科研

二次开发与产品集成

五、使用方法

原生代码运行

可视化客户端运行

5.1 前置环境准备

5.2 方式一：原生命令行运行（开发者）

5.3 方式二：可视化客户端运行（普通用户，主流方案）

AUTOMATIC1111 Stable Diffusion WebUI

正向提示词

反向提示词

六、竞品对比

开源属性

部署方式

硬件要求

使用成本

自定义能力

画面风格

适用人群

七、常见问题解答

Q：Stable Diffusion 运行时报显存不足怎么办？

Q：生成的图像和输入的提示词差距很大是什么原因？

Q：Stable Diffusion 可以商用吗？

Q：新手入门用原生代码还是可视化客户端？

Q：模型权重文件 .ckpt 和 .safetensors 有什么区别？

Q：为什么相同的提示词，每次生成的图片都不一样？

八、相关链接

九、总结

相关阅读

相关下载