开源AI绘画工具Stable Diffusion完全指南

我第一次打开Stable Diffusion的WebUI界面时，有点懵。几十个参数、一堆看不懂的下拉菜单、满屏的命令行窗口在跑代码。我关掉了三次，又打开了三次。但坚持用了一个月后，我发现自己再也没有打开过Midjourney。

不是因为它更好用——事实上，Midjidence出图更快，prompt门槛更低。但Stable Diffusion给了我一种完全不同的东西：掌控感。你可以精确到每一个像素地控制生成过程，从模型、采样方法到面部修复，没有一个环节是黑盒。这种感觉一旦习惯了，就很难回去。

先说硬件这道坎

关于显卡，江湖上的传言五花八门。有人说必须4090有人说核显也能跑。实际情况在两者之间。

我自己的经历是：最初用一台老笔记本（GTX 1650 Mobile，4GB显存）跑SD 1.5，生成一张512x512的图大概要两到三分钟，偶尔还会爆显存报错。这个体验确实折磨人。但当我换了带RTX 4070的台式机之后，同样一张图大概八到十秒，而且可以跑SDXL模型。这个差距是实实在在的。

如果你只有4GB显存的显卡：完全可以用，跑SD 1.5模型没问题，只是要有耐心。关闭一切不必要的后台程序，开启WebUI设置里的medvram选项能缓解显存压力。

如果你有8GB以上显存：恭喜你，SDXL也可以流畅跑了，这是当前画质最好的一批开源模型的基础要求。

如果你没有显卡或者只有核显：Google Colab免费GPU可以跑，还有一些国内的云端部署平台。用别人的显卡，按量付费，偶尔用用还是挺方便的。

有一点要说明的是，不要纠结于"没有好显卡就不能入门"这件事。很多人被硬件门槛劝退了，但实际上前面的两个月你可能都在学模型选择、写提示词、调参数，这些对显卡要求没那么高。先上手，再升级硬件也不迟。

关于安装：选整合包还是自己折腾

我一直在用整合包，中间尝试过一次手动安装原版WebUI，花了一个晚上解决各种Python环境冲突最后还是回退到了整合包。

整合包的好处就是别人把环境都配好了，下载解压点启动。我用过秋叶的整合包，做得确实不错，自带常用模型和管理器，对中文用户友好。也有人在用B站其他UP主的整合包，功能大同小异。

手动安装适合什么人？适合那种看到报错信息不慌、习惯用命令行、想第一时间用最新版功能的用户。如果你符合这个描述，去GitHub上找稳定fork出来的WebUI（比如Forge），文档写得很清楚，按步骤来大概率能成功。

我个人的看法是：大多数人应该选整合包。工具是为你服务的，不是你的主人。能用来创作就是好安装方式。

模型选择：别陷入"模型海"陷阱

这是我见过新手最容易踩的坑——疯狂下载模型。看到Civitai上新模型就下载，收藏夹里堆了几十个模型，结果每次出图前光选模型就要纠结十分钟。

我的经验是：阶段性地专注用两三个模型，比你拥有二十个模型重要得多。

Stable Diffusion 1.5时代的那些经典模型（比如realisticVision、deliberate）依然是很好的起点。它们模型体积小（2GB左右），风格成熟稳定，网上能找到大量的教程和prompt参考。

如果要画真人照片风格的东西，realisticVision我用了很久，它对亚洲人脸的处理比早期模型好太多了。

如果要画二次元风格，我在实际使用中觉得majicMIX这个系列的模型对中文用户比较友好，不需要写很长的提示词就能出来不错的二次元图。

至于SDXL的模型，画质确实上了一个台阶，但模型体积大（6GB以上），对硬件要求高，生成速度也慢一些。我建议你在SD 1.5模型用熟了之后，再迁移到SDXL，这样你能清楚感觉到提升在哪里。

有一个建议：每个模型都有自己最擅长的东西，找到它，用透它。一个模型用五百张图的经验比每个模型用十张有价值得多。

ControlNet：真正让SD变得可用的东西

如果说Stable Diffusion是一辆车，ControlNet就是方向盘和刹车。在ControlNet出来之前，用AI画指定构图的东西基本靠玄学——你写了"一个女孩站在海边望向远方"，出来的可能是正面、侧面、躺着、甚至只有半张脸。

ControlNet最让我依赖的功能是OpenPose。比如你先在网上找一张参考姿势的图片，用OpenPose提取出骨骼关键点，SD就会严格按照这个姿势来生成人物。这不是"大概有点像"，而是骨架级别的精确控制。

还有Canny和Depth这两个预处理器也很实用。Canny适合线稿上色——你随便画几条线，SD能把它变成一张完整的插画。Depth则能保持图片的空间层次关系，做局部修改的时候特别有用。

我自己最常用的一种组合是：用一张参考图通过Depth控制整体构图，同时用OpenPose锁定人物姿势。这样出来的第一批图就有七八成接近我想要的效果了，剩下的就是反复调整提示词和采样参数。

不要试图一次学会所有ControlNet的预处理器，先从OpenPose和Canny开始，最多加一个Depth。这三个覆盖了我平时80%的需求。

提示词：比网上教程说的复杂一点

几乎所有Stable Diffusion教程都会教你正面提示词+负面提示词的模式：正面写你想要的，负面写你不想要的。这个思路是对的，但实际用起来比教程说的复杂。

正面提示词的技巧：

质量相关的tag放在前面比放在后面更有效。比如"masterpiece, best quality, highly detailed"这些放在提示词开头，比放在结尾效果更好——这不是玄学，跟模型训练时的数据处理方式有关。

具体描述优先于抽象描述。"一个穿白色亚麻衬衫的25岁亚洲女性，棕色的长卷发，在咖啡馆窗边坐着"比"一个美丽的女人在优雅的环境中"出来的图可控得多。

但也不能堆砌太多细节。提示词太长的话，模型可能会忽略部分内容或者产生奇怪的混合效果。一段提示词控制在75个token以内是个比较好的经验值。

负面提示词：

每套负面提示词都有自己的风格，没有一套"万能负面词"。但有几个tag几乎是必加的：bad anatomy, bad hands, malformeed limbs。至于其他的，建议你跑出问题了再加对应的负面词。

在我看来，提示词与其说是一种"编程"，不如说是一种"和模型沟通的方式"。同一个描述，换一个说法，出来的结果可能完全不同。这种体验需要大量实践才能积累感觉，没有任何教程能代替。

关于版权这件事，说几句实在话

这是我用Stable Diffusion以来被问到最多的问题。

目前的现实是：Stable Diffusion最初的训练数据集里有大量未经授权的受版权保护图片，这件事是公开的事实，也有多起相关诉讼在进行中。这是客观存在的争议。

但同时，社区里也有越来越多的完全基于授权数据训练的模型（比如Adobe明确训练数据合规的模型），这个方向在逐渐变好。

对于你生成的图片本身——我的理解是，目前大多数国家和地区的法律框架下，完全由AI生成的图片的版权归属都还在讨论中。部分地区的判例倾向于认为没有人类参与创造性决策的纯AI作品不受版权保护。

务实的建议：如果你是用AI辅助创作（比如你画了草图、选了参考图、多次迭代修改），你的创造性贡献是实际存在的，这种情况下的版权主张会强很多。如果你只是输入一行提示词然后直接用，法律上的争议就会大得多。

对于商业用途，我的态度是：可以用，但当不了核心资产。把AI图作为素材、概念图、或者配合大量人工修改后使用，是目前最稳妥的用法。用在公司Logo或者核心产品设计上？还是找正经设计师吧。

几个真正有用的实践心得

学会用XYZ图表脚本：这是WebUI自带的一个功能，可以让你批量测试不同参数组合的效果。比如你想知道哪个采样器最适合你的模型，就可以用XYZ脚本跑一组对比图，一目了然。这个功能很多人不知道，但非常实用。

善用种子（Seed）：当你偶然出一张构图和感觉接近满意的图时，记下它的种子值。以此为基准微调提示词和参数，比你从头开始一张一张碰效率高得多。

别忽视图生图（img2img）：很多新手只关注文生图，但实际上图生图在很多场景下更有实用价值。比如你已经有一张基础的构图，想换个风格或者调整细节，直接在图生图上修改比重画一张快十倍。

Ti和Hypernetwork了解一下：这是比LoRA更早出现的微调方式，虽然现在LoRA更流行，但Ti（Textualization Inversion）和Hypernetwork在控制风格方面依然有自己的用武之地。尤其是Hypernetwork在游戏角色设计里有不少人在用。

LoRA不要贪多：如果你想训练自己的LoRA，建议从风格类LoRA开始练习，而不是人物类。因为人物类LoRA对素材数量和多样性要求很高，新手很容易训练出不理想的结果。

最后说几句

Stable Diffusion不是万能的。它在一些方面就是不如商业工具——比如在没有ControlNet的情况下，出图的稳定性不如Midjourney；比如在易用性上被Nano Banana这类工具甩开好几条街。

但是，当你的需求变得复杂——你需要精确控制构图、需要特定角色的一致性、需要处理敏感的私人图片不想上传到云端、需要把AI出图集成到自动化流程里——Stable Diffusion就成了几乎是唯一的选择。

我建议对AI绘画感兴趣的人，花一个周末装上Stable Diffusion，随便下载一个模型，然后给自己出一个具体的任务——比如画一张自己头像的二次元版，或者给一个产品设计概念图。带着具体目标去学，比泛泛地看教程效率高得多。

这扇门一旦推开，你会发现里面是一个比想象中丰富得多的世界。

开源AI绘画工具Stable Diffusion完全指南

开源AI绘画工具Stable Diffusion完全指南

先说硬件这道坎

关于安装：选整合包还是自己折腾

模型选择：别陷入"模型海"陷阱

ControlNet：真正让SD变得可用的东西

提示词：比网上教程说的复杂一点

关于版权这件事，说几句实在话

几个真正有用的实践心得

最后说几句

相关推荐

last30days-skill 评测：AI 时代的情报聚合器，值得研究者的托付

last30days-skill 评测：让 AI 自己上网扒资料写报告，这工具真的靠谱吗？

微软 markitdown 评测：文档转 Markdown 的新选择