开源AI绘画工具Stable Diffusion完全指南

开源AI绘画工具Stable Diffusion完全指南

我第一次打开Stable Diffusion的WebUI界面时,有点懵。几十个参数、一堆看不懂的下拉菜单、满屏的命令行窗口在跑代码。我关掉了三次,又打开了三次。但坚持用了一个月后,我发现自己再也没有打开过Midjourney。

不是因为它更好用——事实上,Midjidence出图更快,prompt门槛更低。但Stable Diffusion给了我一种完全不同的东西:掌控感。你可以精确到每一个像素地控制生成过程,从模型、采样方法到面部修复,没有一个环节是黑盒。这种感觉一旦习惯了,就很难回去。

先说硬件这道坎

关于显卡,江湖上的传言五花八门。有人说必须4090有人说核显也能跑。实际情况在两者之间。

我自己的经历是:最初用一台老笔记本(GTX 1650 Mobile,4GB显存)跑SD 1.5,生成一张512x512的图大概要两到三分钟,偶尔还会爆显存报错。这个体验确实折磨人。但当我换了带RTX 4070的台式机之后,同样一张图大概八到十秒,而且可以跑SDXL模型。这个差距是实实在在的。

如果你只有4GB显存的显卡:完全可以用,跑SD 1.5模型没问题,只是要有耐心。关闭一切不必要的后台程序,开启WebUI设置里的medvram选项能缓解显存压力。

如果你有8GB以上显存:恭喜你,SDXL也可以流畅跑了,这是当前画质最好的一批开源模型的基础要求。

如果你没有显卡或者只有核显:Google Colab免费GPU可以跑,还有一些国内的云端部署平台。用别人的显卡,按量付费,偶尔用用还是挺方便的。

有一点要说明的是,不要纠结于"没有好显卡就不能入门"这件事。很多人被硬件门槛劝退了,但实际上前面的两个月你可能都在学模型选择、写提示词、调参数,这些对显卡要求没那么高。先上手,再升级硬件也不迟。

关于安装:选整合包还是自己折腾

我一直在用整合包,中间尝试过一次手动安装原版WebUI,花了一个晚上解决各种Python环境冲突最后还是回退到了整合包。

整合包的好处就是别人把环境都配好了,下载解压点启动。我用过秋叶的整合包,做得确实不错,自带常用模型和管理器,对中文用户友好。也有人在用B站其他UP主的整合包,功能大同小异。

手动安装适合什么人?适合那种看到报错信息不慌、习惯用命令行、想第一时间用最新版功能的用户。如果你符合这个描述,去GitHub上找稳定fork出来的WebUI(比如Forge),文档写得很清楚,按步骤来大概率能成功。

我个人的看法是:大多数人应该选整合包。工具是为你服务的,不是你的主人。能用来创作就是好安装方式。

模型选择:别陷入"模型海"陷阱

这是我见过新手最容易踩的坑——疯狂下载模型。看到Civitai上新模型就下载,收藏夹里堆了几十个模型,结果每次出图前光选模型就要纠结十分钟。

我的经验是:阶段性地专注用两三个模型,比你拥有二十个模型重要得多。

Stable Diffusion 1.5时代的那些经典模型(比如realisticVision、deliberate)依然是很好的起点。它们模型体积小(2GB左右),风格成熟稳定,网上能找到大量的教程和prompt参考。

如果要画真人照片风格的东西,realisticVision我用了很久,它对亚洲人脸的处理比早期模型好太多了。

如果要画二次元风格,我在实际使用中觉得majicMIX这个系列的模型对中文用户比较友好,不需要写很长的提示词就能出来不错的二次元图。

至于SDXL的模型,画质确实上了一个台阶,但模型体积大(6GB以上),对硬件要求高,生成速度也慢一些。我建议你在SD 1.5模型用熟了之后,再迁移到SDXL,这样你能清楚感觉到提升在哪里。

有一个建议:每个模型都有自己最擅长的东西,找到它,用透它。一个模型用五百张图的经验比每个模型用十张有价值得多。

ControlNet:真正让SD变得可用的东西

如果说Stable Diffusion是一辆车,ControlNet就是方向盘和刹车。在ControlNet出来之前,用AI画指定构图的东西基本靠玄学——你写了"一个女孩站在海边望向远方",出来的可能是正面、侧面、躺着、甚至只有半张脸。

ControlNet最让我依赖的功能是OpenPose。比如你先在网上找一张参考姿势的图片,用OpenPose提取出骨骼关键点,SD就会严格按照这个姿势来生成人物。这不是"大概有点像",而是骨架级别的精确控制。

还有Canny和Depth这两个预处理器也很实用。Canny适合线稿上色——你随便画几条线,SD能把它变成一张完整的插画。Depth则能保持图片的空间层次关系,做局部修改的时候特别有用。

我自己最常用的一种组合是:用一张参考图通过Depth控制整体构图,同时用OpenPose锁定人物姿势。这样出来的第一批图就有七八成接近我想要的效果了,剩下的就是反复调整提示词和采样参数。

不要试图一次学会所有ControlNet的预处理器,先从OpenPose和Canny开始,最多加一个Depth。这三个覆盖了我平时80%的需求。

提示词:比网上教程说的复杂一点

几乎所有Stable Diffusion教程都会教你正面提示词+负面提示词的模式:正面写你想要的,负面写你不想要的。这个思路是对的,但实际用起来比教程说的复杂。

正面提示词的技巧

质量相关的tag放在前面比放在后面更有效。比如"masterpiece, best quality, highly detailed"这些放在提示词开头,比放在结尾效果更好——这不是玄学,跟模型训练时的数据处理方式有关。

具体描述优先于抽象描述。"一个穿白色亚麻衬衫的25岁亚洲女性,棕色的长卷发,在咖啡馆窗边坐着"比"一个美丽的女人在优雅的环境中"出来的图可控得多。

但也不能堆砌太多细节。提示词太长的话,模型可能会忽略部分内容或者产生奇怪的混合效果。一段提示词控制在75个token以内是个比较好的经验值。

负面提示词

每套负面提示词都有自己的风格,没有一套"万能负面词"。但有几个tag几乎是必加的:bad anatomy, bad hands, malformeed limbs。至于其他的,建议你跑出问题了再加对应的负面词。

在我看来,提示词与其说是一种"编程",不如说是一种"和模型沟通的方式"。同一个描述,换一个说法,出来的结果可能完全不同。这种体验需要大量实践才能积累感觉,没有任何教程能代替。

关于版权这件事,说几句实在话

这是我用Stable Diffusion以来被问到最多的问题。

目前的现实是:Stable Diffusion最初的训练数据集里有大量未经授权的受版权保护图片,这件事是公开的事实,也有多起相关诉讼在进行中。这是客观存在的争议。

但同时,社区里也有越来越多的完全基于授权数据训练的模型(比如Adobe明确训练数据合规的模型),这个方向在逐渐变好。

对于你生成的图片本身——我的理解是,目前大多数国家和地区的法律框架下,完全由AI生成的图片的版权归属都还在讨论中。部分地区的判例倾向于认为没有人类参与创造性决策的纯AI作品不受版权保护。

务实的建议:如果你是用AI辅助创作(比如你画了草图、选了参考图、多次迭代修改),你的创造性贡献是实际存在的,这种情况下的版权主张会强很多。如果你只是输入一行提示词然后直接用,法律上的争议就会大得多。

对于商业用途,我的态度是:可以用,但当不了核心资产。把AI图作为素材、概念图、或者配合大量人工修改后使用,是目前最稳妥的用法。用在公司Logo或者核心产品设计上?还是找正经设计师吧。

几个真正有用的实践心得

学会用XYZ图表脚本:这是WebUI自带的一个功能,可以让你批量测试不同参数组合的效果。比如你想知道哪个采样器最适合你的模型,就可以用XYZ脚本跑一组对比图,一目了然。这个功能很多人不知道,但非常实用。

善用种子(Seed):当你偶然出一张构图和感觉接近满意的图时,记下它的种子值。以此为基准微调提示词和参数,比你从头开始一张一张碰效率高得多。

别忽视图生图(img2img):很多新手只关注文生图,但实际上图生图在很多场景下更有实用价值。比如你已经有一张基础的构图,想换个风格或者调整细节,直接在图生图上修改比重画一张快十倍。

Ti和Hypernetwork了解一下:这是比LoRA更早出现的微调方式,虽然现在LoRA更流行,但Ti(Textualization Inversion)和Hypernetwork在控制风格方面依然有自己的用武之地。尤其是Hypernetwork在游戏角色设计里有不少人在用。

LoRA不要贪多:如果你想训练自己的LoRA,建议从风格类LoRA开始练习,而不是人物类。因为人物类LoRA对素材数量和多样性要求很高,新手很容易训练出不理想的结果。

最后说几句

Stable Diffusion不是万能的。它在一些方面就是不如商业工具——比如在没有ControlNet的情况下,出图的稳定性不如Midjourney;比如在易用性上被Nano Banana这类工具甩开好几条街。

但是,当你的需求变得复杂——你需要精确控制构图、需要特定角色的一致性、需要处理敏感的私人图片不想上传到云端、需要把AI出图集成到自动化流程里——Stable Diffusion就成了几乎是唯一的选择。

我建议对AI绘画感兴趣的人,花一个周末装上Stable Diffusion,随便下载一个模型,然后给自己出一个具体的任务——比如画一张自己头像的二次元版,或者给一个产品设计概念图。带着具体目标去学,比泛泛地看教程效率高得多。

这扇门一旦推开,你会发现里面是一个比想象中丰富得多的世界。