AI绘画避坑指南与常见问题解决

AI绘画避坑指南与常见问题解决

我玩AI绘画两年多了,从最早的NovelAI到后来的Stable Diffusion,再到Flux和各种国产模型,踩过的坑比画过的图都多。这篇文章不是那种"最全教程",就是单纯把我反复遇到的问题和真实的解决方式整理出来。既然是个人经验,有偏颇的地方很正常,欢迎指正。

先从所有人都会遇到的那个老大难问题开始说起。

手,真的很难画

你应该看过那些梗图——六根手指的手、融在一起的手掌、像章鱼触手一样的指头。这是我见过新人吐槽最多的问题,也是我认为最需要心平气和接受的一个现实:AI画手就是不行,短期内也不会彻底行

这不是你的提示词写得不好,也不是你选的模型差。根本原因是手这种东西,骨骼、关节、指甲、皮肤的褶皱,细节太多了,而且手的姿态千变万化,从背后看、握拳、拿东西、弹手指,每一种角度对AI来说几乎是完全不同的东西。训练数据里手的标注质量也参差不齐,导致模型很难学到一个统一的结构。

那怎么办呢?靠提示词能改善一些,但别指望靠提示词根治。我常用的负面提示词里有这些:

bad hands, extra fingers, missing fingers, fused fingers, 
mutated hands, deformed hands, poorly drawn hands

正面也会带上 perfect hands, detailed hands 之类的词。这样做了之后,大概能从"每张图都出问题"降到"偶尔出问题"。但"偶尔"就意味着你还是要挑。

我真正依赖的方法是局部重绘(Inpaint)。流程是这样的:先把整张图画出来,手丑就丑着,没关系。然后单独把手那个区域选中,用稍高一点的重绘幅度(我一般0.5到0.65之间),专门针对手重绘。有时候一次不行就两次,两次不行换个seed再来。这个过程听起来麻烦,但实际上习惯了也就几十秒的事,能省大量时间。

还有一个容易被忽略的细节:构图上让手尽量不那么显眼。手藏进口袋里、背在身后、拿着什么东西自然垂着,都比两只手张开对着镜头要安全得多。这不是在回避问题,这是在合理利用AI的能力边界。

如果真的对手的要求很高,比如需要画拿戒指的特写或者弹钢琴的场景,OpenPose配合ControlNet是我目前知道最靠谱的方案。先用骨架把手的姿态定下来,再让AI在这个结构内填细节,起码不会出现六根手指这种离谱情况。

脸崩:不止是丑,是诡异

手的问题虽然普遍,但脸崩了才是真正让人不舒服的那种。

AI生成的人脸出问题,常见的有几种:大小眼、五官不对称、笑容僵硬得像个面具,还有一种最诡异的——明明哪里单独看都还行,但组合在一起就是让人后背发凉。

我观察下来,多人场景是脸崩的重灾区。一张图里两三个人,总有一张脸特别奇怪。原因是多人图像里,AI的注意力要分散到每个人身上,结果就是没人分到一个完整的审美。所以如果你特别在意人脸,尽量别让画面里有太多人。单人特写远比三人合照容易出好效果。

人脸修复工具我是离不开的。CodeFormer我用得最多,权重在0.5到0.7之间效果比较自然。0.7以上容易把脸修成千篇一律的网红脸,失去了原本的风格和细节。有两个脸坏了就修两个,一个一个来,别一股脑全选上,修复质量会好很多。

还有一个感觉有效的做法:正面角度的脸比侧面和大角度仰拍要安全。不是说侧面一定崩,只是出问题的概率确实更高。如果你的构图需要一个特别刁钻的角度,做好心理准备,可能需要多试几次。

分辨率方面,很多人忽略了一点:如果基础图太小,脸上的细节根本没空间展开。你给它512x512的画布让它画人脸特写,那效果当然模糊。一般我是在正常尺寸下出图,然后用Hires. fix放大1.5倍左右,人脸细节会明显好一档。

多出来的头、多出来的胳膊

这个问题我第一次遇到的时候以为自己提示词写错了,反复检查了一遍又发现没写错。后来才知道,这根本就是AI出图的一个"经典特性"。

额外肢体、多头多臂,这两年在社区里有个专门的叫法,有时候管这类图叫"阿凡达"或者直接用英文的"extra limbs"。这东西在高分辨率出图时出现的概率明显更高,尤其是SD1.5系列的模型。我自己的经验是,用SD1.5的时候,尺寸一旦超过768像素一条边,就开始容易出这个问题。SDXL好一些,但也只是"好一些",不是"没有了"。

所以我的习惯是:永远先在小尺寸下确认构图没问题,再用放大手段提高分辨率。Hires. fix、Tiled Upscaler、甚至先出一张小图再送去图生图放大,这些流程看起来很繁琐,但能有效避开这个坑。

负面提示词里我也常年放着这些:

extra limbs, extra arms, extra legs, mutated, disfigured, 
bad anatomy, malformed limbs

说实话这堆词对改善有一定帮助,但远不如控制分辨率来得直接。我要是能只给你一条建议,那就是:别直接跑出大图来。

多人场景的结构问题,OpenPose是个利器。它在多人姿态控制上真的好用。给骨架图喂进去,让AI在骨架约束下填充血肉,四肢出错的概率会大幅下降。唯一的代价是准备骨架图要额外花点时间。

画面里的循环和复制

有时候画背景或者密集的图案,比如一群飞鸟、一排建筑、一片花海,会发现有种诡异的同质感——鸟长得一样、建筑完全对称、花朵像复制粘贴出来的。

这也是高分辨率下容易出的问题。缩小尺寸出图,然后放大,就能在很大程度上缓解。甚至有的采样器也有关联,我体感上Euler a在画大范围重复元素的时候表现会差一些,DPM++ 2M Karras会好不少,但这个不太确定是不是心理作用。

还有一种情况是你在提示词里说"A group of different people",结果AI还是给你画了一堆长得很像的人。这时候可以试试加上

diverse, varied, different faces, different outfits, unique

但坦白讲,AI在"多样性"这件事上的能力一直是有限的,尤其同一个场景里的多个角色。如果多样性是你画面里特别重要的元素,可能需要做好后期修补的准备。

颜色太炸了,像霓虹灯

这个问题在某些模型上尤其严重。一些偏重二次元或者插画的模型,默认的色彩倾向就是高饱和度高对比度,出来的图颜色特别"炸"。

最直接的调控手段是降低CFG值。CFG(Classifier Free Guidance,指导强度)控制的是AI对你提示词的"听话"程度。你给它7它就使劲体现你的要求,给它5它就自由发挥多一点。有趣的是,降低CFG往往能让色彩更自然,不那么极端。我从7降到5.5的时候,明显感觉到色彩"收"了很多。

另外也可以在提示词里加入具体的色彩方向,比如

muted colors, natural color palette, soft lighting

或者反过来在负面提示词里排除掉你不想要的:

over saturated, neon, garish, too vibrant

VAE也有影响。模型自带的VAE和单独加载的VAE,出来的色彩风格可能差别挺大。如果你觉得某张图颜色总是不对,换个VAE试试,有时候问题一下子就有了方向。

当然,最专业的做法还是在后期微调。我不是说一定要打开PS大修,但如果一张图什么都好就是色彩差那么点意思,轻微的色相/饱和度调整可能比重新出一张图的效率高得多。

提示词扔进去没用,AI装聋

这可能是最让人抓狂的情况了:你明明写了"蓝色头发",AI给你红色。你反复强调"不要戴帽子",AI偏偏画一顶帽子。

先不说模型本身能力的问题,提示词的写法本身就有很多讲究。位置是第一个影响因素。Stable Diffusion这种模型,对提示词的前面部分的关注度会比后面的更高。如果你写了一大段,最重要的内容放在最后面,它的存在感自然就弱了。

第二个是权重。SD支持用 (blue hair:1.3) 这种写法来提升权重,或者用 ((blue hair)) 来快速加权。但不是加的越高越好,权重太高的话反而会产生奇怪的伪影,一般1.3到1.5就差不多了。

第三点我觉得很关键,但经常被忽略:提示词之间是会互相打架的。你同时写"清晨"和"星空",同时写"极简主义"和"巴洛克装饰",同时写"超现实"和"摄影级写实",AI两边都想要,结果出来一个两边都不像的东西。这不是AI没听懂,是它听了两个矛盾的要求,无法同时满足。

遇到某个概念怎么都出不来,可以查查你用的模型有没有覆盖到那个领域。有些模型在服装设计上很强但风景不行,有些擅长日本动漫风格但画不好欧洲古典油画。找不到合适的概念,换模型或者加对应领域的LoRA,有时候比死磕提示词靠谱得多。

风格跑偏:说好的新海诚呢

风格控制是个挺微妙的话题。

我在社区里见过很多人写提示词是这样写:"宫崎骏风格、梵高笔触、赛博朋克光影、吉卜力色调"。这么多风格词放在一起,AI根本不知道你要什么。风格词最好控制在两个以内,一个主风格+一个辅助修饰就够了。

位置也有讲究。如果要强调风格,就放在提示词最前面。Makoto Shinkai style, a girl standing under cherry blossoms, soft light 大概率比把风格放在最后效果更好。

艺术家名字有时候比风格描述更精准。by Greg Rutkowski 远比 digital art style 更有效,因为模型在训练阶段见过这位画家的真迹,手上有具体可用的视觉模式来参照。而"数字艺术风格"这四个字太宽了,AI不知道该给你哪个方向的数字艺术。

但要说风格控制最靠谱的手段,还是LoRA。一个训练得当的风格LoRA,比任何文字描述都强。我之前用过一个专门模仿某个画师风格的LoRA,出来的效果跟手动堆提示词完全是两个层次。唯一的门槛是你得找到质量好的LoRA,Civitai上一眼看上去很好看的preview,下下来用也未必都好,需要试。

图为什么总是糊的

画质问题分几种情况。

一种是整体模糊、细节不够。这种一般是步数太低或者没开高分辨率修复。步数低于20出图会明显粗糙,我现在一般跑30步左右——再往上收益就很小了。Hires. fix我一般会开,放大1.5倍、重绘幅度0.3到0.4这个区间是个比较稳的起点,超过0.5容易让画面走样。

还有一种是整张图都有种"塑料感",像游戏里的低模渲染。这个跟模型本身的风格倾向关系很大,有些模型天然就是这种塑料质感。有时候加一些视觉品质词会有帮助——masterpiece, best quality, ultra detailed, sharp focus——但也别太指望这些能弥补一个模型本身的能力上限。

高分辨率修复 + 足够的步数 + 正确的采样器 是出好画质的铁三角。采样器我用DPM++ 2M Karras最多,稳定,出图质量也过得去。DPM++ SDE Karras据说细节更好,但跑起来慢一些,我偶尔用。

最后说几句心态上的事

两年下来我最大的感受是:AI绘画的"坑"很多时候不是技术问题,而是预期问题

我们带着对"AI能画得跟人类一样好"的预期去用,然后发现手还是画不好、复杂的结构还是会崩、提示词有时候就是不听话——然后就觉得AI很差劲。但如果把它理解成一个在某些方面很强但在另一些方面有明显短板的工作伙伴,很多东西就没那么让人沮丧了。

我现在的习惯是,每出一张图,先快速扫一眼:手有没有问题、脸有没有崩、有没有多余的肢体、颜色是不是看起来舒服。第一时间发现问题,趁seed还是热乎的就修,比全部画完再回头一张一张改要高效得多。

还有,别等到技术完美了才去创作。手画得不好可以修,脸崩了可以用工具救,颜色不对能后期调。一张构图和想法都很好只有一点小瑕疵的图,远比一张技术完美但毫无灵魂的图有价值。

工具在变,模型也在变,也许明年这些问题里的一大半就不再是问题了。但至少到今天,这些踩坑总结还是管用的。希望对你有帮助。