AI绘画Prompt四层结构法

我刚开始玩AI绘画的时候，经常憋半天写个提示词出来一看——画面糊成一团，主体说不清是人是鬼。后来慢慢摸索才发现，不是工具不行，是我写提示词太随意了，想到哪写到哪，最后AI也懵。比如刚开始我写"一个女孩在花园里"，出来的图要么主体太小，要么花园的元素压过了人物，要么画风完全不是我想要的。

后来我总结出一个四层写法，按照画什么、长什么样、什么画风、什么参数这个顺序来组织提示词，出图合格率确实高了不少。这篇文章把这个方法整理出来，希望能帮你少走弯路。

第一层：主体（决定画面70%的内容）

主体是你到底要画什么。 这是决定画面70%的东西，也是整个提示词的核心。

描述主体的时候别只说"一个女孩"，多说点：谁、在干嘛、在哪。"一个二十岁的亚洲女孩坐在咖啡馆窗边看书"比"一个女孩"强太多了。主体信息越清楚，AI跑偏的概率越低。

主体描述的关键要素：

人物/物体：明确画的是什么，越具体越好。不要只说"一杯饮料"，说"一杯带冰块的气泡水，杯壁有水珠"。
动作/状态：在做什么、什么表情、什么姿态。"跑步"不如"在雨中奔跑，头发湿透贴在脸颊上"。
环境/地点：在什么场景下，室内还是室外。"房间"不如"一间日式的榻榻米房间，拉门半开着"。
时间/季节：什么时间、什么季节，影响光线和氛围。"秋天的黄昏"比"傍晚"多有画面感。

常见错误： 主体描述过于模糊。"一只猫"不如"一只橘色的英短猫趴在窗台上晒太阳，眯着眼睛，尾巴垂在窗边轻轻晃动"。后者给AI的信息量大得多，出图效果自然越好。

一个技巧是：把主体描述想象成你在向一个从未见过这幅画面的朋友口头描述——你说得越具体，他的想象就越接近你的意图。

第二层：细节（决定画面质感的关键）

细节决定画面质感。 我通常从这几个角度去补充：

外观：发型、穿着、配饰、表情、年龄、体型等具体特征。比如"棕色中长发微微卷曲，戴一顶米色贝雷帽，身穿卡其色风衣"。
光线：下午的光、逆光、侧光、黄金时刻、蓝调时刻、阴天散射光等。光线描述是画面质感的关键变量。
构图：特写、中景、全景、平视、俯视、仰视、鸟瞰等。构图决定了你"从什么角度看这个画面"。
背景：虚化（浅景深）、清晰、纯色、环境背景等。背景的处理直接影响主体是否突出。
色调：暖色、冷色、高对比、低饱和、莫兰迪色系等。色调决定了画面的情绪氛围。

光线这个维度特别重要。 "下午四点金色阳光透过树叶"这种描述能一下子把画面质感拉起来。不同光线条件下拍出来的照片感觉完全不同，AI绘画也是一样。暖光给人温馨、宁静的感觉；冷光给人孤独、神秘的感觉；逆光给人物加了"光晕"，画面更有戏剧性。

构图也很重要。 同样的主体，特写和中景传达的情绪完全不同。特写更强调情感和细节（比如一只眼睛的特写，能看到瞳孔中的倒影），中景更强调环境和氛围（比如人物在一条街道中的全身镜头）。选择合适的构图能让画面更有故事感。

一个常见的错误是：背景和主体的关系没有处理好。如果主体和背景的信息量差不多，AI会不知道突出重点，出来的画面容易"平分秋色"。要让背景适当弱化——要么虚化、要么简洁、要么色调统一。

第三层：风格（定义整体视觉方向）

你最终想要什么画风？ 照片级真实、日本动漫、油画、水彩、3D渲染，这些关键词一定要有。

常见风格关键词：

摄影风格：专业人像摄影、纪实摄影、胶片摄影、航拍、微距、长曝光
绘画风格：油画、水彩、素描、国画、版画、数字绘画、色粉画
动画风格：新海诚风格、宫崎骏风格、赛博朋克、像素风、吉卜力
3D风格：写实渲染、卡通渲染、低多边形、体素风格、虚幻引擎渲染
设计风格：极简主义、包豪斯、孟菲斯设计、装饰艺术

建议：风格别堆太多，一两个就够了。 超过三个不同风格关键词，AI自己都会混乱，出来的画面四不像。如果你想融合两种风格，可以写"水彩风格的动漫人物"，而不是同时加"水彩"和"动漫"两个独立风格。让两种风格自然融合，而不是生硬地堆叠。

不同工具的画风控制也有差异。 Midjourney对风格的控制比较强，一个关键词就能明显改变画面风格。Stable Diffusion需要更具体的描述。DALL-E对"指令"的遵循度最高，适合精确控制。

第四层：参数（锦上添花的画质控制）

这一段对画质有影响，但没前面三层那么关键。加一些quality相关的关键词就行。

常用参数关键词：

画质：高清、4K、8K、超精细、杰作、最佳质量、超分辨率
细节：高细节、精细纹理、锐利焦点、精细渲染、照片级真实
负面提示词：避免画面出现的元素，如"模糊、变形、低质量、水印、畸形手、多余肢体"

负面提示词很重要。 很多新手只写正面提示词，忘了加负面提示词。适当的负面提示词能有效避免画面中出现扭曲变形、多余肢体、模糊等问题。特别是"畸形手"这个问题——在AI绘画中非常常见，加上"手的解剖结构正常、无多余手指"这样的负面提示词能显著改善效果。

但是负面提示词也不要堆太多。 3-5个核心负面提示词就够了。堆太多反而可能导致画面过于"受限"，丧失了AI生成的自然感。

完整示例

拿画一幅人像摄影举例：

主体： 二十岁中国女性站在秋日的银杏树林里，风吹头发，微微抬头看着飘落的树叶
细节： 棕色中长发，米色风衣，手里捧着一本打开的书。下午金色阳光透过树叶洒落，电影级中景构图，浅景深背景虚化，暖调
风格： 专业人像摄影风格，富士胶片质感
参数： 高清锐利，最佳质量，精细纹理，无变形无模糊

这么一套下来，主体是什么、长什么样、什么画风，层级清晰，AI也处理得明明白白。

再举一个非人像的例子——画一幅风景：

主体： 一座雪山下的高山湖泊，湖面上有薄雾
细节： 雪山上有积雪和冰川，湖边是针叶林和碎石滩。清晨第一缕阳光照亮山顶，湖面平静如镜。低角度广角构图，天空占画面三分之一
风格： 国家地理杂志摄影风格
参数： 超高清，高动态范围，精细渲染，无失真

新手常犯的错误

只有主体没有细节：画面出来很廉价，缺乏质感和氛围。比如"一只猫坐在窗台上"——这能出图，但画面平平无奇。加上光线、色调、构图的描述，画面才能活起来。
风格写了一堆互相矛盾的东西：比如同时写"写实"和"卡通"，AI会困惑。如果你想要"卡通风格的写实渲染"，就用"卡通渲染（Cel Shading）"这样的专业术语。
忘了加负面提示词：画面容易出现扭曲变形、多余肢体、模糊。负面提示词是AI绘画的"护栏"，虽然不是每一张图都需要，但加了总比不加强。
提示词太长或太短：太短信息不足，太长AI抓不住重点。控制在50-150个词最佳。如果提示词特别长，可以加权重标注（比如用括号括起来的词权重更高）。
忽视光线和构图：这两个维度对画面效果影响极大，不要跳过。一张好的AI绘画，光线和构图往往比风格更重要。
期望一次就出好图：AI绘画是一个迭代的过程。第一版不满意很正常，调整关键词、换一个种子值、微调构图描述——多试几次，会得到满意的结果。
忽视种子值（Seed）：如果你找到了一张接近你意图的图片，记下它的种子值，在此基础上微调提示词，比从头开始更容易得到满意的结果。

练习建议

方法说起来不复杂，关键是多练。先从把主体描述清楚开始，慢慢加上光线、构图、风格，一步一步来。

建议每次出图都记录下提示词和效果，对比分析哪些关键词效果好，哪些没用。积累一段时间你就会形成自己的提示词库，出图效率会大幅提升。

一个具体的练习计划：

第一周：只练主体描述。针对同一个画面，写出不同长度和精度的主体描述，对比出图效果。

第二周：在第一周的基础上加入光线和构图。体会不同光线方向和构图角度对画面的影响。

第三周：加入风格参数。对同一个画面尝试不同风格，找到你最喜欢的画风。

第四周：学习使用负面提示词。对比加不加负面提示词的效果差异，总结哪些负面提示词在你的常用场景中最有用。

推荐的工具和资源：

Midjourney：画风控制强，适合风格化创作
Stable Diffusion（WebUI）：高度可控，适合精细化调整
DALL-E：对提示词遵循度高，适合精确控制
Leonardo.ai：免费额度较多，适合新手练习

一个进阶技巧：使用图像提示（Image Prompt）。 很多AI绘画工具支持上传一张参考图，AI会以这张图为基础创作新画面。如果你脑海中有一张"接近自己想要的效果"的图，可以用它作为参考。

用不了多久你会发现AI绘画没你想的那么玄学，掌握了方法之后，出图合格率会有质的飞跃。关键就是：层级清晰、信息充分、风格统一、持续迭代。

AI绘画Prompt四层结构法

AI绘画Prompt四层结构法

第一层：主体（决定画面70%的内容）

第二层：细节（决定画面质感的关键）

第三层：风格（定义整体视觉方向）

第四层：参数（锦上添花的画质控制）

完整示例

新手常犯的错误

练习建议

相关推荐

面试官问你：如何解决大模型的上下文长度限制——标准回答框架

大模型上下文长度限制完全指南：从原理到工程落地的 4 种方案

面试官问你：RAG 如何处理 PDF——别再说转文本切片了