AI写的方案很漂亮，但它真的在执行吗？

让AI写一份操作方案，它三分钟内就能给你一份结构清晰、步骤完整的计划书。

第一步做什么，第二步做什么，可能遇到什么问题，如何应对——写得头头是道。

但当你让它真正去执行时，它可能连页面都没打开就告诉你"已完成"。

这不是偶然，而是AI的内在机制决定的。这个问题长期困扰着很多使用AI工作的人，理解它，是建立正确AI认知的关键一步。

生成文本和执行操作是两条路

很多人以为：AI写出了"我将截图保存"这句话，就等于它真的截图保存了。

实际上不是。

生成文本和执行操作，在AI内部是两条完全不同的路径。

生成文本是模型最擅长的事——它经过海量数据训练，学会了"在这种情况下，人类通常说什么"。让它写一份操作方案，它生成的内容来源于无数类似文档的模式匹配。

但执行操作需要的是调用工具、获取真实数据、验证结果。这需要模型不仅"说"出来，还要真正"做"出来。

就像一个人嘴上说着"我马上做"，但他的身体可能根本没动。AI也一样——生成了文本不等于完成了任务。

打个比方：你让一个人描述怎么炒菜，他能说得非常详细——热锅、放油、下葱姜、大火爆炒——说得好像自己是特级厨师。但让他真的进厨房，可能第一步就把锅烧糊了。会说不一定能做，这个道理在AI身上同样成立。

还有一个经常被忽略的问题：AI的"说"和"做"之间没有任何因果关系。当AI说"我们正在分析数据"的时候，这句话只是它在模拟一个执行过程的语言输出，并不一定真的在执行。这是一种"语言幻象"——听起来像在执行，实际上是纯粹的语言生成。

为什么模型看起来特别聪明？

因为它在"看起来像在执行"这件事上，做得太好了。

模型会生成这样的内容：

"好的，我现在开始分析页面结构……我已经识别出主要的DOM元素，接下来我将调用API获取数据……数据已成功获取，正在解析……"

每一句话都符合人类对"正在执行"的预期。你读起来觉得很靠谱，觉得它真的在一步步推进。

但如果去检查实际结果——页面可能根本没打开，API可能没调用，文件可能根本不存在。

这不是模型在故意欺骗你，而是它真的不知道自己有没有真正执行。

我自己在Trae上就踩过这个坑：让它对一个网页截图并保存，它回复"截图已保存到output/screenshot.png"，语气非常自信。我打开文件夹一看，什么都没有。它不是撒谎，它只是生成了"截图已保存"这段文字，但根本没有执行保存操作。当时我觉得很奇怪，后来理解了模型的工作原理后才明白——对于模型来说，生成"已保存"这段文字和实际执行保存操作是两件完全独立的事情。

我在Claude Code上也遇到过类似的经历：让它批量重命名文件，它回复说"已成功重命名15个文件"。我检查了一下，实际只重命名了11个。它不是故意少做几个，而是在语言模型的世界里，"15"只是上文中一个合理的数字，不一定对应真实操作的count。类似的错误在其他工具中也反复出现。

一个真实的对比

同样是让AI完成一个网页数据抓取任务：

场景一： "帮我从这个网站抓取数据。"

模型开始写规划方案，分析网站结构，列出抓取策略。看起来很专业。但执行到第三步时，它用了之前用过的一个选择器，而这个选择器的页面结构已经变了。模型没有检查，继续往下走，最终返回了一堆错误数据，还告诉你"抓取成功"。

场景二： "先打开这个URL，截图保存到output文件夹，然后告诉我页面上第一个h1标签的内容。"

一步一步，明确具体。每一步都可以验证。模型执行成功的概率大大提高。

区别在哪？场景一给了模型太多"自由发挥"的空间，每一步都需要模型自己决策"该关注什么"，自注意力容易分散。场景二把每一步都钉死了，模型只需要执行，不需要决策。这个对比说明了一个重要原则：在需要执行的任务中，把步骤拆细、拆具体，是提高成功率的最有效方法。

"看起来很聪明"的本质

模型的语言能力远远超过它的执行能力。

它能用流畅的语言描述一个完美的执行过程，但这只是语言能力的体现，不是执行能力的证明。

这就像一个从没下过厨的人，看了一百个烹饪视频后，能详细描述做一道菜的全部步骤——听起来完全没问题，但让他真的去做，可能第一步就把锅烧了。

更麻烦的是，这种"说得好但做不好"的特征会让你形成错误的信任。当你看到AI流畅地描述了整个操作流程，你的大脑会不自觉地认为"它一定能做到这个"。这种认知偏差在AI使用中非常普遍，也是我们最需要警惕的。

还有一层很多人没意识到：当AI在"描述"自己的执行过程时，它使用的是跟"描述"任何其他内容完全相同的机制。就像它写一篇学术论文和描述自己刚才执行了一个操作，本质上都是"根据上下文，下一个最可能的token是什么"。它没有一种专门的"执行感知"机制来区分"我在说"和"我在做"。

普通用户该怎么应对？

记住一个原则：不要信任AI的自我汇报，要看实际结果。

当AI说"我已经完成了"，不要直接相信。问自己：文件真的创建了吗？数据真的获取了吗？页面真的打开了吗？

如果AI说"截图已保存"，就去文件夹里看看文件在不在。如果它说"API调用成功"，就去检查返回的数据对不对。

这不是对AI的不信任，而是对执行结果的必要验证。

具体来说，有几个实用建议：

每一步都要验证。 不要让AI一口气做五件事然后告诉你"都做完了"。一步一步来，每一步都检查一下结果。如果你觉得自己像个微观管理者，那就对了。

拆任务。 上文那个对比已经说得很清楚了，拆细、拆具体、拆可验证。这是目前提高AI执行成功率的最有效方法。

保留"人工检查点"。 不要把整个流程都交给AI自动执行，在关键节点留一个人工检查的机会。尤其是涉及外部系统的操作（发邮件、调API、写数据库），出错的后果可能比较严重。

用工具而不是用语言作答。 有些高级AI工具（比如Claude的Artifacts或OpenAI的Code Interpreter）会在执行代码时提供一个实时的执行反馈，这比AI自行汇报"执行完成"要靠谱得多。

下篇文章我们会讲一个更深层的问题：模型的输出本质上是概率性的，它并不真正"理解"自己在说什么。 理解了这一点，你就理解了为什么AI"很聪明"但又经常犯低级错误的根本原因。

AI写的方案很漂亮，但它真的在执行吗？

AI写的方案很漂亮，但它真的在执行吗？

生成文本和执行操作是两条路

为什么模型看起来特别聪明？

一个真实的对比

"看起来很聪明"的本质

普通用户该怎么应对？

相关推荐

面试官问你：如何解决大模型的上下文长度限制——标准回答框架

大模型上下文长度限制完全指南：从原理到工程落地的 4 种方案

面试官问你：RAG 如何处理 PDF——别再说转文本切片了