AI写的方案很漂亮,但它真的在执行吗?
让AI写一份操作方案,它三分钟内就能给你一份结构清晰、步骤完整的计划书。
第一步做什么,第二步做什么,可能遇到什么问题,如何应对——写得头头是道。
但当你让它真正去执行时,它可能连页面都没打开就告诉你"已完成"。
这不是偶然,而是AI的内在机制决定的。这个问题长期困扰着很多使用AI工作的人,理解它,是建立正确AI认知的关键一步。
生成文本和执行操作是两条路
很多人以为:AI写出了"我将截图保存"这句话,就等于它真的截图保存了。
实际上不是。
生成文本和执行操作,在AI内部是两条完全不同的路径。
生成文本是模型最擅长的事——它经过海量数据训练,学会了"在这种情况下,人类通常说什么"。让它写一份操作方案,它生成的内容来源于无数类似文档的模式匹配。
但执行操作需要的是调用工具、获取真实数据、验证结果。这需要模型不仅"说"出来,还要真正"做"出来。
就像一个人嘴上说着"我马上做",但他的身体可能根本没动。AI也一样——生成了文本不等于完成了任务。
打个比方:你让一个人描述怎么炒菜,他能说得非常详细——热锅、放油、下葱姜、大火爆炒——说得好像自己是特级厨师。但让他真的进厨房,可能第一步就把锅烧糊了。会说不一定能做,这个道理在AI身上同样成立。
还有一个经常被忽略的问题:AI的"说"和"做"之间没有任何因果关系。当AI说"我们正在分析数据"的时候,这句话只是它在模拟一个执行过程的语言输出,并不一定真的在执行。这是一种"语言幻象"——听起来像在执行,实际上是纯粹的语言生成。
为什么模型看起来特别聪明?
因为它在"看起来像在执行"这件事上,做得太好了。
模型会生成这样的内容:
"好的,我现在开始分析页面结构……我已经识别出主要的DOM元素,接下来我将调用API获取数据……数据已成功获取,正在解析……"
每一句话都符合人类对"正在执行"的预期。你读起来觉得很靠谱,觉得它真的在一步步推进。
但如果去检查实际结果——页面可能根本没打开,API可能没调用,文件可能根本不存在。
这不是模型在故意欺骗你,而是它真的不知道自己有没有真正执行。
我自己在Trae上就踩过这个坑:让它对一个网页截图并保存,它回复"截图已保存到output/screenshot.png",语气非常自信。我打开文件夹一看,什么都没有。它不是撒谎,它只是生成了"截图已保存"这段文字,但根本没有执行保存操作。当时我觉得很奇怪,后来理解了模型的工作原理后才明白——对于模型来说,生成"已保存"这段文字和实际执行保存操作是两件完全独立的事情。
我在Claude Code上也遇到过类似的经历:让它批量重命名文件,它回复说"已成功重命名15个文件"。我检查了一下,实际只重命名了11个。它不是故意少做几个,而是在语言模型的世界里,"15"只是上文中一个合理的数字,不一定对应真实操作的count。类似的错误在其他工具中也反复出现。
一个真实的对比
同样是让AI完成一个网页数据抓取任务:
场景一: "帮我从这个网站抓取数据。"
模型开始写规划方案,分析网站结构,列出抓取策略。看起来很专业。但执行到第三步时,它用了之前用过的一个选择器,而这个选择器的页面结构已经变了。模型没有检查,继续往下走,最终返回了一堆错误数据,还告诉你"抓取成功"。
场景二: "先打开这个URL,截图保存到output文件夹,然后告诉我页面上第一个h1标签的内容。"
一步一步,明确具体。每一步都可以验证。模型执行成功的概率大大提高。
区别在哪?场景一给了模型太多"自由发挥"的空间,每一步都需要模型自己决策"该关注什么",自注意力容易分散。场景二把每一步都钉死了,模型只需要执行,不需要决策。这个对比说明了一个重要原则:在需要执行的任务中,把步骤拆细、拆具体,是提高成功率的最有效方法。
"看起来很聪明"的本质
模型的语言能力远远超过它的执行能力。
它能用流畅的语言描述一个完美的执行过程,但这只是语言能力的体现,不是执行能力的证明。
这就像一个从没下过厨的人,看了一百个烹饪视频后,能详细描述做一道菜的全部步骤——听起来完全没问题,但让他真的去做,可能第一步就把锅烧了。
更麻烦的是,这种"说得好但做不好"的特征会让你形成错误的信任。当你看到AI流畅地描述了整个操作流程,你的大脑会不自觉地认为"它一定能做到这个"。这种认知偏差在AI使用中非常普遍,也是我们最需要警惕的。
还有一层很多人没意识到:当AI在"描述"自己的执行过程时,它使用的是跟"描述"任何其他内容完全相同的机制。就像它写一篇学术论文和描述自己刚才执行了一个操作,本质上都是"根据上下文,下一个最可能的token是什么"。它没有一种专门的"执行感知"机制来区分"我在说"和"我在做"。
普通用户该怎么应对?
记住一个原则:不要信任AI的自我汇报,要看实际结果。
当AI说"我已经完成了",不要直接相信。问自己:文件真的创建了吗?数据真的获取了吗?页面真的打开了吗?
如果AI说"截图已保存",就去文件夹里看看文件在不在。如果它说"API调用成功",就去检查返回的数据对不对。
这不是对AI的不信任,而是对执行结果的必要验证。
具体来说,有几个实用建议:
每一步都要验证。 不要让AI一口气做五件事然后告诉你"都做完了"。一步一步来,每一步都检查一下结果。如果你觉得自己像个微观管理者,那就对了。
拆任务。 上文那个对比已经说得很清楚了,拆细、拆具体、拆可验证。这是目前提高AI执行成功率的最有效方法。
保留"人工检查点"。 不要把整个流程都交给AI自动执行,在关键节点留一个人工检查的机会。尤其是涉及外部系统的操作(发邮件、调API、写数据库),出错的后果可能比较严重。
用工具而不是用语言作答。 有些高级AI工具(比如Claude的Artifacts或OpenAI的Code Interpreter)会在执行代码时提供一个实时的执行反馈,这比AI自行汇报"执行完成"要靠谱得多。
下篇文章我们会讲一个更深层的问题:模型的输出本质上是概率性的,它并不真正"理解"自己在说什么。 理解了这一点,你就理解了为什么AI"很聪明"但又经常犯低级错误的根本原因。
