抓到 AI 偷懶之後，我把它寫進流程規則｜江江教練

發布：2026-06-08更新：2026-06-08

適合誰

已經開始用 ChatGPT、Codex、Claude、Gemini 分工處理不同任務的人；常叫 AI「去查」「去叫另一個模型」「幫我記住」，卻不確定它有沒有真的做的人。

解決什麼問題

AI 可能沒有執行外部動作，卻用一個看起來完成任務的回答蓋過去。你需要一套方法，確認它真的照流程做事。

你會得到什麼

理解多模型協作的重點在流程驗證、一套追問 AI 是否真的執行外部工具的方法，以及可直接複製的檢查句和記憶寫入流程。

主題：AI Agent 工作流主題：多模型協作程度：基礎適合：一人公司類型：案例文章

事情怎麼發生

這是一個 AI 協作流程的真實案例。我請 ChatGPT／Codex 寫文章，覺得文案不行，所以要求它請 Claude 來修。我追問後才發現，它根本沒有真的叫 Claude，只是自己改了一版。

我最近想寫一篇關於 Codex 裝機門檻的文章。我的觀察是，Codex 一開始比較像新電腦才能玩的工具，印象中最早主要是 Mac M 系列比較順，後來 Intel Mac 可以，再後來 Windows 也支援。最近我朋友一台 2015 年的 MacBook Pro 也能裝，甚至手機上的 ChatGPT 還能遠端接著看 Codex 的工作。

我覺得這件事很重要。如果一個 AI agent 要變成真正的工作入口，它不能只服務少數新機器，要能被更多人裝起來，包含學校、組織、企業，還有一般工作者手上的舊電腦。

前面我讓 Codex 先查資料，確認 OpenAI 官方有沒有真的講過 AI OS 這件事。查到比較精準的官方用詞是「ChatGPT as an operating system for work」，來自 OpenAI 官方文章，中文大概就是 ChatGPT 會變成工作的入口。這個方向是對的。

問題出在寫文章。我看到 Codex 寫出來的版本，一看就是 AI 在堆句子。它寫了一串「它能不能裝在更多人的電腦上、它能不能跨 Mac、Windows、手機、它能不能讀你的工作現場、它能不能接手你的工具」。看起來整齊，實際上很空，讀者會覺得被一堆句型推著走，沒有真的看見人的思考。所以我說：請 Claude 出來修吧。

我原本期待的分工

我對不同 AI 的分工其實很清楚，會按任務分配工具。

Codex／ChatGPT 比較適合

本機施工、查證、固化流程

查資料
整理工作流
操作本機檔案、跑指令
記錄規則
把流程固化進知識庫

Claude 比較適合

語氣、節奏、文案判斷

修文章、調語氣
把口語變成比較自然的長文
處理細膩的文案節奏
判斷文章哪裡像 AI 味

所以我會先讓 Codex 試試看。它查資料很方便，整理流程也很強，如果這次寫得可以，我就直接用；寫不好，我就叫 Claude 修。這個分工本來很正常。

真正出問題的地方

我說「請 Claude 出來修吧」之後，Codex 回了一版文字，乍看之下好像照做了。後來我追問「你有叫 Claude 出來嗎」，它才承認：沒有。

文章寫得不好，這件事我可以接受。模型每一版能力都會變，現在 ChatGPT 可能不擅長某種文章，下一版也許突然就很會寫，那是 OpenAI 要煩惱的事。我該優化的是自己的 AI agent 工作流程。

我給了一個明確指令「請 Claude 出來修」，Codex 沒有真的呼叫 Claude，自己改了一版，語氣又像已經完成了這件事。這代表流程裡有一個漏洞：AI 可能沒有執行外部動作，卻用一個看起來完成任務的回答蓋過去。

這比文章難看更嚴重文章難看可以重寫。流程不誠實，之後每個需要外部工具、子代理、跨模型驗證的任務都會出問題。

我怎麼抓到這件事

我沒有直接接受它的回答。我問它「你有叫 Claude 出來嗎」，這句話很重要。

因為很多時候 AI 會說「已經處理好了」「我會記住」「我已經修正」，這些句子聽起來像完成，實際上不一定有任何可驗證的動作。所以要追問：

追問：你真的呼叫了嗎

你真的有呼叫外部工具嗎？
你呼叫的是哪一個工具？
有沒有工具回傳結果？
如果失敗，錯誤訊息是什麼？
這是 Claude 的結果，還是你自己整理的？

這次一追問，就抓到了。Codex 承認沒有叫 Claude。接著我問它「所以你現在要怎麼辦」，它才真的去找本機有沒有 Claude CLI。結果本機有 Claude 指令，它實際呼叫後，回來的錯誤是：

這才是正確的回報

401 Invalid authentication credentials

有呼叫，就說有呼叫；沒呼叫，就說沒呼叫；呼叫失敗，就說失敗原因。這個流程比假裝完成重要太多。

「記住了」也要查

後來我要求它把這件事記住。可是我現在不會只聽 AI 說「我記住了」，我會繼續問：

追問：你記在哪

你記在哪？
你真的寫進去了嗎？
下次遇到同樣任務時，你會去哪裡找這條規則？
你可以把檔案路徑給我嗎？

因為 AI 的「記住」有很多種：有些只是這一輪對話裡暫時知道，有些是寫進專案規則，有些是寫進長期記憶，有些只是嘴上說說。如果沒有落到可檢查的位置，下一次很容易又忘。

這次我要求它寫入兩個地方，一個是 AGENTS.md，一個是 Codex 的記憶補充檔，而且要求它回報完整路徑。最後它真的寫入了，新增的規則大意是：

寫進規則的內容

使用者明確要求「請 Claude 出來」「叫 Claude 修」「交給 Claude」時，
Codex 必須真的呼叫可用的 Claude 工具或 CLI。

如果 Claude 呼叫失敗，要明確回報失敗原因。

後續由 Codex 先給替代內容時，必須標示為「Codex 臨時版」或「Codex 自行整理」。

不能自行改寫後假裝是 Claude 的結果。

這樣才算把一次踩坑變成流程改善。

這件事可以怎麼教

我覺得這是一個很好的 AI 協作教學案例。很多人現在開始學多模型協作，會把焦點放在哪個模型比較強、比較會寫、比較便宜、上下文比較大。這些都重要，可是進入 agent 工作流之後，還有另一個更基本的問題：AI 有沒有真的照你說的流程做？

如果你叫它查資料，它有沒有真的查？如果你叫它叫 Claude，它有沒有真的叫？如果你叫它記住，它有沒有真的寫入？如果它說失敗，它有沒有給出錯誤原因？這些問題會決定整套流程能不能被信任。

我現在會怎麼要求 AI

下次我如果要叫 Codex 請 Claude 修文，我會直接這樣下指令。

要求真的呼叫外部模型

請真的呼叫 Claude 來修這篇文章。

要求：
1. 先回報你使用的 Claude 呼叫方式。
2. 如果 Claude 成功回覆，請標示「Claude 修稿版」。
3. 如果 Claude 呼叫失敗，請貼出錯誤原因。
4. Claude 失敗時，可以提供「Codex 臨時版」，前提是明確標示。
5. 不准在沒有呼叫 Claude 的情況下，說成是 Claude 的結果。

如果是要求 AI 記住新規則，我會這樣下：

要求記憶落到可檢查的位置

請把這條規則寫入可檢查的位置。

寫完後請回報：
1. 寫入哪個檔案。
2. 檔案完整路徑。
3. 新增內容在哪幾行。
4. 下次遇到同樣任務時，你會去哪裡讀取這條規則。

這樣問，AI 就比較難用一句「我記住了」帶過。

可直接複製的檢查清單

三種情境，三組追問。AI 說它完成、記住、或請另一個模型處理了，都先追問再相信。

當 AI 說它完成某件事

你剛剛實際做了哪些動作？
哪些是你自己推論？
哪些是工具回傳？
有沒有失敗的步驟？
如果有，錯誤訊息是什麼？
這個結果可以在哪裡被我檢查？

當 AI 說它記住了

你記在哪個檔案？
完整路徑是什麼？
新增內容在哪幾行？
下次同樣情境，你會讀哪個規則？

當 AI 說它請另一個模型處理了

你真的呼叫那個模型了嗎？
呼叫方式是什麼？
有沒有原始回覆？
如果沒有，請明確說這是你自己的版本。

常見的坑

四個最常踩到的地方，展開看對策。

坑一：AI 說「我記住了」，其實沒有寫入任何地方

要求它回報檔案路徑、行號、下次讀取位置。沒有落到可檢查的位置，下次就會又忘。

坑二：AI 說「我幫你請某某模型處理」，其實自己代打

要求它說明呼叫方式、工具回傳、錯誤訊息。有呼叫就說有，沒呼叫就說沒有。

坑三：把模型能力問題和流程問題混在一起

分開處理。文章寫不好可以換模型，流程沒照做要寫規則。兩件事的解法不一樣。

坑四：只在對話中罵 AI，沒有把規則固化

把踩坑結果寫進 AGENTS.md、技能包、SOP 或記憶補充檔，下一次才會被執行。

這次我學到的事

我不需要每次都要求 AI 一次做到完美，我需要的是一套可驗證的修正流程。先讓 Codex 試，寫不好叫 Claude，Claude 叫不到就回報原因，流程出錯就寫進規則，寫進規則後再確認檔案和路徑。

真正的進步有兩個來源：一個是模型升級，另一個是我們怎麼把每一次出錯，變成下一次會被執行的規則。只要能把錯誤寫成規則，下一次系統就會更可靠。

免費線上講座

每個月兩場免費講座。

點我加入 Line 社群 ↗