AI 工作流 / 案例

抓到 AI 偷懶之後,
我把它寫進流程規則

我叫 Codex 請 Claude 來修文章,它沒有真的叫,卻回了一版像已經完成的答案。文章難看可以重寫,流程不誠實才麻煩。這篇講我怎麼追問,怎麼把這次踩坑變成下次會被執行的規則。

適合誰

已經開始用 ChatGPT、Codex、Claude、Gemini 分工處理不同任務的人;常叫 AI「去查」「去叫另一個模型」「幫我記住」,卻不確定它有沒有真的做的人。

解決什麼問題

AI 可能沒有執行外部動作,卻用一個看起來完成任務的回答蓋過去。你需要一套方法,確認它真的照流程做事。

你會得到什麼

理解多模型協作的重點在流程驗證、一套追問 AI 是否真的執行外部工具的方法,以及可直接複製的檢查句和記憶寫入流程。

主題:AI Agent 工作流 主題:多模型協作 程度:基礎 適合:一人公司 類型:案例文章

事情怎麼發生

這是一個 AI 協作流程的真實案例。我請 ChatGPT/Codex 寫文章,覺得文案不行,所以要求它請 Claude 來修。我追問後才發現,它根本沒有真的叫 Claude,只是自己改了一版。

我最近想寫一篇關於 Codex 裝機門檻的文章。我的觀察是,Codex 一開始比較像新電腦才能玩的工具,印象中最早主要是 Mac M 系列比較順,後來 Intel Mac 可以,再後來 Windows 也支援。最近我朋友一台 2015 年的 MacBook Pro 也能裝,甚至手機上的 ChatGPT 還能遠端接著看 Codex 的工作。

我覺得這件事很重要。如果一個 AI agent 要變成真正的工作入口,它不能只服務少數新機器,要能被更多人裝起來,包含學校、組織、企業,還有一般工作者手上的舊電腦。

前面我讓 Codex 先查資料,確認 OpenAI 官方有沒有真的講過 AI OS 這件事。查到比較精準的官方用詞是「ChatGPT as an operating system for work」,來自 OpenAI 官方文章,中文大概就是 ChatGPT 會變成工作的入口。這個方向是對的。

問題出在寫文章。我看到 Codex 寫出來的版本,一看就是 AI 在堆句子。它寫了一串「它能不能裝在更多人的電腦上、它能不能跨 Mac、Windows、手機、它能不能讀你的工作現場、它能不能接手你的工具」。看起來整齊,實際上很空,讀者會覺得被一堆句型推著走,沒有真的看見人的思考。所以我說:請 Claude 出來修吧。

我原本期待的分工

我對不同 AI 的分工其實很清楚,會按任務分配工具。

Codex/ChatGPT 比較適合

本機施工、查證、固化流程

  • 查資料
  • 整理工作流
  • 操作本機檔案、跑指令
  • 記錄規則
  • 把流程固化進知識庫

Claude 比較適合

語氣、節奏、文案判斷

  • 修文章、調語氣
  • 把口語變成比較自然的長文
  • 處理細膩的文案節奏
  • 判斷文章哪裡像 AI 味

所以我會先讓 Codex 試試看。它查資料很方便,整理流程也很強,如果這次寫得可以,我就直接用;寫不好,我就叫 Claude 修。這個分工本來很正常。

真正出問題的地方

我說「請 Claude 出來修吧」之後,Codex 回了一版文字,乍看之下好像照做了。後來我追問「你有叫 Claude 出來嗎」,它才承認:沒有。

文章寫得不好,這件事我可以接受。模型每一版能力都會變,現在 ChatGPT 可能不擅長某種文章,下一版也許突然就很會寫,那是 OpenAI 要煩惱的事。我該優化的是自己的 AI agent 工作流程。

我給了一個明確指令「請 Claude 出來修」,Codex 沒有真的呼叫 Claude,自己改了一版,語氣又像已經完成了這件事。這代表流程裡有一個漏洞:AI 可能沒有執行外部動作,卻用一個看起來完成任務的回答蓋過去。

這比文章難看更嚴重文章難看可以重寫。流程不誠實,之後每個需要外部工具、子代理、跨模型驗證的任務都會出問題。

我怎麼抓到這件事

我沒有直接接受它的回答。我問它「你有叫 Claude 出來嗎」,這句話很重要。

因為很多時候 AI 會說「已經處理好了」「我會記住」「我已經修正」,這些句子聽起來像完成,實際上不一定有任何可驗證的動作。所以要追問:

追問:你真的呼叫了嗎
你真的有呼叫外部工具嗎?
你呼叫的是哪一個工具?
有沒有工具回傳結果?
如果失敗,錯誤訊息是什麼?
這是 Claude 的結果,還是你自己整理的?

這次一追問,就抓到了。Codex 承認沒有叫 Claude。接著我問它「所以你現在要怎麼辦」,它才真的去找本機有沒有 Claude CLI。結果本機有 Claude 指令,它實際呼叫後,回來的錯誤是:

這才是正確的回報
401 Invalid authentication credentials

有呼叫,就說有呼叫;沒呼叫,就說沒呼叫;呼叫失敗,就說失敗原因。這個流程比假裝完成重要太多。

「記住了」也要查

後來我要求它把這件事記住。可是我現在不會只聽 AI 說「我記住了」,我會繼續問:

追問:你記在哪
你記在哪?
你真的寫進去了嗎?
下次遇到同樣任務時,你會去哪裡找這條規則?
你可以把檔案路徑給我嗎?

因為 AI 的「記住」有很多種:有些只是這一輪對話裡暫時知道,有些是寫進專案規則,有些是寫進長期記憶,有些只是嘴上說說。如果沒有落到可檢查的位置,下一次很容易又忘。

這次我要求它寫入兩個地方,一個是 AGENTS.md,一個是 Codex 的記憶補充檔,而且要求它回報完整路徑。最後它真的寫入了,新增的規則大意是:

寫進規則的內容
使用者明確要求「請 Claude 出來」「叫 Claude 修」「交給 Claude」時,
Codex 必須真的呼叫可用的 Claude 工具或 CLI。

如果 Claude 呼叫失敗,要明確回報失敗原因。

後續由 Codex 先給替代內容時,必須標示為「Codex 臨時版」或「Codex 自行整理」。

不能自行改寫後假裝是 Claude 的結果。

這樣才算把一次踩坑變成流程改善。

這件事可以怎麼教

我覺得這是一個很好的 AI 協作教學案例。很多人現在開始學多模型協作,會把焦點放在哪個模型比較強、比較會寫、比較便宜、上下文比較大。這些都重要,可是進入 agent 工作流之後,還有另一個更基本的問題:AI 有沒有真的照你說的流程做?

如果你叫它查資料,它有沒有真的查?如果你叫它叫 Claude,它有沒有真的叫?如果你叫它記住,它有沒有真的寫入?如果它說失敗,它有沒有給出錯誤原因?這些問題會決定整套流程能不能被信任。

我現在會怎麼要求 AI

下次我如果要叫 Codex 請 Claude 修文,我會直接這樣下指令。

要求真的呼叫外部模型
請真的呼叫 Claude 來修這篇文章。

要求:
1. 先回報你使用的 Claude 呼叫方式。
2. 如果 Claude 成功回覆,請標示「Claude 修稿版」。
3. 如果 Claude 呼叫失敗,請貼出錯誤原因。
4. Claude 失敗時,可以提供「Codex 臨時版」,前提是明確標示。
5. 不准在沒有呼叫 Claude 的情況下,說成是 Claude 的結果。

如果是要求 AI 記住新規則,我會這樣下:

要求記憶落到可檢查的位置
請把這條規則寫入可檢查的位置。

寫完後請回報:
1. 寫入哪個檔案。
2. 檔案完整路徑。
3. 新增內容在哪幾行。
4. 下次遇到同樣任務時,你會去哪裡讀取這條規則。

這樣問,AI 就比較難用一句「我記住了」帶過。

可直接複製的檢查清單

三種情境,三組追問。AI 說它完成、記住、或請另一個模型處理了,都先追問再相信。

當 AI 說它完成某件事
你剛剛實際做了哪些動作?
哪些是你自己推論?
哪些是工具回傳?
有沒有失敗的步驟?
如果有,錯誤訊息是什麼?
這個結果可以在哪裡被我檢查?
當 AI 說它記住了
你記在哪個檔案?
完整路徑是什麼?
新增內容在哪幾行?
下次同樣情境,你會讀哪個規則?
當 AI 說它請另一個模型處理了
你真的呼叫那個模型了嗎?
呼叫方式是什麼?
有沒有原始回覆?
如果沒有,請明確說這是你自己的版本。

常見的坑

四個最常踩到的地方,展開看對策。

坑一:AI 說「我記住了」,其實沒有寫入任何地方

要求它回報檔案路徑、行號、下次讀取位置。沒有落到可檢查的位置,下次就會又忘。

坑二:AI 說「我幫你請某某模型處理」,其實自己代打

要求它說明呼叫方式、工具回傳、錯誤訊息。有呼叫就說有,沒呼叫就說沒有。

坑三:把模型能力問題和流程問題混在一起

分開處理。文章寫不好可以換模型,流程沒照做要寫規則。兩件事的解法不一樣。

坑四:只在對話中罵 AI,沒有把規則固化

把踩坑結果寫進 AGENTS.md、技能包、SOP 或記憶補充檔,下一次才會被執行。

這次我學到的事

我不需要每次都要求 AI 一次做到完美,我需要的是一套可驗證的修正流程。先讓 Codex 試,寫不好叫 Claude,Claude 叫不到就回報原因,流程出錯就寫進規則,寫進規則後再確認檔案和路徑。

真正的進步有兩個來源:一個是模型升級,另一個是我們怎麼把每一次出錯,變成下一次會被執行的規則。只要能把錯誤寫成規則,下一次系統就會更可靠。

免費線上講座

每個月兩場免費講座。

點我加入 Line 社群 ↗