CacoCh Curation Exhibit · 常設展

迴圈工程學
Loop Engineering

從提示詞工程(Prompt Engineering)到自動演進的 AI 工作系統。解構 2026 年最火熱的 AI 代理人(Agentic Loops)底層架往、Addy Osmani 五模組以及完整的十塊拼圖。

Gallery I · 核心架構與演進

智能體迴圈的深度剖析

點擊展開下方各主題,深入閱讀重新匯製的系統架構與表格。本頁面嚴格遵循 Claudestyle HTML 設計規範。

Exhibit 01 · 核心概念與演進 Agent Loop 與四層級遞進關係 AI 運算的核心槓杆,正在從單次提示詞移向自主修正的閉環。

官方 Agent Loop 底層機制:
目標設定 ➔ 規劃 (Plan) ➔ 執行 (Act) ➔ 觀察 (Observe) ➔ 反思 (Reflect) ➔ 達成目標。 大部分人的 AI 使用停留在「執行」後即結束,缺乏觀察與反思的反饋閉環。

社群推測 透過雙執行器模式 (Double-Execution),例如讓一個模型(如 Codex)負責執行,另一個模型(如 Claude Code 或 GPT)作為第三方評審進行觀察與反思,能極大地促使 Agent 自動糾正偏差並逼近目標。

AI 系統工程的四個演進層級

層級 (Level) 核心概念 解決痛點 核心槓桿 (Lever)
L1. Prompt Engineering 提示工程 (寫好單次提示詞) 「我怎麼問 AI」的問題 模型對單次輸入的理解力 (單點交互)
L2. Workflow Engineering 工作流工程 (編排多步驟邏輯) 「任務流串聯」的問題 以確定性的邏輯鏈條提升完成成功率 (線性編排)
L3. Harness Engineering 運行層工程 (提供沙箱與工具) 「工具接入與真實反饋」 環境賦能 (沙箱、權限、測試與驗證信號)
L4. Loop Engineering 迴圈工程 (設計自我演進閉環) 「持續、可靠、可控」運行 系統替代人去提示、檢查與糾偏 (系統設計)
Exhibit 02 · 基礎組件 Addy 五模組 + 一個記憶機制 Google 工程領導者 Addy Osmani 歸納的長期運行 Agent 核心模組。

語源學 Addy 將成熟的 Loop 拆解為五個執行組件與一個持久化狀態記憶層,它們解決了 Agent 脫離人類後自主生存的必要條件:

組件名稱 暗喻角色 解決核心問題 運作機制說明
1. Automations 心跳 (Heartbeat) 「誰來啟動循環?」 設定定時任務 (Cron) 或事件觸發,讓 Agent 在特定條件下醒來,避免人工手動啟動。
2. Worktrees 隔離艙 (Isolation) 「多個 Agent 同時工作會不會打架?」 每個線程分配獨立的 Git Worktree 倉庫副本,共享 Git 歷史但物理隔離,避免程式碼混亂。
3. Skills 經驗庫 (Knowledge) 「Agent 每次都從零理解專案?」 SKILL.md 封裝特定規則、指令、腳本與範本,將專案知識編碼化,做為累積經驗的沉澱層。
4. Connectors 手腳 (Effectors) 「Agent 能否與真實環境互動?」 建立在 MCP 協定之上的插件與 API,使其能讀寫 Issue Tracker、查資料庫、調用 API 並開 PR。
5. Sub-agents 審查機制 (Checker) 「誰來檢查 Agent 的產出?」 將 Maker (創作者) 與 Checker (審查者) 分離。利用 Explorer, Implementer, Reviewer 進行協作糾偏。
6. Memory 骨架 (State skeleton) 「上次工作做到哪裡了?」 模型本身會失憶,但 Git 倉庫不會。記憶即是 progress.mdDECISIONS.md 與測試報告的持久化。
Exhibit 03 · 生態對齊 主流框架的原生組件映射表 Codex 與 Claude Code 均已內建這些原始原語,僅入口與名稱不同。

官方 通過對齊 Codex 與 Claude Code,我們能更清晰地看見這兩款頂級 Agent 產品背後的共通哲學:

原始原語 (Primitive) 迴圈中的作業 (Job in the loop) Codex App 實作 Claude Code 實作
Automations 按計劃進行發現和分診 (Discovery & Triage) Automations 面板、結果進 Triage 收件箱、/goal 運行至完成 Scheduled tasks & cron, /loop, /goal, Git hooks
Worktrees 隔離並行特徵分支 (Isolate features) 每條執行線程 (Thread) 內建 Worktree git worktree, --worktree, subagent 沙箱隔離
Skills 將專案知識與規則編碼化 Agent Skills (SKILL.md), 通過名稱或隱式調用 Agent Skills (SKILL.md 規範目錄與資源)
Connectors / Plugins 連接外部工具與服務 用於分發的連接器 (MCP) 與插件 MCP servers 以及 plugins 生態
Sub-agents 構思與多視角審查驗證 (Verify) .codex/agents/ 中以 TOML 格式定義的子代理 .claude/agents/ 目錄下的任務子代理與團隊
Exhibit 04 · 運行邏輯 一個完整的控制系統:11 步運行流程 成熟的 Loop 不再是單純的 Prompt 呼叫,而是一套封閉的系統控制流。

語源學 Addy Osmani 提出最核心的洞察在於,這五模組並非零散的功能,而是一套嚴密的**控制系統 (Control System)**:

01

定時啟動:由 Automation 心跳定時喚醒。

02

讀取外部輸入:拉取 Linear 待辦、GitHub Issues 或外部 webhook 事件。

03

調用 Skill 理解任務:讀取本專案專屬的 SKILL.md 或 guidelines,獲取工程上下文。

04

創建隔離 worktree:為本任務建立獨立分支與 worktree,不干擾主線工作。

05

主 agent 執行:探索程式碼、修改程式並生成產出。

06

子 agent 審查:調用 Checker/Reviewer 子代理評估程式碼變更與安全性,杜絕自我審查盲區。

07

工具 / 測試驗證:在沙盒內執行單元測試、集成測試或冒煙測試(Smoke test)。

08

通過則開 PR / 更新任務:若測試與審查皆通過,自動提交 PR 並將狀態標註為 Ready for Review。

09

失敗則記錄原因 / 重試 / 交給人類:若失敗則寫下詳細錯誤日誌,嘗試自我修復(最多3次),否則打包上下文退回給人類開發者。

10

寫入 Memory:將成功或失敗的教訓更新至 progress.mdDECISIONS.md,作為下次運行的底座。

11

下一輪繼續:沉入休眠,等待下一次心跳喚醒。

Exhibit 05 · 工程補遺 還缺三塊:從五模組到完整十塊拼圖 將學術模型推向工業級企業端,必須補足的工程安全與可觀測邊界。

語源學 Addy 的五模組加記憶(5+1)是運作骨架,但在實際企業級運維中,還必須補充另外三塊核心拼圖:

  • Eval / 驗收標準 (Completion Condition)
    成熟的 loop 必須有明確的「停止條件」。沒有 Eval,Agent 只能無休止地耗費 Token。例如 Claude Code 的 /goal 要求寫出可程式化驗證的 completion criteria,每輪由小模型判定是否達成。
  • Permission / 權限邊界 (Least Privilege)
    無人值守運行的安全性底線。系統必須定義哪些檔案能改、能不能聯網、能否調用支付 API、自動 merge 分支。企業級 loop 必須嚴格遵循最小權限原則。
  • Observability / 可觀察性 (Telemetry)
    不能只看最終的成功或失敗,必須完整記錄 execution traces、eval logs 與 intermediate states。這有助於人類開發者審計 Agent 為什麼做出特定決策,並精確找出失敗節點。

Loop Engineering 完整十塊拼圖

拼圖編號 模組名稱 來源分類 作用
01 Automation Addy 五模組 定時/事件驅動的心跳喚醒。
02 Worktree Addy 五模組 並行線程的物理代碼庫隔離。
03 Skill Addy 五模組 沉淀專案規則與 SOP 的經驗庫。
04 Connector Addy 五模組 接入 MCP 與真實環境的手腳。
05 Sub-agent Addy 五模組 分工審查(Maker vs Checker)。
06 Memory Addy 五模組 (記憶機制) 持久化狀態與歷史沉淀。
07 Eval 實戰補充 明確的停止條件與自動化驗收。
08 Permission 實戰補充 最小權限邊界與防注入安全保護。
09 Observability 實戰補充 詳細的軌跡與日誌遙測。
10 Human Review 實戰補充 超限時的人工審查與確認閘門 (HITL Gate)。
Exhibit 06 · 原始文獻 YouTube 完整影片字卡與原文文稿 「靈姐說AI」分享的 Loop 思維在矽基與企業端的應用實踐。

詮釋 以下是來自 YouTube 影片 fS-3o4Tz5cI 的完整逐字記錄(已進行結構化排版整理):

引言與趨勢:

大家好,歡迎來到靈姐說AI。最近有一組概念在矽谷非常的火,叫做 Loop,Loop 循環。Openclaw 的創始人 Peter Steinberger 在 6 月初發布了一條消息,他是這麼說的:他說 here is your monthly reminder that you shouldn't be promoting coding agents anymore. 他說提醒大家一下,你不應該再主動地去提示(prompt)你的 coding agent 了。你現在要幹的事情是什麼呢?You should be designing loops that prompts your agents. 你應該為你的 agent 去設計一些循環。這個帖子發布後有 830 萬的觀看。

另外 Boris Cherny,他作為 Claude Code 的創始人和負責人之一,他在最近的一次訪談中說:My job is writing loops. 我的工作就是寫 Loop。

還有 Google 的 Addy Osmani 寫了一篇叫做 Loop Engineering 的文章,專門闡述了 Loop 相關的概念。這期視頻會進一步分享 Loop 思維怎麼運用和實踐,這涉及兩層概念:一層是 Agent Loop,這是底層的機制;另一層是 Loop Engineering,也就是機制化、產品化和工程化。

為什麼是現在?

它最近這麼火也是有原因的,它剛好跟幾個趨勢疊加在了一起:第一是像 Claude Code 和 Codex 這種 coding agent,它已經能夠做長任務了;第二是模型調用工具的能力日漸增強,背後的工具 skill 越來越多;第三是當這些應用到企業端,企業會慢慢開始關心這些可重複、可測試、可審計的 agent工作流;第四是當 AI 模型跑在真實企業任務中時,TOKEN 成本、任務失敗率 and 權限風險都會成為真實的問題,所以必須升級為可控的 Loop。

Agent Loop 底層機制:

我們有目標設定,然後規劃任務步驟,進行執行。在執行階段會輸出結果,大部分人就停在這一步,它不是閉環的。這時你應該對執行的結果與過程進行觀察(observe),反思(reflect)復盤,看看有沒有值得改進的地方,最後再基於要達成的目標,不斷地循環往復。

演進的四個階段:

一慢提示詞工程(Prompt Engineering),核心槓桿是單次輸入理解力。然後演進到工作流工程(Workflow Engineering),解決任務流串聯的問題。第三階段是 Harness Engineering(運行層工程),提供沙箱、權限與可驗證信號。現在我們到了第四層:Loop Engineering(循環工程),設計自我演進閉環,讓系統替代人去提示、檢查並糾偏。

Addy 的五模組與記憶:

Addy 把 Loop 拆成 5 個模組和 1 個記憶機制:
1. Automation(自動化/心跳):解決誰來啟動循環。讓 agent 定時或事件觸發醒來。
2. Worktree(工作區隔離/隔離艙):解決多 agent 並行工作衝突。共享 Git 歷史但文件副本獨立。
3. Skills(技能庫/經驗庫):沉淀專案規則。Skill 是經驗,Loop 是讓經驗循環執行的系統。
4. Connector(手腳/連接器):基於 MCP 接入真實環境(Linear/Slack/PR)。
5. Sub-agents(審查機制/子代理):Maker 與 Checker 分離(Explorer/Reviewer 協作),實現自動糾偏。
6. Memory(長期狀態/狀態記憶):『模型會忘,倉庫不會』。將進度與報告持久化。

控制系統運作流程:

定時啟動 ➔ 讀取外部輸入 ➔ 調用 Skill ➔ 創建 Worktree ➔ 主 Agent 執行 ➔ 子 Agent 審查 ➔ 工具/測試驗證 ➔ 通過則開 PR/更新任務 ➔ 失敗則記錄/重試/交給人類 ➔ 寫入 Memory ➔ 下一輪繼續。

我的實戰補遺:

我覺得還有四個板塊非常重要:
1. 驗收標準 (Eval):明確的停止條件,知道何時停。
2. 權限邊界 (Permission):企業級 loop 必須有最小權限原則,規定能不能改、刪、支付。
3. 可觀察性 (Observability):過程記錄、動作分析必須透明。
4. 人工審查 (Human Gate/Review):超出權限邊界時人工介入拍板。

總結:

現在真正高級的玩家,不再是寫多漂亮多長的 prompt,而是把你的任務設計為一個可以循環、可以迭代、可以沉淀的生產機制系統。把瞬間的靈感變成一個長效的工作機制,把單次的對話轉向一個自動化複利的過程。

Exhibit 07 · 參考文獻 主要參考文獻與 SSoT 規格 本策展引用的主要文章來源、推文與 local 指標。

參考來源連結

CacoCh 內部對齊規格書