智慧代理時代的企業願景與技術突破
隨著大型語言模型(LLM)能力的飛速發展,企業對於實現更深層次自動化的渴望日益強烈。傳統的機器人流程自動化(RPA)受限於固定腳本,難以應對複雜且動態變化的業務流程。因此,「智慧代理」(Intelligent Agent)被視為下一代企業自動化解決方案的關鍵。這類代理旨在能夠自主理解任務意圖、分解目標、調用API,並在多步驟環境中動態調整計畫。
在這一趨勢下,技術巨頭IBM推出了其開源的通用AI代理——CUGA(Configurable Generalist Agent),企圖引領企業自動化邁向新的里程碑。
IBM 研究人員發布了一款名為 CUGA 的開源 AI 代理,旨在自動化複雜的企業工作流程,並且根據任務的不同,大約有一半的時間能夠成功完成任務,CUGA代表可設定通用代理(Configurable Generalist Agent)。根據其在人工智慧平台 HuggingFace 上的介紹,該軟體提供「透過多代理編排、API 整合和企業演示應用程式的程式碼生成來實現智慧任務自動化」。
IBM 的作者 Sami Marreed、Alon Oved、Avi Yaeli、Segev Shlomov、Ido Levy、Offer Akrabi、Aviad Sela、Asaf Adi 和 Nir Mashkif 在 7 月發布的一篇論文中寫道:「我們對 IBM CUGA 的願景是開發一個通用代理的願景」。
CUGA的架構設計與多代理編排機制
CUGA的設計核心在於其「通用性」和「可設定性」,旨在允許知識工作者能以安全、可靠的方式調整和配置代理,使其執行日常或複雜的工作任務。其架構主要由三個關鍵層次組成:
聊天意圖識別層 (Chat Layer): 負責從用戶的自然語言提示中準確辨識其真實意圖,例如:「從數位銷售中獲取收入最高的客戶帳戶,然後將其新增到當前頁面」。
任務規劃與控制元件 (Task Planning and Control): 這是代理的「大腦」,負責分析用戶意圖,將總目標分解為一系列結構化的子任務,並在動態的「任務總帳」(Task Ledger)中追蹤進度。當初始執行失敗時,該元件能夠進行即時的重新規劃。
專業代理委派與執行: 子任務被委派給專業代理,例如負責處理 API 調用的「API 代理」。這些專業代理利用內部推理循環生成偽程式碼指令,隨後在安全的沙盒環境中調用程式碼。系統透過工具註冊中心解析和理解工具能力,實現精確的任務編排。
CUGA的開發人員將其設計為與Langflow等低程式碼AI代理設計平台協同工作,並支援如gpt-oss-120b和Llama-4-Maverick-17B-128E-Instruct-fp8等多種開源模型,體現了其開放與可擴展的設計理念。
實戰表現:基準測試下的頂尖表現與現實差距
儘管IBM的願景宏大,但當前的AI代理技術在企業環境中的實戰性能仍處於起步階段。CUGA在行業標準基準測試中的表現,同時揭示了其作為頂級代理的實力,以及其在面對複雜企業環境時的不足:
並非所有人都相信智能代理是安全可靠的, IT顧問公司Gartner最近建議封鎖所有智慧代理瀏覽器,此前該公司幾個月前曾警告稱,到2027年約40%的智慧代理企業專案將因缺乏商業價值而被取消。
然而,自動化的誘惑依然強大,IBM 也熱衷於助其實現。 IBM 的研究人員引用了 CUGA 在WebArena和AppWorld基準測試中的表現——完成 Web 任務的成功率為 61.7%,評估 API 任務的場景完成率為 48.2%——並指出,該智能體的得分雖然低到足以讓人工員工被解僱,但目前卻代表了智能體中的頂尖水平。
CUGA在WebArena基準測試中,61.7%的成功率明顯優於其他競爭者,例如其在同一測試中,相較於AWM(AgentWorkflowMemory)僅35.5%的成功率具有顯著優勢。然而,不到一半的任務完成率,對於要求零錯誤的企業級關鍵業務流程來說,顯然難以被接受。
核心瓶頸:企業策略的穩健性挑戰
CUGA的基準測試論文特別指出了當前AI代理技術在企業應用中的一個核心瓶頸:策略穩健性(Policy Robustness)。
這些代理人的平均原始完成率為 24.4%,而符合政策的完成率僅為 15%。當實施五項或更多政策時,符合政策的平均完成率僅為7.1%。而企業通常會有超過五項政策適用於業務流程。
「企業工作流程通常會疊加數十個並發策略,這表明現實世界的不足之處會更加明顯,因此,策略穩健的優化(而不僅僅是原始完成)必須成為重點目標」基準論文指出。
這項分析極具警示意義:雖然CUGA可能具備完成任務所需的原始技術能力(Raw Completion),但一旦必須遵守企業內數十項並行施加的合規、安全或業務邏輯策略時,其表現便會斷崖式下降。例如,在超過五項策略限制下,符合政策的完成率僅剩7.1%。這表明,通用AI代理在從實驗室走向企業實戰的過程中,必須將策略穩健的優化作為首要目標,而非僅僅追求原始任務完成率。
未來部署的務實建議
IBM CUGA的發布,無疑為開源社群和企業提供了先進的AI代理工具和架構,標誌著通用智慧代理技術的重大進步。然而,Gartner的謹慎建議和IBM研究本身的數據均表明,企業在部署此類技術時,必須採取務實的態度,並調整對其成熟度的期望。
雖然CUGA展現了強大的任務規劃和API整合能力,但其在策略穩健性和零錯誤率方面的差距,意味著它們更適合在以下場景中發揮作用:作為人類員工的輔助工具(提供建議或草擬行動計畫),或自動化那些失敗風險和成本較低,且策略要求相對簡單的非關鍵性流程。對於希望無縫自動化多步驟業務任務的組織而言,當前的AI代理仍需要持續的監管和人工審核。正如IBM的開發人員所指出,如果您期望AI代理軟體能夠毫無差錯地完成任務,那麼您可能需要降低一些預期。
資料來源:https://www.theregister.com/2025/12/15/ibm_cuga_agent/
深度解析IBM發布的開源通用AI代理CUGA(Configurable Generalist Agent),旨在實現複雜企業工作流程的自動化。探討CUGA在WebArena和AppWorld基準測試中的性能表現(成功率約50%),並分析通用AI代理在企業環境中面臨的策略穩健性挑戰、商業價值質疑(Gartner警告),以及與Langflow等低程式碼平台的協同作用。