台灣應用軟件 | 代理式AI安全挑戰：深入探討多層次架構、潛在威脅與初期防護策略

2025.07.29

通往代理AI的道路：架構、威脅與解決方案

隨著人工智慧技術的飛速發展，「代理式AI (Agentic AI)」系統正變得日益複雜，並在各種應用中扮演關鍵角色。這些系統的運作高度依賴於其多層次的架構。趨勢科技的分析旨在深入探討代理式AI系統的內部結構，識別每個層面可能存在的安全風險，並提供具體可行的防護策略。保護這些系統免受攻擊至關重要，否則可能導致敏感資訊外洩、透過數據中毒進行行為操縱，甚至系統運作中斷。

代理式AI的多層次架構剖析

理解代理式AI系統的安全性，必須從其多層次架構著手，並精確識別每個層次所面臨的特定風險。根據趨勢科技的分析，其核心架構可分為以下幾個主要層次：

數據層(Data Layer)

數據層是代理式AI系統的基石，涵蓋了與系統開發、維護或使用相關的所有數據元件。此層的安全性直接影響到AI模型的可靠性和代理的決策品質。主要組成部分包括：

客製化AI模型 (Custom AI models)：這些是代理式系統運作所使用的核心 AI模型。它們可以是公開可用的模型，也可以是利用專有數據進行客製化訓練的模型。客製化模型雖然能高度適配特定任務，但也可能因訓練數據的敏感性而帶來額外風險。
外部模型儲存庫(External Model repositories)：組織可以從Huggingface或 NVIDIA NGC等外部儲存庫獲取公開可用的AI模型。儘管這提供了便利性，但同時也引入了對第三方來源的依賴風險，例如模型本身可能被污染，或儲存庫的安全漏洞可能被利用。
訓練數據(Training data)：這些數據用於內部訓練新模型或微調現有模型，可以是私有或公開的數據。趨勢科技指出，大型語言模型存在「幻覺」(hallucinations)等局限性，且其訓練和微調需要大量的時間和資源，這也增加了數據完整性和安全性的挑戰。惡意數據的注入（即數據中毒）在此層可能嚴重影響模型行為。

代理層(Agent Layer)

代理層包含實際執行任務的元件。雖然「協調層」(Orchestration Layer)負責處理用戶請求並制定執行計畫，但代理層是執行這些計畫的具體執行者。此層的安全性關乎任務執行的正確性和防止惡意操作。主要組成部分包括：

代理(Agents)：這些是負責完成單個任務的軟體單元。它們會將結果返回給協調器，或彼此之間進行協調合作。代理可以透過工具與外部環境互動，這擴展了其功能，但也增加了攻擊面。
內嵌工具(Embedded tools)：這些工具在代理層內部本地運行，包括本地程式、代理生成的程式碼，或傳遞給本地解釋器的特定領域程式碼。如果這些內嵌工具被竄改或代理生成了惡意程式碼，將對系統造成嚴重危害。
外部工具(External tools)：這些是代理透過API或外部數據庫調用的外部或第三方服務。外部工具的安全性直接影響代理執行的可靠性，任何來自外部服務的漏洞或不安全配置都可能被利用。
工具儲存庫 (Tool repository)：代理可以存取這些儲存庫（如PyPy或npm，或微服務目錄）來獲取適當的工具。類似於外部模型儲存庫，工具儲存庫的安全性也至關重要，因為惡意工具的引入可能導致系統被完全控制。

系統層(System Layer)

系統層強調代理式 AI 應用程式仍然需要常規的軟體元件來運作。這意味著傳統的軟體安全最佳實踐在代理式 AI 系統中依然適用。

代理式 AI 系統的潛在威脅

基於上述多層次架構，代理式 AI 系統面臨著多種獨特的網路安全威脅。趨勢科技初步點出以下幾種潛在風險：

遞迴代理調用濫用(Recursive agent invocation abuse)：如果代理式工作流程的終止條件被篡改，可能導致代理調用陷入永無止境的循環。這種攻擊會耗盡系統的計算資源，導致服務拒絕 (DoS) 攻擊，使系統無法對合法請求做出回應。
目標顛覆(Goal subversion)：攻擊者可能會操縱推理引擎對用戶目標的推斷，導致系統追求非預期的目標。這意味著即使是原本安全的輸入，也可能因為推理過程被劫持而產生惡意結果，從而使代理執行攻擊者期望的行為，例如進行未經授權的數據存取或執行惡意操作。
惡意指令注入(Malicious prompt injection)：雖然報告內容未直接展開，但這是一種常見的對抗性攻擊，攻擊者透過設計惡意輸入（提示），繞過AI模型的安全防護，使其執行非預期的操作或洩露敏感資訊。這在代理層和數據層都可能發生。
數據中毒(Data poisoning)：在數據層面，攻擊者可以向訓練數據中注入惡意或誤導性數據，從而「毒害」AI模型。這會導致模型學習錯誤的模式或偏見，進而影響代理的行為，使其在未來做出錯誤或惡意的決策。
憑證竊取與橫向移動：代理在執行任務時可能需要存取各種系統和服務的憑證。如果代理或其所使用的工具存在漏洞，攻擊者可能竊取這些憑證，並利用它們在網路中進行橫向移動，擴大攻擊範圍。

初步的解決方案與防護策略

由於篇幅限制及已獲取資訊的不足，本報告僅能根據已提及的威脅提出初步的防護策略。要全面保護代理式AI系統，組織需要採取多層次的綜合安全方法：

強化數據層安全：

數據驗證與清洗：對用於訓練和微調AI模型的所有數據進行嚴格的驗證和清洗，以防止數據中毒攻擊。
安全模型來源：從可信賴的來源獲取外部 AI 模型和工具，並對其進行安全掃描和漏洞評估。
敏感數據保護：對訓練數據中的敏感資訊進行匿名化或加密處理。

加固代理層與工具安全：

代理行為監控：實施對代理行為的持續監控，及時發現異常的或偏離預期目標的活動。
工具安全審計：對代理所使用的所有內嵌和外部工具進行安全審計，確保其沒有已知漏洞或惡意功能。
安全沙盒環境：在沙盒環境中運行代理，限制其對敏感資源的存取，降低潛在損害。
輸入驗證與消毒：對所有傳遞給代理的輸入進行嚴格驗證和消毒，以防止惡意指令注入。

保障系統層基礎設施：

常規軟體安全：確保底層作業系統、網路設備和應用程式都已打上最新的安全補丁，並遵循最佳安全配置。
存取控制：實施嚴格的最小權限原則，限制對代理式AI系統相關組件的存取權限。
服務拒絕防護：部署DDoS防護措施，並實施資源限制和異常流量監控，以防範遞迴代理調用濫用導致的服務中斷。

結論與限制

儘管代理式AI為各行業帶來了巨大的潛力，但其固有的複雜性和多層次架構也引入了獨特的網路安全挑戰。本次報告根據可用的文章片段，初步分析了代理式AI的架構、潛在威脅及初步防護策略。

資料來源：https://www.trendmicro.com/vinfo/ph/security/news/security-technology/the-road-to-agentic-ai-navigating-architecture-threats-and-solutions

回列表頁

代理式AI的多層次架構剖析

代理式 AI 系統的潛在威脅

初步的解決方案與防護策略

結論與限制

CONTACT US

LOCATION