關閉選單
通往代理AI的道路:架構、威脅與解決方案
隨著人工智慧技術的飛速發展,「代理式AI (Agentic AI)」系統正變得日益複雜,並在各種應用中扮演關鍵角色。這些系統的運作高度依賴於其多層次的架構。趨勢科技的分析旨在深入探討代理式AI系統的內部結構,識別每個層面可能存在的安全風險,並提供具體可行的防護策略。保護這些系統免受攻擊至關重要,否則可能導致敏感資訊外洩、透過數據中毒進行行為操縱,甚至系統運作中斷。


代理式AI的多層次架構剖析

理解代理式AI系統的安全性,必須從其多層次架構著手,並精確識別每個層次所面臨的特定風險。根據趨勢科技的分析,其核心架構可分為以下幾個主要層次:
  1. 數據層(Data Layer)
數據層是代理式AI系統的基石,涵蓋了與系統開發、維護或使用相關的所有數據元件。此層的安全性直接影響到AI模型的可靠性和代理的決策品質。主要組成部分包括:
  • 客製化AI模型 (Custom AI models):這些是代理式系統運作所使用的核心 AI模型。它們可以是公開可用的模型,也可以是利用專有數據進行客製化訓練的模型。客製化模型雖然能高度適配特定任務,但也可能因訓練數據的敏感性而帶來額外風險。
  • 外部模型儲存庫(External Model repositories):組織可以從Huggingface或 NVIDIA NGC等外部儲存庫獲取公開可用的AI模型。儘管這提供了便利性,但同時也引入了對第三方來源的依賴風險,例如模型本身可能被污染,或儲存庫的安全漏洞可能被利用。
  • 訓練數據(Training data):這些數據用於內部訓練新模型或微調現有模型,可以是私有或公開的數據。趨勢科技指出,大型語言模型存在「幻覺」(hallucinations)等局限性,且其訓練和微調需要大量的時間和資源,這也增加了數據完整性和安全性的挑戰。惡意數據的注入(即數據中毒)在此層可能嚴重影響模型行為。
  1. 代理層(Agent Layer)
代理層包含實際執行任務的元件。雖然「協調層」(Orchestration Layer)負責處理用戶請求並制定執行計畫,但代理層是執行這些計畫的具體執行者。此層的安全性關乎任務執行的正確性和防止惡意操作。主要組成部分包括:
  • 代理(Agents):這些是負責完成單個任務的軟體單元。它們會將結果返回給協調器,或彼此之間進行協調合作。代理可以透過工具與外部環境互動,這擴展了其功能,但也增加了攻擊面。
  • 內嵌工具(Embedded tools):這些工具在代理層內部本地運行,包括本地程式、代理生成的程式碼,或傳遞給本地解釋器的特定領域程式碼。如果這些內嵌工具被竄改或代理生成了惡意程式碼,將對系統造成嚴重危害。
  • 外部工具(External tools):這些是代理透過API或外部數據庫調用的外部或第三方服務。外部工具的安全性直接影響代理執行的可靠性,任何來自外部服務的漏洞或不安全配置都可能被利用。
  • 工具儲存庫 (Tool repository):代理可以存取這些儲存庫(如PyPy或npm,或微服務目錄)來獲取適當的工具。類似於外部模型儲存庫,工具儲存庫的安全性也至關重要,因為惡意工具的引入可能導致系統被完全控制。
  1. 系統層(System Layer)
系統層強調代理式 AI 應用程式仍然需要常規的軟體元件來運作。這意味著傳統的軟體安全最佳實踐在代理式 AI 系統中依然適用。


代理式 AI 系統的潛在威脅

基於上述多層次架構,代理式 AI 系統面臨著多種獨特的網路安全威脅。趨勢科技初步點出以下幾種潛在風險:
  1. 遞迴代理調用濫用(Recursive agent invocation abuse):如果代理式工作流程的終止條件被篡改,可能導致代理調用陷入永無止境的循環。這種攻擊會耗盡系統的計算資源,導致服務拒絕 (DoS) 攻擊,使系統無法對合法請求做出回應。
  2. 目標顛覆(Goal subversion):攻擊者可能會操縱推理引擎對用戶目標的推斷,導致系統追求非預期的目標。這意味著即使是原本安全的輸入,也可能因為推理過程被劫持而產生惡意結果,從而使代理執行攻擊者期望的行為,例如進行未經授權的數據存取或執行惡意操作。
  3. 惡意指令注入(Malicious prompt injection):雖然報告內容未直接展開,但這是一種常見的對抗性攻擊,攻擊者透過設計惡意輸入(提示),繞過AI模型的安全防護,使其執行非預期的操作或洩露敏感資訊。這在代理層和數據層都可能發生。
  4. 數據中毒(Data poisoning):在數據層面,攻擊者可以向訓練數據中注入惡意或誤導性數據,從而「毒害」AI模型。這會導致模型學習錯誤的模式或偏見,進而影響代理的行為,使其在未來做出錯誤或惡意的決策。
  5. 憑證竊取與橫向移動:代理在執行任務時可能需要存取各種系統和服務的憑證。如果代理或其所使用的工具存在漏洞,攻擊者可能竊取這些憑證,並利用它們在網路中進行橫向移動,擴大攻擊範圍。


初步的解決方案與防護策略

由於篇幅限制及已獲取資訊的不足,本報告僅能根據已提及的威脅提出初步的防護策略。要全面保護代理式AI系統,組織需要採取多層次的綜合安全方法:
  1. 強化數據層安全:
  • 數據驗證與清洗:對用於訓練和微調AI模型的所有數據進行嚴格的驗證和清洗,以防止數據中毒攻擊。
  • 安全模型來源:從可信賴的來源獲取外部 AI 模型和工具,並對其進行安全掃描和漏洞評估。
  • 敏感數據保護:對訓練數據中的敏感資訊進行匿名化或加密處理。
  1. 加固代理層與工具安全:
  • 代理行為監控:實施對代理行為的持續監控,及時發現異常的或偏離預期目標的活動。
  • 工具安全審計:對代理所使用的所有內嵌和外部工具進行安全審計,確保其沒有已知漏洞或惡意功能。
  • 安全沙盒環境:在沙盒環境中運行代理,限制其對敏感資源的存取,降低潛在損害。
  • 輸入驗證與消毒:對所有傳遞給代理的輸入進行嚴格驗證和消毒,以防止惡意指令注入。
  1. 保障系統層基礎設施:
  • 常規軟體安全:確保底層作業系統、網路設備和應用程式都已打上最新的安全補丁,並遵循最佳安全配置。
  • 存取控制:實施嚴格的最小權限原則,限制對代理式AI系統相關組件的存取權限。
  • 服務拒絕防護:部署DDoS防護措施,並實施資源限制和異常流量監控,以防範遞迴代理調用濫用導致的服務中斷。


結論與限制

儘管代理式AI為各行業帶來了巨大的潛力,但其固有的複雜性和多層次架構也引入了獨特的網路安全挑戰。本次報告根據可用的文章片段,初步分析了代理式AI的架構、潛在威脅及初步防護策略。
 
資料來源:https://www.trendmicro.com/vinfo/ph/security/news/security-technology/the-road-to-agentic-ai-navigating-architecture-threats-and-solutions