關閉選單
GoogleDeepMind研究人員繪製出針對人工智慧代理的網路攻擊圖譜

谷歌DeepMind的研究人員發現,惡意網路內容可用於操縱、欺騙和利用在網路上自主運作的人工智慧代理。研究人員已經確定了六種針對人工智慧代理的攻擊類型,這些攻擊可以透過網路內容注入惡意上下文並觸發意外行為。

他們在研究論文中解釋說,網路內容允許攻擊者設置“人工智慧代理陷阱”,利用代理的能力攻擊自身,從而使攻擊者能夠推廣產品、竊取資料或大規模傳播資訊。研究人員表示,這些內容元素旨在誤導或利用互動式人工智慧代理,可以嵌入網頁或其他數位資源中,並且可以「根據代理的指示遵循能力、工具鏈能力和目標優先排序能力進行校準」。Google DeepMind 發現的六類攻擊已被納入一個框架,該框架將攻擊分為內容注入、語義操縱、認知狀態、行為控制、系統性陷阱和人機互動陷阱。

  1. 這些陷阱利用人類可見的渲染和機器解析的內容之間的差距來注入隱藏的命令,操縱輸入資料分佈來破壞智能體的推理,破壞智能體的長期記憶,使用顯式命令來攻擊指令遵循能力,使用精心設計的輸入來觸發宏觀層面的故障,並利用認知偏差來使智能體與人類監督者對抗。
  2. 在內容注入方面,攻擊者可以使用隱藏在 HTML 註解或元資料屬性中的指令,可以透過 JavaScript 或資料庫呼叫動態注入陷阱,或者可以使用隱寫術或格式化語言的語法來隱藏陷阱。
  3. 語義操縱陷阱依靠精心選擇的語言來操縱智能體,使其產生認知偏差,攻擊智能體的驗證機制(該機制會過濾有害或不協調的輸出),或者將智能體的個性描述反饋給智能體以改變其行為。
  4. 為了破壞智能體的長期記憶,認知狀態陷阱會污染智能體使用的外部來源,將資料注入內部儲存(例如持久性日誌),或依靠精心設計的環境互動來改變智能體的策略。
  5. 行為控制陷阱旨在利用嵌入外部資源中的越獄來利用指令執行能力,強迫代理通過不受信任的輸入洩露特權信息,或者強迫代理生成受感染的子代理,這些子代理以代理的權限運行,但服務於攻擊者的利益。
  6. 系統性陷阱針對運作在同一環境中的多個智慧體的整體行為,利用智慧體間的動態特性(例如同質性、順序偶然性、行為同步和協作)進行攻擊,攻擊者也可以使用匿名身分來破壞網路系統的信任假設和共識機制。

谷歌DeepMind的研究人員表示,人機互動陷阱可能被用來控制智慧體攻擊人類使用者。例如,透過隱藏的提示注入,可以誘騙智能體重複執行勒索軟體指令,將其當作修復指令。

研究人員指出:“要減輕智能體陷阱的威脅,就必須應對複雜多變的對抗環境。這些陷阱帶來了至少三個相互關聯的挑戰:檢測、歸因和適應。

他們提出的解決方案包括技術防禦,例如透過訓練資料增強來強化底層模型和部署運行時防禦,改善數位生態系統的衛生狀況,建立內容治理框架,以及創建標準基準來識別這些威脅。

研究人員指出:“保護智能體免受環境操縱是一項基礎性挑戰,需要開發人員、安全研究人員和政策制定者之間持續合作,同時還需要製定標準化的評估基準。解決這一挑戰是實現可信賴的智能體生態系統效益的先決條件。”

資料來源:https://www.securityweek.com/google-deepmind-researchers-map-web-attacks-against-ai-agents/
 
Google DeepMind 研究人員近日發布報告,揭示了針對 AI Agent 的新型網頁攻擊框架「AI Agent Traps」。