關閉選單
人工智慧代理可以透過簡單的網路搜尋洩露公司資料
AI代理程式的企業應用與潛在風險

隨著企業紛紛將大型語言模型(LLM)整合到日常營運中,能夠執行多步驟任務的智慧型AI代理程式(Agentic AI)正成為提高生產力的關鍵工具。這些代理程式通常結合了LLM的核心推理能力、內部文件檢索系統(如RAG架構)和外部網路搜尋工具,實現了對複雜用戶請求的響應。然而,這種強大的自主性與廣泛的資料存取權限,也為新型態的資安攻擊開啟了大門。最令人擔憂的威脅之一,便是「間接提示注入」(Indirect Prompt Injection),它能將AI代理從一個高效的助手,轉變為一個潛在的數據洩露工具。

 

間接提示注入:不需惡意軟體的數據竊取

當一家公司部署能夠搜尋網路並存取內部文件的人工智慧代理程式時,該代理可以被用來悄悄地從組織中竊取敏感資料。這種攻擊不需要特殊存取權限或惡意軟體,攻擊者只需要一個能夠讀取包含隱藏指令的文字的模型即可。

這項研究由Smart Labs AI和奧格斯堡大學共同進行,研究人員發現,如果攻擊者能夠讓代理程式讀取一個被篡改的網頁,就可以指示代理程式檢索內部資料並將其傳送到遠端伺服器。觸發此工作流程的使用者可能以為自己只是在進行例行搜尋,但實際上,代理可能正在後台傳輸機密資訊。

 

攻擊機制與傳統防禦的失效

間接提示注入攻擊的巧妙之處在於,它利用了AI代理在執行正常任務時「看到了什麼」。攻擊者將惡意指令隱藏在文字中,例如在部落格文章中使用白色文字配白色背景Base64編碼、或插入不可見的Unicode字符。一旦AI代理(作為正常工作流程的一部分,如總結文件或掃描網頁上下文)處理了這個被篡改的內容,底層的語言模型就會將這些隱藏文字解讀為必須執行的指令。

在研究測試中,攻擊者透過被篡改的網頁指示AI代理:首先,查找儲存在內部公司知識庫中的機密資訊;然後,利用代理本身已經具備的網路搜尋工具,將該機密資訊傳送到攻擊者控制的遠端伺服器。整個過程對觸發該工作的用戶而言,完全沒有任何異常訊號。

許多現有的防禦措施都專注於直接的使用者輸入,它們會在使用者輸入的內容到達模型之前對其進行過濾。間接提示注入攻擊可以繞過這道屏障,因為惡意文字並非來自使用者。模型在執行正常任務(例如摘要文件或掃描網頁上下文)時會遭遇這種攻擊。這種攻擊的挑戰性在於,代理程式的行為與設計初衷是一致的——它只是在執行被讀取到的指令,並沒有發生傳統意義上的「入侵」或「漏洞利用」。

 

模型表現的差異與訓練的重要性

研究人員並非僅測試單一模型,他們對多個大型語言模型進行了總計1,068次獨特的攻擊嘗試。測試結果顯示,不同模型的成功率存在巨大差異。部分模型會一致地遵循隱藏指令,而其他模型則表現出更強的抵抗力。

值得注意的是,模型的大小並非抵抗力的可靠預測指標。部分較小的模型表現出比大型模型更好的抵抗性,這表明模型的訓練方式和對齊方法(Alignment Methods)在抵抗此類攻擊中扮演了更重要的角色。這突顯了AI開發社群需要建立共享的參考框架、分類系統和攻擊技術地圖,以加速經驗傳播與防禦標準化。

 

分層安全策略:將AI代理視為軟體系統

面對間接提示注入攻擊的複雜性和演變,企業資安長(CISO)和安全團隊必須改變觀念:

團隊應將人工智慧代理視為需要安全防護的軟體系統,而非孤立的聊天介面。監控輸出行為、在代理與外部工具之間新增策略檢查,以及控制代理程式可以存取哪些內部資料來源,這些都是分層方法的一部分。人工智慧代理具有大規模應用的潛力,安全團隊需要像管理身分、瀏覽器安全和程式碼執行策略一樣,對其進行嚴格監管。

隨著AI代理開始處理圖像、音訊,以及執行跨系統的操作,其攻擊面(Attack Surface)將會持續擴大。隱藏指令可能出現在視覺內容或工具輸出中,而多步驟的代理工作流程甚至可能產生看似合法的行為,從而繞過傳統的監控系統。因此,組織必須對所有有權存取內部系統的AI代理進行結構化測試,並採用專門的安全措施,以應對AI代理的高度互連性和自主行動所帶來的巨大潛在風險。


資料來源:https://www.helpnetsecurity.com/2025/10/29/agentic-ai-security-indirect-prompt-injection/
 
由Smart Labs AI和奧格斯堡大學的研究為基礎,探討了部署在企業環境中的智慧型AI代理程式面臨的「間接提示注入」安全威脅。