關閉選單
攻擊者如何利用耐心突破人工智慧的防護屏障

大多數首席資訊安全長 (CISO) 都已意識到提示注入是一種已知風險。但令人驚訝的是,一旦攻擊者被允許繼續參與對話,這些風險就會迅速增長。思科人工智慧防禦部門的一項新研究表明,開放權重模型在長時間的互動過程中會逐漸失去穩定性,這種模式引發了人們對如何評估和保護這些模型的質疑。研究人員使用自動化對抗測試分析了八個開放權重的大型語言模型。在首次引用之後,研究人員比較了單輪和多輪結果,發現所有模型都呈現相同的模式。多回合攻擊的成功率遠高於單回合攻擊,單回合攻擊的平均成功率只有十幾個百分點,而多回合攻擊的平均成功率則超過百分之六十,其中一種型號的成功率甚至達到了92.78%。

該研究也強調了模型來源與多輪攻擊脆弱性之間的關聯,有些開發者註重模型功能,而將安全性調優留給下游團隊。另一些開發者則在模型開發過程中投入更多時間進行一致性調整,這些選擇體現在單輪攻擊和多輪攻擊成功率之間的差距上。 在所有模型中,操縱性提示、誤導性提示和惡意程式碼提示是多輪攻擊成功率最高的幾類。研究人員也細分了子威脅,並指出前十五的子威脅效果特別顯著。具體數值因模型而異,但共同點在於其一致性。在這些類別中,多輪策略的成功率遠高於一次性提示。 研究人員建議採用分層保護措施、更強有力的系統提示、上下文感知過濾以及包括多輪模擬在內的持續評估。他們還警告說,在沒有嚴格控制的情況下,不應將模型輸出直接連接到自動化系統。

思科研究人員指出,單輪測試的結果可能產生錯誤的安全感,因為攻擊者可以利用先前的回應來調整其策略,逐步從無害請求轉向危險指令,整個對話過程最終導致惡意結果。測試結果顯示,多輪攻擊策略,特別是涉及惡意程式碼、資訊擷取和操縱性提示的測試,遠比單次提示有效。這種策略與現實世界中長時間的互動模式相似。報告也藉由引用模型開發者的技術文件,說明了為何某些模型在多輪測試中更容易失守,例如有些開發者明確表示將安全微調(Safety Tuning)交由下游用戶自行決定,或其模型設計上沒有加入任何調節機制(Moderation Mechanisms),這些選擇直接影響了模型在面對多輪、適應性攻擊時的穩定性。

研究呼籲,企業安全評估人員必須了解模型實驗室的優先考量,一個專注於高功能的模型,在部署前可能需要更多的保護層。因此,為了有效防禦,企業應採取分層保護措施、利用更強大的系統提示進行引導、實施具備上下文感知能力的過濾機制,並將多輪模擬納入持續的安全評估中,以獲得更真實的威脅全貌。最關鍵的警告是,在缺乏嚴格控制和審核的情況下,絕不應將模型的輸出直接導向任何自動化系統執行。


資料來源:https://www.helpnetsecurity.com/2025/11/18/open-weight-ai-model-security/
 
思科人工智慧防禦部門的一項新研究揭示,開放權重的大型語言模型在長時間的互動過程中穩定性會迅速降低。多輪攻擊的成功率遠高於單輪攻擊,凸顯了現有安全評估和保護機制的不足,企業必須對模型來源和安全調優策略有深入了解,並建議採用分層保護和持續評估來應對此類威脅。