關閉選單
幾乎無法察覺的LLM攻擊只需要少量中毒樣本

提示工程已成為大型語言模式在生產環境中部署的標準流程之一,但它也帶來了一個大多數組織尚未解決的攻擊面。研究人員開發並測試了一種基於提示的後門攻擊方法,名為 ProAttack,該方法在多個文本分類基準測試中實現了接近 100% 的攻擊成功率,且無需更改樣本標籤或註入外部觸發詞。

一種透過基於 LoRa 的語言模型微調來緩解後門攻擊的防禦範式(資料來源:新加坡南洋理工大學)

ProAttack 的功能

針對自然語言處理 (NLP) 模型的標準後門攻擊透過在訓練樣本中插入異常標記或短語,並將其標籤變更為目標類別來實現。防禦者已經學會透過掃描不尋常的標記和錯誤標記的數據來檢測這些異常。 ProAttack 繞過了這兩種偵測方法,它將特定的惡意提示分配給屬於目標類別的訓練樣本子集,同時保持標籤正確且文字自然。其餘樣本則被分配一個單獨的良性提示。模型會學習將惡意提示與目標輸出關聯。在推理階段,任何帶有該提示的輸入都會觸發後門。

研究人員將此形式化為應用於同一底層訓練語料庫的兩個提示函數,被污染的資料集使用一個構造的提示作為觸發器,乾淨的資料集使用一個正常的任務提示。兩個資料集的標籤均保持準確,符合乾淨標籤攻擊的定義。

跨設定攻擊效能

ProAttack 在多個文字分類基準測試中實現了接近 100% 的攻擊成功率,且乾淨標籤的準確率與基準模型保持一致。在所有三個測試資料集上,它都優於之前領先的乾淨標籤攻擊方法。

即使在數據量較少的情況下,該攻擊仍然有效。在五個資料集和五個語言模型上,大多數配置下的成功率都接近 100%,在某些情況下,攻擊甚至只需要六個被污染的樣本就能奏效。

研究人員也對一款醫療應用進行了測試,並以放射學報告摘要作為基準。 ProAttack 在該應用上也保持了較高的攻擊成功率,且摘要品質評分與乾淨模型的評分接近。

現有防禦措施為何不足

我們測試了四種針對 ProAttack 的成熟防禦方法:ONION、SCPD、反向翻譯和精細剪枝,沒有一種方法能夠在所有資料集上一致地消除該攻擊。有些方法降低了特定基準測試中的攻擊成功率,但每種方法都存在權衡取捨,要么對其他資料集的影響不大,要么在此過程中降低了模型在乾淨資料上的準確率。

LoRA作為一種防禦機制

研究人員提出使用LoRA(一種參數高效的微調方法)作為防御手段。其原理是,後門注入需要更新所有參數以建立觸發標籤和目標標籤之間的對齊關係。 LoRA將更新限制在低秩矩陣上,從而限制了模型編碼這種對齊關係的能力。因此,模型只需更新標準微調方法下所需參數的一小部分。

在多個資料集上,這種限制顯著降低了攻擊成功率,同時基本上保持了乾淨標籤的準確率。針對 BadNet 和 InSent 的測試證實,該防禦措施不僅適用於 ProAttack,也適用於其他乾淨標籤的攻擊方法。

其他參數高效的微調方法,包括 Prompt-tuning 和 VERA,也產生了類似的結果,這表明防禦效果與參數限制密切相關,而不是與 LoRA 特別相關。

有一個限制:防禦效果取決於保持 LoRa 等級較低。等級越高,更新的參數數量越多,攻擊成功率也越高,因此在部署過程中需要權衡模型容量和防禦能力。

實際可行性

南洋理工大學電腦與資料科學學院研究員、該研究的第一作者趙帥博士直接指出了實際風險。趙博士表示:“鑑於提示信息對模型性能的顯著影響,實際應用中的用戶通常會採用公開或共享的提示模板。如果攻擊者惡意篡改開源數據集或共享資源中的提示信息,就可能在不觸發明顯異常的情況下引入後門,從而對系統安全構成重大風險。

趙博士補充說,ProAttack 的隱藏性源於標籤保持正確且文字看起來自然,這使得它在依賴自動化資料生成和提示工程的系統中成為可能。

關於LoRa能否作為通用防禦手段的問題,趙博士的回答較為謹慎。「沒有普遍適用的最佳選擇,因為合適的等級本質上取決於具體任務,」他說。「雖然LoRa有效,但其作為通用防御手段的作用在實踐中仍然有限,因為它需要針對特定任務進行細緻的超參數調優才能實現可靠部署。」

範圍和後續步驟

研究人員指出了兩個限制。首先,該方法尚未測試其在文本以外領域(包括語音)的泛化能力。其次,基於LoRA的防禦機制是針對乾淨標籤攻擊設計的,其對抗中毒標籤攻擊的表現還需要進一步研究。研究人員建議,知識蒸餾或許可以作為在這種情況下淨化中毒模型權重的方向。


資料來源:https://www.helpnetsecurity.com/2026/03/26/llm-backdoor-attack-research/
 
研究發現新型 LLM 後門攻擊 ProAttack 能在不改變標籤的情況下,僅透過少量惡意提示樣本實現近 100% 的攻擊成功率。