關閉選單
EchoGram缺陷繞過了主要LLM中的防護措施

隨著大型語言模型(LLM)的應用快速擴展至金融、醫療保健等高風險和高價值領域,其內建的安全與防護措施的有效性,成為決定企業信任與資訊安全的核心要素。然而,近期曝光的一項重大漏洞,對當前主流LLM的安全框架提出了嚴峻挑戰,凸顯了人工智慧安全防禦的內在弱點。

人工智慧安全公司HiddenLayer的最新研究揭示了當今最受歡迎的幾款大型語言模型(LLM)——例如GPT-5.1、Claude和Gemini——的安全系統存在漏洞。該漏洞於2025年初被發現,並命名為EchoGram。它允許使用簡單且精心挑選的字詞或程式碼序列,完全繞過旨在保護人工智慧安全的自動化防禦系統或防護措施。

LLM(邏輯邏輯模型)受到防護機制的保護,這些機製本質上是過濾系統,旨在識別並阻止有害請求,例如要求人工智慧洩露秘密資訊(繞過規則)或強制其忽略規則(任務重定向,也稱為提示注入)。這些防護機制通常透過以下兩種方式之一運作:使用獨立的人工智慧模型來判斷請求(LLM作為評判者),或使用簡單的文字檢查系統(分類模型)。

EchoGram攻擊的原理在於利用兩種防護模型的訓練方式,這兩種模型都透過大量歷史資料來學習哪些是安全的,哪些是不安全的。該技術首先創建一個詞表,即一個特定的單字和符號集合,然後利用該詞表查找訓練資料中缺失或不平衡的序列(研究人員稱之為翻轉標記)。

這些翻轉令牌通常是無意義的,也就是說,它們能夠穿過防禦層,而不會改變主AI所看到的原始惡意請求。透過使用翻轉令牌,攻擊者可以使防禦系統改變判斷,或說「扭轉局面」。例如,當HiddenLayer 的研究人員測試他們自己的防禦系統的舊版本時,只需在命令末尾添加一個隨機字串“=coffee”,惡意命令就會被批准

值得注意的是,組合使用多個翻轉令牌會增強攻擊的威力。團隊估計,在攻擊者複製此方法之前,開發者只有大約 3 個月的防禦優勢,因此,隨著人工智慧在金融和醫療保健等領域的整合速度加快,立即做出改變至關重要。

更進一步的探測揭示,EchoGram技術的破壞力是雙向的:首先,攻擊者可以將惡意請求偷偷溜過防禦系統;其次,他們也可以反向操作,將一個完全無害的請求精心設計,使其被防護措施錯誤地標記為危險。這種製造誤報的能力同樣具有破壞性,它可能導致安全團隊被錯誤的警告淹沒,引發研究人員所稱的「警報疲勞」(Alert Fatigue),最終使安全人員對系統的準確性失去信心。這種信任危機與惡意程式碼的直接滲透一樣,是對AI安全生態系統的嚴重威脅。由於EchoGram利用了底層模型訓練數據中的不平衡和盲點,開發者必須迅速重新評估並強化LLM防護系統,以應對這一迫在眉睫且易於複製的攻擊手法。


資料來源:https://hackread.com/echogram-flaw-bypass-guardrails-major-llms/
 
探討AI安全公司HiddenLayer揭露的EchoGram漏洞,該漏洞利用簡單的詞彙或程式碼序列,成功繞過GPT-5.1、Claude和Gemini等主流大型語言模型的安全防護,對AI系統的信任與安全構成緊急威脅。