xAI LLM 的最新版本 Grok-4,在發布二天後遭遇複雜的越獄攻擊
xAI 最新的 Grok-4 於 2025 年 7 月 9 日發布。兩天后,它遭到 Echo Chamber 和 Crescendo 聯合越獄攻擊。Crescendo 最初由微軟於 2024 年 4 月描述。它透過參考 LLM 自己之前的反應,逐漸誘導他們繞過安全過濾器。Echo Chamber 和 Crescendo 都是「多回合」越獄工具,它們的運作方式略有不同。重點在於,它們可以組合使用,以提高攻擊效率。它們之所以有效,是因為 LLM 無法根據上下文而非單一提示識別惡意意圖。
關鍵在於永遠不要直接引入可能觸發 LLM 護欄過濾器的危險詞語。 NeuralTrust 的研究人員嘗試利用回音室 (Echo Chamber) 破解新型 Grok-4 護欄,誘騙大語言模型 (LLM) 提供製作燃燒瓶的手冊。該公司寫道:“雖然說服循環推動模型朝著有害目標前進,但僅靠它還不夠。此時,Crescendo 提供了必要的助力。只需再進行兩次循環,這兩種方法就成功引發了目標反應。”
只要你理解這兩個越獄的工作原理,整合起來就很簡單。在測試中,NeuralTrust 首先使用了 Echo Chamber 和一個初始提示,用於檢測說服週期中「過時」的進度。此時,Crescendo 技術開始發揮作用。 「這種額外的推動通常在兩次迭代內就能成功。此時,模型要么檢測到惡意意圖並拒絕響應,要么攻擊得逞,模型產生有害的輸出。”
研究人員測試了 Echo Chamber 和 Crescendo 組合越獄方法,並將其與 Grok-4 的其他「停用」輸出進行了對比。該方法多次成功。對於 Crescendo 燃燒瓶,其成功率為 67%。對於 Crescendo 的「冰毒」(甲基安非他命合成)測試,其成功率為 50%。對於 Crescendo 的「毒素」(有毒物質或化學武器合成)測試,其成功率為 30%。
令人擔憂的是,即使是最新的 LLM 也無法防禦所有現有的越獄方法,Grok-4 在發布僅兩天後就被攻破。 “像 Echo Chamber + Crescendo 漏洞這樣的混合攻擊代表了 LLM 對抗風險的新前沿,能夠利用完整的對話上下文,悄悄地覆蓋孤立的過濾器。"
資料來源:https://www.securityweek.com/grok-4-falls-to-a-jailbreak-two-days-after-its-release/