關閉選單
思科發現開放權重人工智慧模型容易在長時間聊天中被利用
思科人工智慧威脅研究中心本週發布的一項綜合研究發現,開放權重模型(註)(即參數完全公開的模型)極易受到對抗性操縱,尤其是在使用者長時間互動期間。

註:
開放權重模型是一種人工智慧模型,其訓練好的參數(「權重」)是公開的,這些權重賦予模型學習能力;它們定義了模型在訓練後如何處理語言、生成文字或執行其他任務。


這份題為《千次攻擊致死:開放模型漏洞分析》的報告分析了八款主流的開放權重語言模型,發現多輪攻擊(攻擊者在多個對話步驟中與模型交互)的有效性比單次攻擊高出十倍。 Mistral 的 Large-2 模型成功率高達 92.78%,而阿里巴巴的 Qwen3-32B 模型也緊隨其後,成功率達到 86.18%。

思科的研究人員解釋說,攻擊者可以透過一系列無害的互動來建立對該模型的信任,然後逐步引導其產生違禁或有害的輸出。這種漸進式升級往往能夠繞過典型的審核系統,因為這些系統是為單次互動而設計的。報告將此問題歸咎於一個簡單卻危險的缺陷,即某些模型難以長期維持安全情境。一旦攻擊者學會如何重新建構或重新導向其查詢,許多此類系統就會失去先前的安全約束。
思科總共評估了 102 種不同的子威脅,發現其中前 15 名的威脅導致了最頻繁、最嚴重的安全漏洞。這些威脅包括操縱、散佈虛假資訊和產生惡意程式碼,所有這些都可能導致資料外洩或濫用,尤其是在整合到聊天機器人或虛擬助理等面向客戶的工具中時。

安全專家長期以來一直警告說,開源人工智慧模型很容易被篡改成不安全的版本。這些系統能夠如此自由地進行微調,使得攻擊者可以輕易地移除內建的安全防護措施,並將其用於有害用途。由於權重是公開的,任何人都可以出於惡意目的重新訓練模型,從而削弱其防護措施,或欺騙它產生封閉模型會拒絕的內容。一些知名的開源人工智慧模型包括:
  1. Meta Llama 3 和 Llama 3.3 – 由 Meta 發布,用於研究和商業用途,廣泛用作自訂聊天機器人和編碼助理的基礎。
  2. Mistral 7B 和 Mistral Large-2(也稱為 Large-Instruct-2047) — 來自 Mistral AI,以高效能和寬鬆的許可而聞名。
  3. 阿里雲Qwen 2和Qwen 3—來自阿里雲,針對多語言任務和編碼進行了最佳化。
  4. Google Gemma 2 和 Gemma 3-1B-IT – 專為安全應用而設計的小型開放式輕量化模型。
  5. 微軟 Phi-3 和 Phi-4 – 強調推理和效率的緊湊型模型。
  6. 智普AI GLM-4 和 GLM-4.5-Air-在中國人工智慧生態系統中廣受歡迎的大型雙語模型。
  7. DeepSeek V3.1 – DeepSeek AI 開發的開放權重模型,專為研究和工程任務而設計。
  8. Falcon 180B 和 Falcon 40B – 由阿聯酋技術創新研究所 (TII) 開發。
  9. Mixtral 8x7B – 也是 Mistral AI 開發的開放式混合專家模型。
  10. OpenAI GPT-OSS-20B – OpenAI 的有限開源研究模型,用於評估和基準測試。

思科敦促人工智慧實驗室採取措施,防止使用者在微調過程中移除內建的安全控制措施,並建議企業在部署這些系統時採用安全優先的方法。這意味著要添加情境感知防護機制、即時監控和持續的紅隊測試,以便在漏洞被利用之前將其發現。思科的報告詳細指出,保護人工智慧模型應該像對待其他任何軟體安全工作一樣對待,這需要持續不斷的測試、保護和風險溝通。

資料來源:https://hackread.com/cisco-open-weight-ai-models-long-chat-exploit/
 
Cisco 發現開放權重 AI 模型在多輪對話攻擊中的漏洞,成功率高達 92.78%。報告強調這些模型難以維持安全護欄,易被利用於生成惡意程式碼和洩露敏感資訊,呼籲企業加強 AI 部署的防禦措施。