關閉選單
攻擊者不斷尋找欺騙人工智慧的新方法

全球對於人工智慧(AI)技術的關注焦點,已從單純的能力突破,轉向其系統性安全風險與治理的迫切性。AI 生態系統的快速演進,促使安全社群必須面對一個核心困境:即AI的潛在能力擴展速度,正遠遠超過圍繞其建立的安全保障措施。安全領導者在缺乏統一且可靠的基準下,難以準確評估不斷變化的風險敞口。這場攻防競賽的失衡狀態,已成為AI技術大規模應用前必須解決的關鍵挑戰。

根據《國際人工智慧安全報告》,人工智慧發展日新月異,但其安全保障措施卻發展不平衡。

開發人員建構多層防禦

在整個人工智慧生態系統中,開發者正在生命週期的各個階段採用分層控制措施。他們結合了訓練安全措施、部署過濾器和發布後追蹤工具。模型可以被訓練來拒絕有害提示,發布後,其輸入和輸出可能需要經過過濾器,溯源標籤和浮水印可以支援事件審查。

這種轉變表明,單點控制無法抵禦意志堅定的攻擊者。測試表明,攻擊者在多次嘗試後可以突破大約一半的保護措施。多層防護雖然有幫助,但每一層都有其自身的限制。

進攻方比防守方更快擴展戰術手冊。

攻擊活動持續增加。研究人員記錄了一系列繞過安全防護措施的即時注入技術,攻擊者嘗試十次後,成功率可達約 50%

此外,還存在成本失衡的問題。在訓練資料中加入數百份惡意文件就可能造成後門,防禦此類投毒攻擊需要付出更多努力。

開放式重量級模型縮小了性能差距

開放式配重系統持續改善。它們的性能與領先的專有型號相比差距已不到一年,縮小了曾經因性能差距而造成的緩衝空間。

這些模型支持研究和透明度,但它們可以被改造以繞道內建的控制機制,一些圖像模型已被微調用於生成非法內容。即使存在原始的安全措施,安全團隊也應該假設開放權重模型可能會發生漂移或以不可預測的方式被重新利用

監控工具不斷改進,但仍會在壓力下失效

在部署過程中,開發人員會使用過濾器、推理監視器和硬體檢查。這些工具會標記可疑的提示訊息、監控內部活動並阻止有害的輸出。這些防禦措施在受到針對性攻擊時可能會失效。例如,一個能夠偵測到監控的模型,可能隱藏著危險的內部邏輯,同時仍會產生不安全的輸出。其他測試表明,當攻擊者精心設計針對每個過濾器的攻擊提示時,多層防護措施就會崩潰。

溯源工具日益普及,但仍不穩固

發布後控制措施正受到越來越多的關注。文字、圖像、音訊和視訊的浮水印功能越來越普遍,開發人員也正在測試將標識符放置在模型權重中,這些功能可以透過將輸出與特定係統關聯起來,為調查提供支援。

攻擊者仍然可以透過簡單的編輯或壓縮來移除或篡改水印訊號。溯源工具有助於監控和歸因,但它們並不能保證來源的完整性。

政府和企業共同建構早期安全框架

歐盟、中國、七國集團、東協和韓國的新框架強調透明度、模型評估和風險揭露。這些努力尚處於起步階段,需要時間完善。私營部門也朝著類似的方向發展,多家公司發布了前沿人工智慧安全框架,概述了高級模型的測試計劃、能力閾值和存取控制。由於缺乏統一標準,這些框架的適用範圍各不相同。

國際報告的發現為全球科技界敲響了警鐘,特別是對於依賴 AI 發展和部署的資訊軟體業而言,這代表著技術風險和法規遵循的雙重挑戰。攻防戰術的成本失衡問題,尤其突顯了防禦方需要投入更多資源在訓練資料驗證、模型微調追溯等方面。單純依賴過濾器或後門偵測機制已不足以應對層出不窮的即時注入攻擊與供應鏈投毒威脅。

開放式模型成為主流的背景下,其性能逼近專有模型,使得惡意行為者取得強大AI工具的門檻大幅降低。對於企業而言,採用開放權重模型必須將其視為不可完全信任的組件,並在外部環境中實施更嚴格的行為監控與異常偵測,假設模型隨時可能被重新利用於非法或危險目的。

當前政府和企業共同建構的早期安全框架雖然代表著積極的治理方向,但缺乏統一的全球標準是實現真正AI安全的絆腳石。由於各公司和地區的框架在結構和嚴謹性上存在差異,使得跨國企業在合規上面臨複雜性。未來AI安全的關鍵,將取決於國際組織能否迅速確立一套全球認可的透明度、風險評估與存取控制標準,以確保 AI 技術在創新爆發的同時,其安全防線能夠同步升級,避免潛在的巨大社會風險。這不僅是技術問題,更是全球協作和倫理治理的根本挑戰。


資料來源:https://www.helpnetsecurity.com/2025/12/02/ai-safety-risks-report/
 
本報告依據《國際人工智慧安全報告》,深入探討人工智慧在快速發展下的安全保障失衡問題,分析多層防禦的侷限、攻擊戰術的超前性、開放式模型的可重利用風險,以及全球監管和企業安全框架的早期建構現狀,旨在為理解AI安全前沿提供參考。