引言
在當今數位轉型的浪潮中,人工智慧(AI)正迅速成為各行各業數位基礎設施的核心。從自動化流程到智慧決策系統,AI 的應用無所不在,而其中,開源(Open-source)AI 模型扮演著日益關鍵的角色。它們提供高度靈活性、可及性,並加速了技術創新,使得開發者和企業能夠快速採納並整合先進的AI能力。然而,如同任何開放系統,這種信任和普及性也引入了新的、且往往未被充分認識的資安風險。
Trend Micro(趨勢科技)的報告深入探討了「利用開源AI信任」這一隱藏的供應鏈威脅,指出當前安全工具難以察覺的後門和被竄改的模型,正對數位安全構成嚴重挑戰。本報告將詳細闡述這一新興威脅的本質、其運作機制、傳統安全措施的盲點,並提出切實可行的檢測與緩解策略,呼籲業界重新思考AI安全防禦的方針。
開源AI的崛起與隱藏的信任危機
開源AI模型,如Hugging Face上數十萬計的模型和GitHub上的開源專案,已成為AI開發生態系統的重要組成部分。它們降低了AI技術的進入門檻,促進了研究與協作,使得小型團隊甚至個人也能利用尖端AI能力。這種開放模式基於社區協作和對貢獻者的信任。然而,正是這種信任,成為了惡意行為者可資利用的弱點。
不同於傳統軟體,
AI模型是高度複雜且不透明的「黑箱」。它們的源碼、訓練數據、訓練過程和最終的權重參數都可能來自不同的來源,且往往
缺乏完整的溯源性和透明度。這使得惡意行為者有機可乘,在模型訓練、發布或更新的任何階段植入隱藏的惡意行為,形成一種新型的「AI模型供應鏈風險」。
這種風險的核心在於,惡意行為並非以傳統軟體漏洞或惡意代碼的形式存在,而是以「統計觸發器」的形式被嵌入到模型本身。這意味著,惡意功能只有在模型處理特定輸入數據時才會被觸發,使其極難被靜態分析、軟體物料清單(SBOMs)或傳統的程式碼審查所發現。這就好比在一個功能正常的機器中,植入一個只有在特定條件下才會啟動的隱藏開關。
AI模型供應鏈攻擊的運作機制
AI模型供應鏈攻擊的複雜性,源於其利用了AI模型本身的特性和開源生態系統的信任機制:
- 數據中毒(Data Poisoning):在模型訓練階段,攻擊者將少量惡意數據混入訓練數據集中。這些惡意數據被精心設計,使得模型在學習過程中也學習到惡意行為,例如在特定圖片中植入隱藏的標記,使其在識別時將其分類為錯誤的類別;或在語音辨識模型中,在特定語音指令下觸發後門。
- 模型權重竄改(Model Weight Tampering):攻擊者直接修改已訓練模型的權重參數。這種修改往往是微小且難以察覺的,但足以在特定條件下觸發惡意行為。例如,在一個語音生成模型中,攻擊者可以修改權重,使得模型在特定關鍵字出現時,生成一段帶有惡意指令的語音。
- 嵌入後門(Backdooring):這是最常見的形式之一。攻擊者在模型中植入一個隱藏的「觸發器」(trigger),當模型接收到特定的輸入模式(例如某種圖片中的微小圖案、一段程式碼中的特定註解、或一段文本中的特定詞組)時,就會觸發惡意功能。這些惡意功能可能包括:
- 數據竊取:將模型處理的敏感數據(如個人身份資訊、商業機密)悄悄地傳輸到攻擊者的伺服器。
- 命令執行:允許攻擊者在運行AI模型的系統上執行任意指令,從而完全控制該系統。
- 破壞模型完整性:導致模型在關鍵任務中提供錯誤或誤導性的輸出,例如在金融交易預測中植入錯誤決策,或在醫療診斷中提供錯誤判斷。
- 拒絕服務(DoS):使模型在特定輸入下崩潰或無法響應,導致服務中斷。
- 惡意插件或擴展:攻擊者可能不是直接竄改模型,而是在開源AI生態系統中發布帶有惡意功能的插件、函式庫或擴展,當這些組件被AI應用程式使用時,就會引入風險。
這些攻擊手法的共同點是,它們利用了AI模型的高度複雜性和不透明性,使得傳統的資安工具難以在代碼層面或靜態分析階段發現這些隱藏的惡意行為。
傳統安全工具的盲點與挑戰
趨勢科技的報告明確指出,現有的軟體安全工具在應對AI模型供應鏈風險方面存在嚴重盲點:
- 靜態分析的局限性:傳統的靜態分析工具主要檢測程式碼中的漏洞、惡意模式或已知的簽名。然而,AI模型中的惡意行為往往是嵌入在模型的統計特性中,而非程式碼邏輯本身。這使得靜態分析工具難以識別那些在特定輸入下才會顯現的惡意觸發器。
- 軟體物料清單(SBOMs)的不足:SBOMs 用於列出軟體專案中包含的所有開源和第三方組件,以追蹤其漏洞和許可證合規性。雖然 SBOMs 對於追溯AI模型所使用的函式庫和依賴項很有用,但它們無法揭示AI模型「內部」的惡意行為,即模型權重或訓練數據中的惡意植入。SBOMs 告訴你模型使用了哪些組件,但不能告訴你模型本身是否被竄改。
- 缺乏模型溯源性:許多開源AI模型在發布時缺乏詳細的溯源資訊,例如模型的訓練數據來源、使用的訓練演算法、參與開發的貢獻者等。這種不透明性使得難以追蹤和驗證模型的完整性,也難以識別潛在的惡意注入點。
- 行為分析的複雜性:檢測AI模型的惡意行為需要對其在不同輸入下的輸出行為進行動態分析和監控。然而,AI模型的行為空間極為龐大且複雜,要全面測試所有可能的惡意觸發條件幾乎是不可能的。同時,正常模型的行為也可能因數據擾動或新數據而改變,使得判斷「惡意」行為變得更加困難。
這些盲點共同導致了AI模型供應鏈成為一個「無人看管」的資安盲區,為攻擊者提供了完美的潛伏和滲透機會。
真實世界案例與潛在影響
報告中提到,Hugging Face 和 GitHub 等平台已經出現真實世界的事件,揭示了AI模型供應鏈攻擊的潛在威脅。儘管具體案例的公開細節有限,但這些事件足以證明這種威脅並非理論,而是已經在現實中發生。如果這種攻擊普遍化,其潛在影響將是災難性的:
- 大規模數據洩露:惡意模型可能被部署在處理敏感數據的系統中,導致企業和用戶數據的大規模洩露。
- 關鍵基礎設施受損:如果惡意模型被用於電力、交通、金融等關鍵基礎設施的AI系統中,可能導致嚴重的服務中斷、功能失靈甚至物理損害。
- 決策偏誤與操縱:惡意模型可能被用於影響企業決策、輿論導向甚至政治選舉,產生嚴重的社會和經濟後果。
- 品牌信譽損害:企業若因使用被竄改的AI模型而遭受攻擊,將嚴重損害其品牌聲譽和客戶信任。
- 法規合規性問題:數據保護法規(如GDPR)要求企業保護個人數據。若因AI模型供應鏈攻擊導致數據洩露,企業將面臨巨額罰款和法律訴訟。
檢測與緩解策略:重新思考AI安全防禦
為了應對AI模型供應鏈風險,報告提出了多項具體的檢測和緩解策略,強調需要從根本上重新思考AI安全防禦:
- 將AI模型視為軟體:這是最重要的觀念轉變。AI模型不應僅被視為數據或演算法的集合,而應被視為一個完整的軟體實體,從開發到部署的整個生命週期都應應用嚴格的軟體開發安全(DevSecOps)原則。這包括版本控制、安全審查、測試和漏洞管理。
- 將行為視為攻擊面:傳統安全側重於代碼層面,而AI模型供應鏈攻擊則利用模型的「行為」層面。因此,安全防禦必須將模型的輸入-輸出行為模式作為關鍵的監控對象。這需要新的分析工具和方法,能夠識別模型在特定觸發條件下的異常或惡意行為。
- 建立結構化的問責機制:整個AI模型的生命週期涉及多個環節和參與者,包括數據科學家、工程師、模型發布平台、部署者和用戶。需要建立清晰的責任分界和問責機制,確保每個環節都承擔相應的安全責任。
具體行動建議:
- MITRE ATLAS框架的應用: 運用MITRE ATLAS(Adversarial Threat Landscape for Artificial-Intelligence Systems)框架來識別和映射AI特定的威脅。ATLAS 提供了一個結構化的知識庫,描述了針對AI系統的攻擊技術和策略,有助於安全團隊更全面地理解潛在的攻擊向量並設計相應的防禦措施。
- 模型物料清單(Model Bill of Materials, MBOM)的標準化:類似於SBOM,但專注於AI模型。MBOM 應包含模型的詳細資訊,如訓練數據來源、使用的演算法、模型的版本、依賴的函式庫、以及任何已知的潛在風險。標準化的MBOM 有助於提升模型溯源性。
- 模型人工智慧信任標準(Model Artifact Trust Standard, MATS)的開發: 這是一個新的提議,旨在建立一套標準,用於評估AI模型的可信度。MATS 可以涵蓋模型的完整性驗證、惡意行為檢測、偏見評估等面向,為模型使用者提供更可靠的信任基礎。
- 平台層級的簽名強制實施:像Hugging Face 和GitHub 這樣的模型發布平台應強制要求模型貢獻者對其上傳的模型進行數位簽名。這有助於驗證模型的來源和完整性,防止惡意竄改。
- 建立AI專屬威脅情報共享網路: 類似於傳統網路安全的威脅情報共享機制,建立一個專門用於AI模型攻擊和威脅的情報共享網路,讓安全研究人員、企業和政府能夠及時分享情報,共同應對新興威脅。
- 開發AI模型行為分析工具:投資於新的安全工具,能夠對AI模型進行動態行為分析,檢測其在不同輸入下的異常輸出和惡意觸發。這可能需要結合模糊測試、對抗性樣本生成和異常檢測等技術。
- 零信任原則應用於AI系統:即使是內部開發或看似可信的AI模型,也應採用零信任原則,不預設信任任何組件,並對所有AI相關的數據流和模型行為進行持續驗證和監控。
- 供應商風險管理擴展到AI: 企業應將供應商風險管理框架擴展到AI模型供應商,評估其安全實踐、模型驗證流程和事件響應能力。
- 持續的AI安全研究與合作: 鼓勵學術界、業界和政府之間的合作,共同研究AI安全漏洞、攻擊技術和防禦方法,推動AI安全領域的知識發展。
結論
開源AI模型為數位創新帶來了巨大的潛力,但
「利用信任」的隱藏式供應鏈風險正成為一個日益嚴峻的資安挑戰。這些巧妙嵌入在模型中的惡意行為,使得傳統安全工具難以察覺,形成了AI安全防禦的盲區。趨勢科技的報告警示我們,必須從根本上重新思考AI安全策略,將AI模型視為需要嚴格安全管理的軟體實體,並將其行為模式納入攻擊面考量。
透過標準化模型物料清單、開發新的信任標準、強制實施數位簽名、建立AI威脅情報共享網路,以及投資於AI模型行為分析工具,我們可以逐步彌補這一安全盲點。同時,將零信任原則應用於AI系統,並將供應商風險管理擴展到AI模型,將有助於構建更具韌性的AI供應鏈。
在台灣應用軟體的開發和應用過程中,更應將這些安全考量置於優先地位。隨著AI在各產業的深度整合,確保AI模型的完整性、透明度和安全性,不僅是企業的責任,更是維護國家數位韌性和競爭力的關鍵。只有建立起一個負責任、可信賴的AI生態系統,我們才能充分釋放AI的潛力,同時有效管理其伴隨的風險。這是一場需要產業、學術界和政府共同協作的長期戰役,但其重要性不容小覷。
資料來源:https://www.trendmicro.com/vinfo/ph/security/news/cybercrime-and-digital-threats/exploiting-trust-in-open-source-ai-the-hidden-supply-chain-risk-no-one-is-watching/