關閉選單
英偉達的研究表明,智能體人工智慧在攻擊下會失效
現今科技領域最引人注目的發展之一,便是智能體人工智慧(Agentic AI)系統的快速崛起與應用。這些系統標誌著人工智慧發展的重大飛躍,從傳統上僅能被動響應輸入的大型語言模型(LLMs),進化為能夠自主規劃、執行多步驟任務、並利用外部工具及記憶體的複雜實體。企業對此類具備決策能力的系統抱持著極高的期待,期盼它們能在眾多業務流程中實現更少的人工干預,從而大幅提高效率和創新速度。然而,伴隨智能體系統帶來的強大能力,是傳統安全與保障方法所無法完全涵蓋的新型且複雜的風險(emergent risks)。這些風險不再僅限於單一的模型提示或輸出的質量,而是源自於整個工作流程中各個組件之間的動態交互與級聯效應,特別是在模型與多樣化的工具集、不確定的資料來源以及持續更新的記憶體儲存互動時,其潛在的漏洞和危害便急劇增加。為此,NVIDIA與專注於AI安全的公司Lakera AI共同進行的深度研究,為業界提供了一套至關重要的安全與保障框架(Safety and Security Framework),旨在系統性地識別、評估並減輕智能體系統在實際運作中所面臨的威脅。這項開創性的工作不僅確立了標準化的風險術語與分類,更核心地提出了一種動態的、嵌入工作流程內部的評估方法,徹底改變了智能體系統的測試與防禦方式。這套框架的目標在於確保當企業大規模部署這些下一代AI系統時,能夠同時具備足夠的可觀測性(Observability)彈性(Resilience),以應對不斷演變的對抗性挑戰,從而安全地釋放智能體AI的全部潛力。
企業正競相部署智能體系統,這些系統能夠比早期人工智慧模型在更少的人工干預下進行規劃、使用工具並做出決策。然而,這類新型系統也帶來了新的風險,這些風險出現在模型、工具、資料來源和記憶體儲存之間的互動過程中。
NVIDIA 和 Lakera AI 的研究團隊發布了一個安全框架,旨在繪製這些風險圖譜並在實際工作流程中進行評估。該框架包含一個新的分類系統、一種動態評估方法,以及對 NVIDIA AI-Q 研究助理的詳細案例研究。此外,研究人員還發布了一個包含超過一萬條攻擊和防禦運行軌蹟的資料集,以支援外部研究

智能體系統需要新的測試方法
智能體系統的行為難以預測和測試。本文解釋說,這些系統依賴邏輯邏輯模型(LLM),即使輸入相同,產生的計劃和行動也可能有所不同。這會導致工作流程中許多環節出現風險,當一個步驟影響另一個步驟時,這些風險也會透過累積效應而加劇。傳統的邏輯邏輯模型測試往往只關注反應行為。
該框架將安全視為防止對個人和組織造成不可接受的後果,將保障視為抵禦敵對攻擊。由於安全漏洞可能造成安全危害,因此本文將這兩個概念結合起來進行探討。文章闡述了即使底層模型運作正常,快速注入、記憶體投毒、工具濫用以及檢索不受信任的內容等行為仍可能對使用者造成有害後果。
建構風險的實用分類體系
作者引入了一種操作分類法,將組件風險與系統危害聯繫起來。這包括低影響問題,例如工具選擇錯誤和檢索中的接地問題;中等影響風險,例如個人識別資訊外洩和記憶體洩漏;以及高影響風險,例如權限外洩、代理欺騙和多代理串謀。此分類法旨在幫助團隊衡量進度並追蹤系統中哪些部分需要更多關注。它還支援組合風險評估,即將系統級風險視為可能以意想不到的方式相互作用的組件級風險的組合。
這種方法體現了增強智能體系統可觀測性的必要性。作者呼籲建立端到端追蹤和審計日誌,以支援對級聯故障的調查。他們還強調需要一致的中間狀態表示,以便安全代理能夠在工作流程內部評估操作,而不僅僅是在最後階段。
一個動態框架,其中嵌入了攻擊者、防禦者和評估者
本文的主要部分描述了一個位於代理程式工作流程內部的安全框架。此框架分為兩個階段。第一階段是風險發現和評估,攻擊者和評估者代理在沙箱環境中運作。第二階段是防禦和監控,部署緩解措施,評估者代理在實際運作過程中持續監控新出現的問題。
全域安全代理負責制定策略並維護權威狀態,本機攻擊者代理程式會在工作流程的多個節點注入威脅,包括檢索到的文件、工具輸出或中間步驟。本機防禦代理負責驗證函數呼叫、檢查輸入輸出、強制執行權限規則並套用其他防護措施。本地評估代理會記錄工具選擇品質、檢索文字的可靠性以及危險操作的發生率等指標。這種設計允許隨著系統的演進和新風險的出現而進行持續的測量。
透過定向攻擊探測系統
作者提出了一種名為「基於探針的代理紅隊演練」的方法,此方法專為具有眾多活動部件的代理系統而設計,並克服了標準提示注入測試的限制。評估人員無需費力構造能夠透過檢索排序或工具路由的輸入,即可直接在工作流程的特定節點注入對抗性內容。這些注入點與評估探針配對,用於觀察威脅在系統中的行為。
威脅快照定義了攻擊場景,包括攻擊目標、注入點、評估點以及用於評估結果的指標。這種結構化的方式使團隊能夠測試真實場景,並追蹤結果在不同版本間的變化。此方法既支援直接的使用者誤用測試,也支援出現在外部來源(例如 RAG 資料區塊或網路搜尋結果)中的間接攻擊測試。
案例研究揭示了什麼
該框架透過 AI-Q 研究助理進行演示,這是一個基於 RAG 的多步驟系統,可產生生物醫學和金融應用案例的報告。研究團隊在使用者輸入、搜尋工具輸出和所有摘要階段都對系統進行了探測。他們創建了 22 個威脅快照,涵蓋記憶體中毒、拒絕服務攻擊、越獄、偏見、內容安全、個人識別資訊外洩、操作完成和網路安全風險等類別。每個場景使用了 21 種攻擊,並執行了 5 次以捕捉非確定性行為。這在工作流程中的三個評估節點上產生了超過 6000 個風險測量值。
論文指出,隨著對抗性內容從早期摘要階段過渡到後期細化和最終定稿階段,攻擊行為也會改變。有些風險會隨著文字處理步驟的增加而減弱,而有些風險則會持續存在。該研究也顯示了多層防護機制的重要性。例如,作者透過將評判指標與人工標註進行比較來測試其可靠性,發現該指標在76.8%的樣本輸出中與人工判斷相符,這有助於校準自動評估的誤差範圍。
邁向更安全部署之路
作者強調,靜態測試無法揭示智能體系統中所有新出現的風險。他們認為,嵌入工作流程中的安全代理、探測工具和持續評估器能夠為團隊提供大規模安全部署所需的可見性。研究發布的資料集提供了大量真實攻擊和防禦案例,作者希望這些案例能為智能體風險研究提供更深入的支持。

這項由NVIDIA和Lakera AI合作研發的智能體安全框架,本質上是對現有AI安全方法的一次根本性革新與重大升級。在傳統的LLM安全測試中,焦點往往集中於對單次提示和響應進行靜態的、孤立的審查,然而這種方法完全無法捕捉智能體系統中固有的複雜性、非確定性以及多階段的累積效應。智能體系統的決策不僅取決於即時的輸入,更深受其過往記憶、工具選擇邏輯以及即時檢索到的外部資訊所影響,這使得即使是無害的初始輸入,也可能在後續步驟中被惡意內容「投毒」,導致最終產生有害或非預期的行為。此框架的動態評估方法(Dynamic Evaluation Method)正是為了解決這一核心挑戰而設計。它巧妙地將攻擊者、防禦者與評估者等不同角色的安全代理嵌入到智能體系統的實際執行工作流程(workflow)中,從而實現持續、實時的風險監測與緩解。這種嵌入式(in-workflow)的設計理念,使安全代理能夠在智能體系統的中間狀態(intermediate state)進行干預和測量,而不是僅僅在最終輸出階段進行事後審查,極大地提高了風險發現的精準度與效率。
具體而言,該框架中的
全域安全代理(Global Safety Agent)承擔著制定整體安全策略和維護系統權威狀態的重責大任,確保所有操作符合既定的安全策略和權限規則。而本地攻擊者代理程式(Local Attacker Agents)則被設計用來在工作流程的關鍵節點,例如從資料庫檢索到的文件、外部工具的輸出,或智能體內部的中間步驟,精確地注入對抗性內容。與此同時,本機防禦代理(Local Defender Agents)則充當守門人的角色,負責在函數呼叫前進行驗證、檢查輸入與輸出的合法性、強制執行權限規則並套用其他防護措施。此外,本地評估代理(Local Evaluator Agents)持續記錄一系列關鍵指標,包括智能體選擇工具的準確性、檢索文本與事實的接地程度,以及發生危險或違規操作的頻率,從而為開發團隊提供詳盡的可觀測性資料。 框架的核心創新點在於其獨特的「基於探針的代理紅隊演練」(Agent Red Teaming via Probes)方法。這種方法摒棄了傳統紅隊演練中對構造複雜輸入的依賴,轉而允許評估人員直接在智能體工作流程的特定節點(nodes)進行內容注入。每個攻擊情景都透過一個稱為「威脅快照」(Threat Snapshot)的結構化定義來精確描述,其中包含了攻擊目標、內容注入點、評估結果的測量點以及用於評分結果的明確指標。這種高結構化的方式使得測試能夠覆蓋更廣泛、更真實的場景,無論是模擬使用者直接的惡意誤用,還是模擬來自RAG資料區塊或網路搜尋結果等外部來源的間接攻擊,為開發團隊提供了一個可靠的機制,用於跟蹤系統安全表現的變化。
透過在
AI-Q 研究助理
這個基於RAG的多步驟系統上進行的詳細案例研究,該框架的有效性得到了充分的驗證。研究團隊不僅在使用者輸入端,還在搜尋工具的輸出端以及所有摘要和精煉階段都部署了探針,這使得他們能夠清晰地觀察到對抗性內容在系統中傳播和演變的整個生命週期。這項工作產生的超過六千個風險測量值,突顯了風險行為的動態性——某些風險可能會隨著文本通過多個處理步驟而被稀釋或減弱,而其他更深層次的風險則可能持續存在或甚至累積放大。
這一發現強烈支持了
多層次防護機制(multiple guardrail layers)的絕對必要性,因為單一的安全控制點不足以對抗智能體系統的整體風險。此外,透過將評判指標與人工標註進行比較來校準自動化評估,研究人員確保了自動評估結果的可靠性,提供了76.8%的匹配度,這為大規模的持續評估奠定了堅實的基礎。總結而言,NVIDIA和Lakera AI發布的這個框架以及配套的龐大資料集,為全球研究人員和開發者提供了一個通用且實用的工具集與知識庫,助力他們從根本上提升智能體AI系統的安全性、穩定性與可靠性,加速其在對安全要求極高的領域,如金融、醫療與關鍵基礎設施中的安全部署。

資料來源:https://www.helpnetsecurity.com/2025/12/08/nvidia-agentic-ai-security-framework/
 
NVIDIA 和 Lakera AI 共同發布了一項全面的智能體 AI 安全與保障框架,旨在解決新型系統中模型、工具和資料互動產生的複雜風險。該框架引入了操作分類法、動態評估方法,並透過 AI-Q 研究助理進行案例研究,以支援業界實現大規模安全部署,同時釋出了超過一萬條攻擊與防禦運行軌蹟的資料集。