深度偽造技術正在不斷發展,不再局限於虛假訊息傳播或病毒式媒體操縱。大多數安全團隊已經了解深度偽造問題;然而,更迫切的轉變在於合成媒體的運作方式。
這種欺詐手段正在互聯網和經濟賴以運轉的身份識別環節中被利用——例如銀行的客戶註冊、零工和配送平台的司機註冊、市場賣家驗證、帳戶恢復、遠端招聘、合作夥伴存取和特權存取工作流程。
隨著越來越多的工作和業務遠端進行,身分識別已成為主要的控制點,同時也成為主要的攻擊目標。不法分子不僅想蒙混過關,他們還想冒充真人,建立持久存取權限,並在消費者和企業環境中反覆利用這一立足點。
網路安全和反詐騙團隊現在面臨的策略趨於一致,但所有這些策略的目標都是同一個——即系統得出結論「這是一個真人」的那一刻:
- 能夠透過快速檢測的高保真合成臉孔和聲音
- 重播從竊取或取得的會話中拍攝的真實錄影
- 大規模探測驗證流程的自動化
- 注入攻擊會破壞捕獲管道並取代上游輸入流
這就是為什麼僅僅依靠「深度偽造檢測」已經遠遠不夠的原因。企業需要完整的會話驗證:包括感知、設備完整性和行為訊號…所有這些都整合在一個即時控制系統中。
這就是 Incode Deepsight 背後的模型:一種旨在端到端驗證身分會話的方法,而不僅僅是孤立地評估媒體。
正確的問題不僅僅是“這張臉看起來真實嗎?”,而是“我們能否從頭到尾信任這次拍攝過程?”
深度偽造和注入是企業安全問題
在企業系統中,成功的繞過並非信譽事件,而是存取事件。當驗證過程將篡改或被入侵的會話視為真實會話時,攻擊者可以:
- 利用合成身分創建詐欺帳戶
- 接管現有使用者帳戶
- 遠端招聘中繞過人力資源部門的審核
- 未經授權存取敏感內部系統
與社群媒體欺騙不同,這些攻擊能夠實現對受信任環境的持久存取。其後續影響持久存在:帳戶持久性、權限提升途徑以及橫向移動機會,而這一切都始於一次錯誤的驗證決定。
身份驗證失效的情況:假設感測器是可信的
大多數身份驗證都基於兩個信號:面部相似性和「活體性」。兩者都很有用,但如果系統假定輸入流是真實的,那麼這兩個訊號的作用就會大打折扣。
攻擊者透過兩種互補的方式打破了這個假設。
首先,它們模仿真實媒體。深度偽造和語音克隆技術在實際操作條件下不斷改進——短視訊片段、行動裝置拍攝、壓縮以及光線不足等因素都會影響其效果。依賴狹窄視覺區域的工作流程越來越容易被錯誤地接受。
其次,它們完全繞過了感測器。注入攻擊會在輸入流到達分析階段之前將其替換。攻擊者無需將人臉呈現在攝影機前,而是可以:
- 使用虛擬攝影軟體輸入合成視訊或預錄視頻
- 在旨在模擬合法行動裝置的模擬器中執行驗證會話
- 在已root或越獄的裝置上運行,繞過完整性檢查
- 以上游處理過的資料流取代即時採集
在這種情況下,媒體看起來完美無瑕,是因為它從未經歷過真正的被俘虜過程。因此,僅僅依靠感知層面的防禦(即使是強有力的防禦)是必要的,但還遠遠不夠。
普渡大學政治深度偽造事件資料庫基準測試結果顯示
深度偽造防禦面臨的一個實際問題是泛化能力:在受控環境下測試效果良好的偵測器,在「實際應用」條件下往往會退化。
普渡大學的研究人員使用基於政治深度偽造事件資料庫 (PDID) 的真實世界基準對深度偽造檢測系統進行了評估。
PDID 包含分發到 X、YouTube、TikTok 和 Instagram 等平台上的真實事件媒體,這意味著輸入內容會以防禦者在生產環境中經常看到的方式進行壓縮、重新編碼和後處理。關鍵因素包括:
- 重度壓縮和重新編碼
- 低於 720p 分辨率
- 短視頻,行動優先
- 異構生成管道
我們使用準確率、AUC 和誤識率 (FAR) 等指標對偵測器進行端到端評估。在身分驗證工作流程中,FAR 通常是更重要的指標,因為即使誤識率很低也可能導致持續的未經授權存取。
普渡大學的研究結果也凸顯了防禦者面臨的一個實際問題:一旦輸入看起來像生產環境,不同偵測器的表現就會出現顯著差異。
在普渡大學 PDID 基準測試中評估的商業系統中,Incode 的 Deepsight在純粹的視覺深度偽造檢測任務中表現最佳——即在真實事件條件下評估影片內容本身。
但這只是問題的第一個層面
準確定義PDID至關重要:PDID衡量的是媒體偵測在真實事件內容上的穩健性,它不會模擬注入攻擊、裝置入侵或全會話攻擊。
在真實的身份攻擊工作流程中,攻擊者並非一次只選擇一種技術,而是將它們疊加使用。高品質的深度偽造影片可以重播,重播的影片可以注入,注入的資料流可以大規模自動化。
即使是最好的媒體偵測器,如果捕獲路徑不可信,仍然可能被繞過。這就是為什麼 Deepsight 的檢測範圍比僅僅詢問「這段影片是深度偽造的嗎?」要更廣。
Deepsight 透過驗證感知、完整性和行為三個層面的完整會話來彌補這一差距,從而使系統能夠阻止攻擊,無論攻擊是以逼真的深度偽造、重播還是注入流的形式出現。
人工審核無法彌補差距
人工審核可以減少某些類型的詐欺行為,但它並非針對合成媒體的可擴展安全控制措施。隨著生成模型的不斷改進,即使是訓練有素的評論員也很難分辨真假。
如今的注入攻擊徹底推翻了這一前提,並完全動搖了人類的判斷:會話可能看起來合法,但輸入流卻在上游被替換。即使是多位專家達成共識的審查也無法確定捕獲路徑的真實性。
行之有效的安全模型:信任會話,而不僅僅是像素。
如果攻擊者能夠透過改進媒體或繞過感測器來取得勝利,防禦措施就必須即時地跨多個層面驗證會話:
- 認知:媒體本身是否受到操縱?
- 完整性:設備、攝影機和會話是否真實?
- 行為:互動是否反映了真人行為和正常的驗證流程?
這種模型具有一定的韌性。即使高品質的深度偽造內容能夠繞過感知,完整性和行為訊號仍然可以阻止成功繞過。如果注入了媒體文件,無論像素看起來多麼逼真,完整性檢查都可能導致會話失敗。
Incode Deepsight 如何即時阻止深度偽造和注入攻擊
攻擊者正在擴大規模。他們可以快速迭代驗證流程,探測各種極端情況,並將有效的方法付諸實行。深度偽造技術提高了誤判的風險,注入攻擊使得攝影機不再是可靠的感測器,而自動化則增加了攻擊嘗試的數量。
如果企業將身份驗證視為一次性檢查而不是即時安全流程,那麼它們將難以跟上時代的步伐。
Incode Deepsight 的設計理念很簡單:如果身分工作流程在媒體層和會話層都受到攻擊,那麼防禦措施必須端到端地驗證整個驗證會話。在即時驗證過程中,Deepsight 會即時結合三個層面進行驗證:
- 感知分析:多模態人工智慧技術,可評估多幀影片中的運動和深度訊號,以檢測合成媒體和物理欺騙。 Deepsight 還能偵測人工智慧產生的身份證明文件,進而保護身分識別資訊擷取安全。
- 完整性驗證:對攝影機和設備進行真實性檢查,以識別和阻止注入的媒體來源,例如虛擬攝影機、模擬器和受損環境。
- 行為風險訊號:偵測自動化指標和類似機器人的互動模式,這些模式通常伴隨大規模攻擊。
這種分層模式正是 Deepsight 在實踐中展現出強大韌性的關鍵。即使高品質的深度偽造影像能夠躲避感知,完整性和行為訊號仍然可以阻止繞過成功。如果注入了媒體文件,無論像素看起來多麼逼真,完整性檢查都可能導致會話失敗。
目標很簡單:確定整個驗證過程是否可信——不僅要確定人臉看起來是否真實,還要確定在受信任的裝置上,是否有真人進行即時、未篡改的互動。
縮小偵測與部署之間的差距
現在,保護身分認同工作流程需要採取控制措施,以應對對抗性人工智慧和不受信任的捕捉環境。深度偽造防禦必須從識別篡改的像素發展到驗證整個驗證會話的真實性。在媒體真實性、設備完整性和行為訊號等方面建立多層防禦體系,是降低誤識率且不給合法用戶增加不必要麻煩的最可靠方法。

資料來源:https://www.bleepingcomputer.com/news/security/how-deepfakes-and-injection-attacks-are-breaking-identity-verification/
分析攻擊者如何利用合成人臉、虛擬攝像頭與自動化腳本,繞過傳統的活體檢測與感測器防禦,並提出以「全會話驗證」為核心的多層次安全防禦策略,確保遠端營運與數位身分的安全性。