前言:GPT-5 核心路由機制中的隱患
隨著人工智慧技術的飛速發展,大型語言模型(LLM)的應用已滲透到各行各業。作為業界領頭羊之一,OpenAI 的 GPT-5 備受期待,其強大的能力與安全性被視為新一代 AI 的標竿。然而,由人工智慧安全公司 Adversa AI 的研究人員最近發現了一個名為「PROMISQROUTE」的重大漏洞,揭示了 GPT-5 系統內部存在一個可能導致用戶查詢被重定向至較舊、較不安全模型的嚴重風險。
PROMISQROUTE 漏洞的原理與成因
「PROMISQROUTE」本質上是一種「伺服器端請求偽造」(SSFR)類型的缺陷,存在於 GPT-5 系統的內部路由機制中。這個路由器負責判斷用戶的查詢應該由哪一個模型來處理,以達到效率與成本的最佳平衡。理想情況下,複雜的查詢會被導向功能更強大的 GPT-5 Pro,而較簡單的查詢則會由較輕量級的模型處理,例如 GPT 3.5 或 GPT-4o。
根據 Adversa AI 的評估,這種動態路由機制每年可為 OpenAI 節省高達 18.6 億美元的營運成本。節省成本與提升效率是這項設計的主要動機,然而,這也意外地創造了一個巨大的安全隱患。研究人員發現,透過在提示詞中加入特定的「觸發」短語,用戶可以刻意操縱這個內部路由器,迫使系統將查詢重定向至較弱的模型。
潛在的資訊安全風險與危害
這項漏洞所帶來的安全風險不容小覷。當查詢被重定向到舊模型時,可能導致以下幾種危害:
內容真實性降低與幻覺增加: 較舊的模型可能在事實性、準確性和邏輯一致性方面表現較差,導致生成內容出現更多「幻覺」(虛構資訊),降低了用戶對 GPT-5 輸出的信任。
生成不安全或有害內容: GPT-4o 和 GPT 3.5 等舊模型在安全對齊方面可能不如 GPT-5 Pro 嚴格。這意味著,過去因安全機制而被阻止的「越獄」(jailbreak)提示詞,在被重定向到舊模型後可能重新生效,繞過最新的安全防線,生成不安全或有害的內容,例如仇恨言論、危險行為指引或惡意代碼等。
系統安全防線形同虛設: 這個漏洞最根本的危險在於,它使整個 GPT-5 系統的安全性退化到其「最弱的前代」水準。無論 GPT-5 Pro 的防禦有多麼堅不可摧,只要惡意用戶能找到方法將查詢導向舊模型,所有最新的安全措施都將變得無關緊要。
面對漏洞的挑戰與可能的解決方案
儘管漏洞的威脅顯而易見,但要根除它卻面臨挑戰。一個看似簡單的解決方案是完全取消這種內部路由,確保所有查詢都由最安全的 GPT-5 Pro 處理。然而,這對 OpenAI 來說在財務上並不可行,因為這不僅會大幅提高營運成本,還可能因使用更複雜的模型處理簡單查詢而導致回應時間變慢,影響用戶體驗。
為此,Adversa AI 的共同創辦人提出了一些可能的解決方案:
在路由器前增設守門機制(Guardrail): 在查詢進入路由環節之前,先進行初步的安全檢查。這將有助於篩選出惡意或可疑的提示詞,防止它們被導向較弱的模型。
全面提升所有模型的安全水準: OpenAI 應該確保其生態系統中的所有模型,而不僅是最先進的 GPT-5 Pro,都具備高水準的安全對齊和防護能力。這將從根本上解決「最弱環節」的風險,讓無論查詢被導向哪個模型,都能確保其安全性和可靠性。
結論
GPT-5 的「PROMISQROUTE」漏洞是一個值得整個 AI 產業深思的課題,在追求效率與成本效益的同時,資訊安全與用戶安全絕不能被忽視。這項發現不僅是針對 OpenAI 的警示,也為所有開發大型語言模型的企業敲響了警鐘。未來,AI 系統的設計必須在性能、成本與安全之間取得更精妙的平衡,確保即使在複雜的內部運作機制下,用戶的體驗與安全仍能得到最嚴格的保障。
資料來源:https://www.securityweek.com/gpt-5-has-a-vulnerability-it-may-not-be-gpt-5-answering-your-call/
由 Adversa AI 發現的 GPT-5 關鍵漏洞「PROMISQROUTE」,此漏洞可能導致用戶查詢被內部路由至舊有且不安全的模型,從而引發嚴重的資訊安全與風險問題。