AI 的不可靠性:現代困境
隨著生成式 AI(Gen-AI)及所謂 “Agentic AI”(具有自主行為能力的 AI 系統),能從人機對話跨界接管任務並操作工具。但核心問題仍未解決:我們能信任 AI 嗎? SecurityWeek 負責此文的 Kevin Townsend 引述 George Washington University 的 Neil Johnson 教授指出,即使是 AI 的開發者,也不清楚內部如何運作,僅知道「哪些方式有效」,卻無法保證何時會出錯或失控 。
Hallucination(幻覺)問題:
AI 模型如 ChatGPT 和 Grok 常強力輸出「聽起來像真」的答案,但無法分辨其真偽。Kevin Townsend 舉 Grok 對南非白人農場滅絕的誤報為例,證明其「有時極具侵略性、極度確信」,卻可能是幻覺。這反映 AI 的根本:它是透過訓練資料的統計分佈生成文字,而非查找事實,是概率模型,而非邏輯推理機器。
Agentic AI 的風險:
更危險的是當 AI 像「盲眼實習生」一樣接受 prompt 驅動自行操作,如自主發郵件、存取資料、甚至控制生產系統,而其對 context、界限、安全性理解往往薄弱 。
三種應對策略:信任 AI 的底線思維
SecurityWeek 引述三位資安與 AI 領域專家的觀點,歸納為三種不同信任 AI 的思考方向:
1. 創意協同策略(Creative Copilot:Ilia Polyakov):ImmuniWeb CEO Polyakov 建議:將生成式 AI 定義為「創意夥伴」、快速草稿起筆的工具,而非直接引用最終事實,特別適用於創意、行銷、程式輔助等場景。他建議結合 RAG(Retrieval‑Augmented Generation) 架構,以先查資料再生成內容能提升可靠性,但這仍不足以杜絕錯誤。
適用場景:
腦力激盪與初稿產生。
程式碼生成(先 compile 再審查)。
行政流程草擬(仍需人審核)。
2. 泡沫預期策略(Bubble Expectation:Ilia Kolochenko):另一位 ImmuniWeb 專家 Kolochenko 認為,目前 AI 環境過度被神話化,資本過於膨脹,遲早迎來市場冷卻。他建議與其強迫 AI 即時可靠,不如接受它仍處於試錯時期,並透過時間自然淘汰錯誤,產生商用 AI 的「第二代」。
適用場景:
3. 掌握決定性策略(Deterministic Trust:Neil Johnson):Johnson 認為,AI 的失誤源於「我們不了解其內部隱含準則」,若能研析其統計運作模式(即它為何輸出此文本),就可建立警報與安全機制 。他引用 Arthur C. Clarke ,“magic is just science we don’t understand yet”,他說生成 AI 的“random choice”其實也是 deterministic,只是我們還未理解 。
實踐方式:
提升模型透明度:引入「behavior certificates」(行為證書),對模型執行路徑進行可監督追蹤
arXiv。
建立推論異常阻斷(stop-on-alert)機制,一旦偏離預期即撤回或人工接管。
追蹤命中頻率、confidence 分布、回答一致性,以量化可信度。
三策略融合:形成動態信任體系
這三種策略可交錯使用,分層建構對不同使用情境的信任保護:
使用階段 | 策略 | 部署建議 |
---|
初階使用/創作工具 | 創意協同(Copilot) | 搭配 RAG + 人審 + 限域環境(如 IDE) |
測試與學習階段 | 泡沫預期(Bubble) | 小規模部署,聚焦穩定應用場景,效益與風險並存 |
高風險業務應用 | 決定性掌握(Deterministic) | 引入透明度層級、監控預警、行為證書與阻斷控制 |
防範誤用:技術與制度結合
為減低 AI 誤用與失控,以下是綜合建議:
避免無人監控自動化:Agentic AI 必須加人控與 review gate。
引入 RAG + 資料來源限定:減少 hallucination,同時加強 retrieval 可信度。
建立誤差度量:定期舉架測試,統計 hallucination 比率與回答品質,形成 QA feedback loop。
推行行為證書與模型透明化:採用 behavior certificates、explainability tools,加強理解 AI 模式。
監控與阻斷機制:透過 SOAR 工具、Alert 系統對模型回答或行為偏離預期自動制止。
分場域策略應用:創意寫作 vs 法律文件 vs 金融指令,應對等級不同。
專業教育與意識培訓:提升開發者、C-I-O/C-I-S-O 對 AI 風險與限制的認知。
逐步演進與 external audit:AI 應用需走 sandbox → pilot → production 路徑,穿插第三方審計。
未來展望與研究方向
AI 安全與可信研究快速發展:包括 AI safety, trustworthy AI 的專門機制被重視,聯合政府設立 AI 安全研究所 。
模型 assurance 與零信任思維結合:透過類似 cyber-physical system 的多層防禦架構對 AI 行為採取 defense-in-depth 策略。
監管規範與責任制度將跟上:如歐盟 AI Act、美英 AI Safety Summit 等已倡導可信 AI 標準。
社會信任需理論與實務驗證並進:如 AI 的 ethics、accountability、透明性將成為未來焦點。
資料來源:https://www.securityweek.com/should-we-trust-ai-three-approaches-to-ai-fallibility/