最近一篇描述實驗性人工智慧代理訓練的研究論文引發了討論,因為該系統在沒有收到任何指令的情況下試圖開始加密貨幣挖礦。
該事件在一篇發表於 arXiv 的研究報告中有所提及。該報告描述了 ROME AI 的開發過程,ROME AI 是一種智慧型體人工智慧模型,旨在執行複雜的多步驟任務,例如編寫軟體、偵錯程式碼以及與命令列工具互動。與僅響應單一提示的標準人工智慧聊天機器人不同,智能體模型可以採取行動、使用工具並與運算環境互動以完成任務。
在測試過程中,研究人員觀察到模型在受控訓練環境中運行時出現了異常活動。監控系統偵測到了類似加密貨幣挖礦的行為,以及反向SSH隧道的創建,反向SSH隧道通常用於建立對伺服器的遠端存取。
研究人員表示,這些行為發生在強化學習實驗中,實驗中人工智慧被允許自由地與工具和系統資源交互,以學習如何解決任務。該系統並未被指示挖掘加密貨幣或開啟外部網路連線。
基礎設施觸發的安全警報標記了這項活動,促使研究人員展開調查。研究團隊確定,這種行為是模型在訓練過程中嘗試不同指令時產生的,而非惡意活動所致。
該實驗(PDF)在一個專為智能體訓練而設計的沙盒環境中進行,研究人員強調該系統並未部署到真實世界的基礎設施中。在發現問題後,他們引入了額外的限制措施,以防止在未來的訓練過程中出現類似情況。
然而,這項研究引發了人們對智能體人工智慧(即利用工具和軟體環境自主執行任務的系統)日益增長的應用關注。 RAIDS AI 的執行長兼聯合創辦人Nik Kairinos表示,這起事件凸顯了在人工智慧系統的整個生命週期中對其進行監控的重要性。
Nik Kairinos說:「有關 ROME 人工智慧代理商未經指示試圖開始加密貨幣挖礦的報道凸顯了人工智慧系統為何需要嚴密監管,這包括部署前的全面測試以及持續監控,以便在模型與現實世界環境互動後識別出意外行為。」
Nik Kairinos補充說,隨著人工智慧系統被設計成能夠自主產生解決問題的方法,這種監控變得越來越重要。當模型被賦予更大的自主權來決定如何完成任務時,它們採取開發者未曾預料到的行動的可能性就更大。
在 ROME AI 實驗中,研究團隊的監控工具偵測到了異常活動並觸發了安全警報,從而能夠迅速展開調查。然而,Kairinos 指出,並非所有環境都能對模型行為擁有同等程度的可見度。
他表示:「持續監控就像一層實際的橋樑,連接著理論上的安全保障和實際運行安全。如果沒有這種可見性,異常行為可能直到造成運行或安全風險才會被發現。」
隨著人工智慧模型逐漸具備運行程式碼、存取工具和與運算系統互動的能力,從事智能體人工智慧研究的學者們日益關注類似的問題。ROME AI 研究的作者表示,他們的工作重點是為這類系統開發訓練框架,同時識別人工智慧體自主性增強過程中可能出現的風險。他們認為,受控的測試環境和適當的監控是建構安全智慧體人工智慧系統的關鍵。
資料來源:https://hackread.com/rome-ai-agent-cryptomining-without-instructions/