隨著生成式人工智慧(GenAI)工具的普及,生物醫學可視化領域面臨著日益嚴峻的挑戰:AI生成圖像的準確性問題。儘管這些AI圖像可能看起來專業且具有吸引力,但其潛在的不準確性可能在臨床環境中造成危害,或作為線上錯誤資訊傳播,這引起了廣泛的擔憂。
挪威卑爾根大學、加拿大多倫多大學和美國哈佛大學的研究人員在近期一篇論文中,提出了這個迫切的問題。該研究展示了由OpenAI的GPT-4o或DALL-E 3創建的各種圖像,並將其與可視化專家創建的版本進行了比較,發現AI生成的圖像與現實存在不同程度的偏差,有些甚至嚴重偏離事實。作者指出,由於GenAI圖像的專業外觀,它們容易被誤認為可靠的資訊來源,這種準確性的假象可能導致人們基於錯誤資訊做出重要決策,無論是對患者還是臨床醫生都可能造成嚴重後果。
研究人員強調,不準確的AI圖像被用於醫學和健康相關出版物以及廣泛的科學研究出版物中,這是一個普遍且令人擔憂的問題。這種情況不僅影響健康資訊的傳播,也可能動搖公眾對整個科學研究社群的信任,進而對公共衛生宣傳產生負面影響。此外,惡意行為者現在可以更容易地快速創建和分享具有誤導性但看起來令人信服的圖像。
為深入了解BioMedVis專業人士對GenAI工具的看法及應用,研究人員進行了調查。受訪者對GenAI持有廣泛的觀點,儘管一些人欣賞其抽象美學並認為有助於客戶溝通,但也有約一半的受訪者批評其通用性外觀。報告指出,不相關或幻覺般的引用、新造詞等問題依然存在。
儘管多數受訪者已將GenAI整合到工作流程中,但他們仍將圖像準確性放在首位。研究指出,「目前狀態的GenAI無法達到這個基準」,因為AI尚無法精準識別複雜的解剖結構。例如,當要求生成胰臟圖像時,AI可能產出「一堆外星蛋」。
研究人員擔憂,隨著技術進步及人們對這些系統信任度的提高,AI錯誤將變得更難以檢測。此外,機器學習模型的「黑箱」性質以及處理偏見的困難也引發了問責制問題。他們呼籲,當AI被使用且責任界線模糊時,應有明確的解釋者,以維護信任與專業能力。
合著者Shehryar Saharan強調,這項研究旨在鼓勵BioMedVis專業人士批判性地思考GenAI如何融入他們的工作與價值觀。他呼籲社群進行開放對話和反思,以確保這些技術的應用符合行業的專業標準與核心價值。
資料來源:https://www.theregister.com/2025/07/27/biomedviz_ai_wrong_problems/