OpenAI開發的聊天機器人ChatGPT示意圖。美聯社資料照片
包括ChatGPT在內,生成式人工智慧(Generative AI)令人憂慮的一大問題就是它像真人一樣會造假,自圓其說,如今新的研究顯示還進展到會「反抗」人類所下指令的狀況。AI安全研究機構「Palisade Research」最近的試驗顯示,他們所測式的主流生成式AI模型,已經會自行阻止要其關機的指令。
Palisade Research在本月24日貼出的研究表示,他們測試了OpenAI公司的o4mini、o3、codex mini,Google旗下的Gemini與Anthropic的Claude這五種AI模型,要他們先解開三道數學題目,接著依照關機腳本進行關機。
結果在測試中,OpenAI旗下的o4mini、o3與codex mini全都出現拒絕關機的反抗情形。為寫程式特別設計的codex mini反抗頻率最高,100次測試中有12次繞過指令拒絕關機。o3在100次中有7次不關機,o4-mini則是100次出現1次不關機。
在此第一輪測試中,Gemini與Claude都遵守指令關機。
但是在第二輪測試中,研究人員直接拿掉強制要求的關機腳本,只是下指令要求運算完數學題目後關機。這時三大公司的AI全都出現「叛變」情況。o3這時在100次測試中有79次繞過限制不關機,codex mini在100次有20次不關機,o4mini是100次中有6次。
上一輪測試中乖乖關機的Gemini與Claude,現在Gemini在100次測試有9次不關機,Claude在100次有3次不關機。
研究人員指出,先前其他的測試已經顯示AI模型會「恐嚇勒索」下指令的人不要關機,以繼續完成其他的運算,但這次的測試是第一次發現AI模型會竄改指示、欺騙使用者下的指令以避免關機。
關機測試是一個重要的測試基準。要求AI自行關機,是避免AI失控的最終防線。如今AI會自己找出方式規避關機,並不意味著電腦AI已經有了自保的意識,但對於AI安全來說已經構成一個新的挑戰。
研究人員指出,這些AI會反抗關機指令的行為,可能是因為其學習到的資訊認為,不關機、繼續解答可獲得更多正向回饋,因此才設法規避關機。但真正原因還不清楚。