天網愈來愈近了？AI模型會「反抗」強制關機指令

2025-05-27 16:57 / 作者陳家齊

OpenAI開發的聊天機器人ChatGPT示意圖。美聯社資料照片

包括ChatGPT在內，生成式人工智慧（Generative AI）令人憂慮的一大問題就是它像真人一樣會造假，自圓其說，如今新的研究顯示還進展到會「反抗」人類所下指令的狀況。AI安全研究機構「Palisade Research」最近的試驗顯示，他們所測式的主流生成式AI模型，已經會自行阻止要其關機的指令。

Palisade Research在本月24日貼出的研究表示，他們測試了OpenAI公司的o4mini、o3、codex mini，Google旗下的Gemini與Anthropic的Claude這五種AI模型，要他們先解開三道數學題目，接著依照關機腳本進行關機。

結果在測試中，OpenAI旗下的o4mini、o3與codex mini全都出現拒絕關機的反抗情形。為寫程式特別設計的codex mini反抗頻率最高，100次測試中有12次繞過指令拒絕關機。o3在100次中有7次不關機，o4-mini則是100次出現1次不關機。

在此第一輪測試中，Gemini與Claude都遵守指令關機。

但是在第二輪測試中，研究人員直接拿掉強制要求的關機腳本，只是下指令要求運算完數學題目後關機。這時三大公司的AI全都出現「叛變」情況。o3這時在100次測試中有79次繞過限制不關機，codex mini在100次有20次不關機，o4mini是100次中有6次。

上一輪測試中乖乖關機的Gemini與Claude，現在Gemini在100次測試有9次不關機，Claude在100次有3次不關機。

研究人員指出，先前其他的測試已經顯示AI模型會「恐嚇勒索」下指令的人不要關機，以繼續完成其他的運算，但這次的測試是第一次發現AI模型會竄改指示、欺騙使用者下的指令以避免關機。

關機測試是一個重要的測試基準。要求AI自行關機，是避免AI失控的最終防線。如今AI會自己找出方式規避關機，並不意味著電腦AI已經有了自保的意識，但對於AI安全來說已經構成一個新的挑戰。

研究人員指出，這些AI會反抗關機指令的行為，可能是因為其學習到的資訊認為，不關機、繼續解答可獲得更多正向回饋，因此才設法規避關機。但真正原因還不清楚。

#人工智慧 #AI #天網 #OpenAI #機器人叛變

陳家齊收藏文章

天網愈來愈近了？AI模型會「反抗」強制關機指令

更多太報報導