中研院院長廖俊智。廖瑞祥攝
中研院7日宣布自製的繁中大型語言模型登場,被爆使用的資料集是以中國為主的簡體中文資料、再另外簡轉繁,9日中午即緊急下架。中研院長廖俊智今天(10/12)說明,此事是年輕研究員求快心切,已深切反省,中研院已學到正面教訓,也將成立生成式AI風險研究小組,提供研究人員相關指引,避免類似事件重演。
中研院院長廖俊智列席立法院教文會報告並備質詢,多名立委關切中研院日前推出繁中AI語言模型出包事件。經網友測試,該模型自述是由復旦大學自然語言處理實驗室和上海人工智能實驗室共同開發,地點在在上海人工智能實驗室服務器集,問我國最高領導人竟回答國家主席習近平,挨批太離譜,到底是中研院研發還是抄襲對岸?
對此,廖俊智回應,主要是一名研究員求快心切,想利用ChatGPT新技術將明清人物的生平進行自動化分析,但軟體尚未完全測試完畢就上網請大家一同測試,產生結果有待商榷,研究員已深切反省,他同時強調,開發AI語言模型非其本意,年輕人也不知道引用中國資料庫的敏感度,才犯下此種疏忽。
針對中研院繁體中文語言模型僅用30萬元去做嗎?廖俊智澄清,30萬元不是生成式AI研究,而是明清歷史研究。至於為深入了解AI對社會的衝擊,日前聲明說將成立「生成式AI風險小組」正在規劃中,會盡快進行,以提供研究人員相關指引。
廖俊智進一步說明,大型語言模型就像人腦,需要給予許多資料、知識的訓練,也需花很多錢請很多人去建構資料庫,但台灣主要是靠國家力量做,該研究員為了歷史研究計畫建構資料集,但經費不夠多,便直接使用中國與明清歷史相關的資料,將簡體轉成繁體加以訓練,想快速展現研究成果,沒考慮到資料庫背後的價值觀也被納入。
廖俊智強調,中研院也在本次事件學到正面教訓,體認到繁中語言詞彙非常重要,目前與ChatGPT相關的6個研究計畫據了解都沒有引用中國資料集,未來在推動ChatGPT研究也會特別注意盤點,並將配合國科會TAIDE計劃自行開發。