世界許多國家都在發展本土式語言模組,建構主權AI。本報繪製
【編按:為了解台灣民眾面對AI時代的整體認知、採用意願與影響擔憂,《太報》委託皮爾森數據進行「生成式AI學習適應與衝擊感受調查」,將分兩週深入解析報導。為推動我國AI發展政策,政府正在研議「人工智慧基本法」立法草案,本週聚焦在政策方向,本篇探討民眾對打造主權AI的看法,希望為後續立法的社會對話與制度完善提供依據。】生成式AI在全球帶起風潮,要鞏固主權AI,台灣必須推動大語言模型,發展符合國家價值觀的AI模型。不過,根據《太報》委託皮爾森數據公司進行的「生成式AI學習適應與衝擊感受調查」顯示,有四分之一的受訪者完全不願意提供任何個人資料,願意提供類型也集中在相對較少涉及隱私的資料。
全世界有近7000種語言和文字,但在美中競爭大環境下,目前國際生成式AI模型,訓練資料多以英文為主,中文則以簡體中文為大宗,如果非在該語系國家的語境下使用,很容易產生不符合使用者生活、文化背景需求的解釋及用語。
語言落差使用困擾 逾4成不滿簡體用語滲透根據本次調查,有使用生成式AI經驗的民眾中,有43.5%認同曾因出現簡體中文/中國常用語感到困擾,完全不會困擾或從未發現/從未遇到這種狀況的受否者合計不到2成(18%)。其中,女性認為困擾比例更高,有接近5成比例(49.6%),反觀男性有超過6成認為即使遇到也不會太困擾(60.1%)。值得關注的是,18-29歲的年輕族群與60歲以上的高齡族群,相較其他年齡層更感到困擾,分別有58.4%及51.4%。
當問到選擇「很少/幾乎沒有使用」生成式AI的受訪者,與頻繁使用生成式AI的族群相比,在使用時若遇到簡體中文或中國用語,預期自己會有更高的困擾感受,整體比例達到61.3%,其中以高齡族群(60歲以上)與女性族群的困擾感特別明顯,分別有62%及66.3%。
在出版社工作的阿傑說,最困擾的不是AI回答問題時會跳成簡體字,這可以再次下指令「用正體字回答」,可是簡體字改了,但是用語還是中國式的,甚至回答的都是中國而非台灣的生活情況或法律規定。
陽明交通大學科技法律學院特聘教授林志潔說,雖然現在的AI服務有提供繁體中文,但可看出句中的詞彙用語與台灣平時使用的習慣並不一樣,背後多為中國簡體中文直接轉述,因此,目前正在研議制定的「人工智慧基本法」草案應該納入主權的概念,不只攸關科技發展,更攸關國家安全。
國民黨立委葛如鈞在立法院「人工智慧基本法」草案公聽會也強調,目前台灣在建構符合本地語言文化、教育人才、創新發展、社會信任的「繁體中文語料庫與主權大型語言模型(LLM)」方面,資源匱乏,資料更是稀缺,政策推動力道不足,若再不積極行動,台灣特有的繁體中文文化、價值觀,很可能在全面 AI化的未來,被簡體中文取代、使得繁中消失於全球、甚至全宇宙。
國際競逐本土語言模型 台灣急需加速投入「每個國家都要有自己生產智慧的能力。」Nvidia執行長黃仁勳去年(2024)2月在杜拜舉行全球政府高峰會上曾喊話,各國政府應該積極投入發展「主權AI」(Sovereign AI),強調每個國家需要擁有自己的AI基礎設施,在享受AI發揮經濟潛力的同時,保護自己的文化,「你絕不會允許讓其他人來做」。
輝達執行長黃仁勳曾呼籲,各國都應積極發展主權AI。路透社
Nvidia將主權AI定義為一個國家利用自己的基礎建設、資料、人才和商業網路來發展人工智慧的能力,特別是運用自己的語言、文化資料來發展各國自己的大語言模型。
目前許多國家都已投入發展主權AI,其中,新加坡政府建置SEA-LION大型語言模型,包含華語、英語、緬甸語、菲律賓語、高棉語、寮語、馬來語等11種東南亞地區使用的語言資料。日本、韓國也宣布投入經費,政府與民間合作建置大型算力資源。
國科會推動的TAIDE。畫面截自國科會網站
台灣目前發展類似主權AI的模型是國科會推動的TAIDE(Trustworthy AI Dialog Engine,可信任的AI對話引擎),以台灣文化為基礎,融入台灣語言、價值觀、習俗等元素打造,能夠理解和回應台灣用戶的需求。
在行政院智慧國家推動小組民間諮詢委員會上,台灣大學資訊工程學系副教授陳縕儂指出,台灣開發生成式 AI 需要大量的資源(包含開放資料授權、有彈性的專責負責單位),如何凝聚共識讓有資料的人願意釋放資料、有技術能力的人願意共同貢獻技術能量,會是非常重要的挑戰,也是台灣是否能夠發展出成功案例的重要要素。
陳縕儂提到,具資料所有權者相對保守,政府應鼓勵資料開放,保障開發者的使用資料權,才能使技術人才更有意願投入(由下而上),例如:所有學校教科書、教材試卷等,或可直接開放給模型訓練。
《太報》本次調查,台灣民眾對生成式 AI 模型應合法授權哪些資料進行訓練,仍傾向以正式出版或公共領域資料為主。受訪者當中,有62.2%選擇「學術論文、研究報告(公開版本)」,其次是「公開出版之書籍或其他出版物」(56.9%),這兩項皆有過半數的選擇比例,排名第三是「新聞報導」(46.5%)。
資料共享意願低 隱私疑慮成AI訓練最大門檻至於「私人社群平台、通訊內容」的授權支持度最低,僅有33.0%。值得注意的是,雖然男性在各類資料類型上,普遍認為應合法授權的比例高於女性,但在私人社群平台與通訊內容的部分則表現出較高的保留態度,贊成者只有31.5%,低於女性的34.3%。
另從年齡層觀察,私人社群平台內容作為合法授權資料的接受度隨著年齡增加而上升,從18-29歲族群的23.4%,上升至60歲以上族群的41.8%,反映出不同世代對個人資料隱私界線的認知與接受度存在顯著差異。
另一個值得觀察的是軍公教的意向,在「學術論文、研究報告(公開版本)」、「公開出版之書籍或其他出版物」、「新聞報導」的認同度都遠高於整體,但是在「非密件之政府文書」及「法院判決書」的認同度卻遠低於整體,未來政府在相關AI主權推動的工作,政府機關本來是否願意「帶頭起示範作用」,也會是未來可觀察的方向。
本次調查也針對民眾願意提供什麼樣的「個人資料」,以建構台灣本土的生成式 AI 模型,結果發現民眾對此較為謹慎,有25.3%的受訪者表示完全不願意提供任何個人資料,女性不願提供的比例(28.5%)比男性高(21.6%)。
在願意提供的類型中,主要集中於相對較少涉及隱私的資料,如搜尋關鍵字或搜尋歷史(37.0%)、部落格文章、社群貼文、留言(31.2%)、以及個人拍攝之照片或影片(28.8%)等。至於涉及更私密的文字或語音資料,如電子郵件、聊天記錄、語音備忘錄,提供意願皆低於兩成。 男性提供個人資料的意願普遍高於女性,尤其在「部落格文章、社群貼文、留言」(38.5%)與「個人拍攝之照片或影片」(33.3%)兩項,男性的提供意願明顯高於女性的24.5%及24.8%。年齡層分析,高齡族群(60歲以上)整體提供意願相對較低,特別是在涉及個人隱私的資料類型上表現出更為保守的態度。
從調查可看出,政府未來若要推動主權AI,如何確保AI技術的應用符合社會公義、尊重人權,並能有效管控潛在風險,讓AI技術與社會發展的良性互動,是未來成功不可或缺的基礎。