數位發展部27日舉辦建構台灣AI產業生態系記者會,由數發部長黃彥男(右)、次長林宜敬一同主持。戴嘉芬攝
數位發展部正努力建置國內 AI 語料資料庫。數發部次長林宜敬今日指出,美國大型語言模型業者會考量到時間成本,從這些業者的角度,台灣任何一家媒體都是小媒體,「倘若我們無法提供台灣觀點的繁體中文語料庫給大型 AI 語言模型業者去做訓練,他們就會選擇避開台灣任何內容,而去選擇簡體字的內容,這對於台灣來講,就是最不利的事。」
數位發展部今日(2/27)舉辦建構台灣 AI 產業生態系記者會,從算力、資料、人才、行銷、資金5大政策工具著手,建構具有全球競爭力的 AI 產業生態環境。
在資料部分,數發部正在推動建置 AI 訓練語料資料庫,目前政府資料開放平台已涵蓋語言、歷史、地理等資料,未來將繼續釋出更多政府資料如施政計畫、施政報告、研究報告、政府出版品等,並透過民間捐贈的散文、小說、評論、新詩、論文及傳記,進一步完善 AI 訓練語料資料庫,並依據國際趨勢,研擬「促進資料創新利用發展條例(草案)」。
數發部常務次長葉寧強調,目前 AI 語料庫以整合資料為優先,民間捐贈則是自願性加入。
林宜敬則指出,自民間或相關部會取得的資料,會先進行「去識別化」動作,避免隱私和相關個資被洩漏。這些資料回傳到數發部,再進行彙整,經由「隱私強化」技術,再提供給 AI。他強調,這其中牽涉到技術、法律問題,目前才剛剛開始進行。
資料創新司副司長陳怡君補充,在「隱私強化」部分,目前會向科發基金提出一年期實驗計畫,亦就此部分與各部會討論,未來會視個案需求,並依案例來選擇適合的隱私強化技術,進一步妥善處理敏感資料來保有它的可用性。
媒體問到,AI 訓練語料資料庫,大約何時可建置完成?林宜敬則指出,這是一個很大的挑戰,而且不只是技術上,還有來自法律和政治上的挑戰。
他進一步指出,數發部希望保護台灣的媒體產業,媒體內容是有價的,希望國內媒體產業能正常發展,且有充足收入;但從另一方面來看,現在全世界 AI 快速發展,對於美國大型語言模型業者來說,他們並非擔心要投資多少錢,而是時間成本。
林宜敬指出,從大型語言模型的角度,台灣任何一家媒體都是小媒體,倘若我們無法提供台灣觀點的繁體中文語料庫給大型 AI 語言模型業者去做訓練,他們就會選擇避開台灣任何內容,而去選擇簡體字的內容,這對於台灣來講,就是最不利的事。
「因此,發展 AI 語料庫是一件充滿挑戰的事!」林宜敬說,數發部很努力在做,但目前無法確切提出完成的時間點。因為這需要得到社會的共識,包含與立法院的溝通、與媒體的溝通,以及與社會大眾的溝通,都需要花很多時間。「因此,現在能做的,就是先把政府的資料先提供出來,至於民間部分則希望取得社會共識,我們估計這個共識不是一兩年之內就會得到。」
在算力方面,依據Oxford Insights統計,台灣的AI準備度,在全球193國中,位居第19名。接下來,數發部將提供免費的GPU算力資源,協助AI新創團隊訓練AI模型,降低生成式AI開發成本,並加速AI在各領域的應用,促進AI在商業領域的發展,提升台灣數位服務的全球競爭力。
林宜敬強調,提到算力,美國大型語言模型包括ChatGPT、Llama,他們用的是都是自己購買的算力,並非美國政府提供,就算是DeepSeek也是公司自己的算力,也非中國政府提供。
他表示,台灣的情況不太一樣,政府想辦法提供給AI新創團隊足夠的算力,「但不能完全依靠政府」,因為算力非常昂貴,一片H100的價格大概超過100萬台幣,如果想要買1萬片H100,就是100億台幣。
因為算力非常昂貴,一般中小企業負擔不起。林宜敬說,數發部藉由建立AI產業生態系,希望有民間公司提供算力,其實已有一些企業專門做GPU算力,這個生態系建立起來之後,算力供應方能賺到錢,就會提供更多算力。而使用方在賺到錢後,也可以買更多算力。
數發部長黃彥男補充表示,數發部已有建立算力池給新創、中小企業,這些AI新創在公司初期,可以來跟數發部申請算力,先進行驗證,驗證成功後,確定有商機,可以再進一步投資公司的算力或購買相關服務。
此外,在投資部分,數發部去年向國發會提報10年100億AI投資計畫,投資對象是國內AI新創、數位經濟相關企業。黃彥男表示,此計畫與民間創投公會合作,因此,創投公會也會推薦投資對象。
林宜敬強調,這100億並非補助,而是投資有獲利前景的AI新創公司,但不含上市櫃公司。投資方式是搭配民間資金,也就是說必須先確定有民間投資人願意投資,政府才會跟投,預計3月底開始受理申請。
記者問到是否已有潛在的投資對象?數發部數產署副署長黃雅萍表示,目前行政程序已進展到甄選搭配投資人階段,預計3/28選出15組「搭配投資人」(創投),這些投資者選擇之標的若已確定,國發基金就會以1:1或最高1:2比例去做投資。
數產署之前曾指出,希望每間創投推薦2家潛在新創,若從此數字估計,今年有機會投資30家AI新創公司。
黃雅萍指出,要來申請的被投資對象,其實已經在做相關準備,數產署去年也進行好幾場媒合會,今年還會辦5場,過去曾經補助過的廠商,若數發部覺得業者具有潛能,且有資金需求,也會推薦給搭配投資人去評估,一旦他們進行投資,國發基金就會跟投。
林宜敬則補充,百億資金來自於國發基金,所有程序、制度都是依照國發會既有制度來執行,投資對象也是由國發基金管理會來決定。