看板 Gossiping 關於我們 聯絡資訊
風傳媒 https://www.storm.mg/article/11050445 讓AI「講台語嘛會通」 Taiwan Tongues打造本土語言開源語料庫 2025-07-04 20:47 魏鑫陽 https://i.meee.com.tw/bBTJdaQ.png
IMA資訊經理人協會發起「Taiwan Tongues台灣通用語料庫計畫」,集結作家、產業、學 界與政府之力,打造本土語言的開源語料庫與訓練框架,讓AI也能學會「台灣話」。(魏 鑫陽攝) 在生成式AI席捲全球的此刻,語言差距正成為新的數位落差。主流AI模型習慣「聽」英語 與簡體中文,卻「不懂」台語、客語、原住民族語,甚至連台灣華語的語境都難以掌握。 為了改變這個現況,IMA資訊經理人協會發起「Taiwan Tongues台灣通用語料庫計畫」, 集結作家、產業、學界與政府之力,打造本土語言的開源語料庫與訓練框架,讓AI也能學 會「台灣話」。 「語言是活的文化,不能只是被保存,更要能被學習。」台語文學作家、吳三連獎得主胡 長松這麼說。他率先捐出150萬字創作,成為Taiwan Tongues計畫首位釋出語料的作家。 這份文化行動隨即獲得作家圈熱烈響應,包括詩人向陽、曾貴海(由曾澤民代表出席)與 《文訊》雜誌社長封德屏等文化工作者也加入陣容。 截至目前,Taiwan Tongues已累積超過500萬字高品質語料,並上架至國際知名的Hugging Face平台,開放非商業使用,提供語音助理、機器翻譯、語言教學與文化推廣應用。IMA 表示,未來將以「月入百萬字」為目標,持續推動語料開放接力,拓展AI學習本土語言的 素材基礎。 IMA協會理事長蔡祈岩:不只是給AI教材,還給它教案與考卷 「我們不只是給AI教材,還給它教案與考卷。」IMA協會理事長蔡祈岩指出,Taiwan Tongues不是單純的資料蒐集,而是一套完整的AI語言學習機制。 除了語料,計畫更與快閃記憶體大廠群聯電子合作,開發以Reward Model與RL(強化學習 )微調技術為基礎的語境訓練框架。該框架能辨識多元觀點、調整語意落差,協助企業打 造具在地語感的本土化AI應用。 此外,Taiwan Tongues也設計了台灣語境專屬的模型評測機制,與陽明交通大學教授廖元 甫合作,使用教育部台語辭典與作家語料進行模型持續預訓練(CPT)與監督微調(SFT) 。結果顯示,經Taiwan Tongues語料訓練的台語AI模型,其語意理解與生成能力顯著提升 ,學術與應用並進。 政府支持主權AI 文化自主成為科技戰略 數位發展部次長林宜敬表示,AI正在重塑世界的語言與價值流動,台灣語言的能見度正面 臨嚴峻挑戰。主權AI不只是技術議題,更是文化自主與民主深化的戰略選擇。 林宜敬同步宣布3項策略支持Taiwan Tongues計畫:由數位部統籌整合政府語料、交由IMA 協會推動民間語料授權與建置、強化政府與民間在語料開放、模型建構與應用評測上的協 力合作。 Wiki Taiwan啟動 語言數位化邁向全民共編 為進一步擴展語料來源與文化能見度,Taiwan Tongues計畫即將開啟「Wiki Taiwan」工 作項目,從維基百科翻譯起步,打造全民參與的台灣語言百科全書。首波目標為將140萬 筆繁體中文條目翻譯為台語,後續亦將同步推進客語、原住民族語內容擴充。 此舉不僅可快速充實AI訓練語料,更具實質意義。蔡祈岩指出,這是一場跨語種、跨社群 、跨世代的語言行動,讓台灣語言不只存在於課本與書寫,更深刻地進入AI的核心。 Taiwan Tongues不只是語料運動,更是文化復振與科技接軌的實踐。從作家到工程師、從 文學到模型,這場語言革命正打破學科與產業邊界,讓AI理解台灣話。 蔡祈岩強調,「語言不只是記憶的載體,更是文化主體性的證明。」Taiwan Tongues希望 召喚更多來自不同領域的參與者,一起讓台語、客語在AI浪潮中站穩腳步,發聲、被聽見 ,並且真正被理解。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.119.119 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1751638943.A.B40.html
ncc5566: 支那方言(?)180.177.110.122 07/04 22:23
brokenlin: 不錯阿 siri都能講粵語了 閩南語為何223.139.213.150 07/04 22:25
brokenlin: 不行223.139.213.150 07/04 22:25
BBQ2591: 又投入了幾佰億在沒意義的事情上?116.241.189.201 07/04 22:25
vdml: 台語是死定了 用AI存檔也好 125.229.167.61 07/04 22:26
xBox1Pro: 因為世界講閩南語的市場比粵語少 123.194.10.243 07/04 22:28
xyz5566: https://i.imgur.com/aQQr9Xr.jpeg 1.173.98.60 07/04 22:32
xyz5566: 109年的調查,14歲以下只有7%會講台語, 1.173.98.60 07/04 22:35
xyz5566: 現在可能3%都不到,一個語言如果小孩都 1.173.98.60 07/04 22:35
xyz5566: 不講那根本就是沒救了 1.173.98.60 07/04 22:35
pf775: 福建省不意外 114.136.130.21 07/04 22:37
xyz5566: 現在講越南話的小孩都比講本土語的多 1.173.98.60 07/04 22:38
polo5615: 沒用的東西 騙金費用 59.115.196.75 07/04 22:38
psion: 持平而言 東南亞很多閩南方言族群173.230.166.156 07/04 23:11
psion: 電影"姥姥的外孫"不就是?173.230.166.156 07/04 23:12
papple23g: 我都看八點檔學台語的 如果找到方法把 111.240.152.6 07/05 00:27
papple23g: 幾萬小時的連續劇舊片配字幕訓練AI應該 111.240.152.6 07/05 00:27
papple23g: 就精通了吧 111.240.152.6 07/05 00:27
sufferlove: 好 114.24.198.192 07/05 01:24