看板 TW-language 關於我們 聯絡資訊
※ [本文轉錄自 Linguistics 看板 #1ZaD3cMB ] 作者: CCY0927 (茹絮夢) 看板: Linguistics 標題: [演講] 台灣本土語料庫之快速建置 時間: Thu Dec 8 01:44:04 2022 https://ling.site.nthu.edu.tw/p/406-1400-240167,r5972.php?Lang=zh-tw 國立清華大學語言學研究所 新086次專題演講 講者:施孟賢 Meng-Hsien Shih (本所博士後研究員/國立中正大學通識中心) 講題:台灣本土語料庫之快速建置 Quick Construction of Taiwanese Corpora 時間:2022年12月14日(星期三),中午 12:30 開始 地點:人社院 B305 教室 --- 台灣本土語料庫之快速建置 Quick Construction of Taiwanese Corpora 施孟賢 [Simon Meng-Hsien Shih] 本所博士後研究員 / National Tsing Hua University 距史上第一個百萬詞英文語料庫 Brown Corpus 問世已逾半世紀,COCA 美國當代英語語 料庫(Corpus of Contemporary American English)亦於 2021 年達到十億詞規模,並 提供支援智慧詞類檢索之使用者介面。惟語料庫的建置需大量人力和時間投入,因此台灣 各本土語言的語料庫大多仍處於發展階段,除了較具規模、具有斷詞和詞類標記的客語語 料庫已上線提供檢索之外,台灣閩南語以及原住民族語的語料庫仍僅有零星研究,並散見 於各網站。本研究整合現有教育部釋出的閩南語和客家語常用詞辭典的詞目和例句,以及 原住民族語言研究發展基金會提供之族語 E 樂園 API,一同建置具斷詞處理和詞類標記 的閩南語、客家語、以及 16 個原住民語言(族語未經詞類標記)的語料庫,並為台灣本 土語言學研究提供一語料庫查詢介面。未來經由本研究具斷詞和詞類標記的閩客語訓練語 料以及自動標記系統,將能進一步針對更多原本尚未斷詞的語料庫進行處理,擴展本土語 料庫的規模,並提供更廣泛的詞類檢索功能。 關鍵詞: 台灣閩南語, 台灣客語, 台灣南島語, 語料 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.39.79.141 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Linguistics/M.1670435046.A.58B.html ※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: CCY0927 (114.39.79.141 臺灣), 12/08/2022 01:57:18
tbrs: 當代的語料 口語庫比文庫多很多 古代識字比例更少就更不必 12/09 20:52
tbrs: 說了 12/09 20:52