看板 TW-language 關於我們 聯絡資訊
https://www.cna.com.tw/news/ait/202308160338.aspx Google對話式AI有望支援台語 盼攜手本土學者 2023/8/16 20:17(8/16 22:16 更新) https://i.imgur.com/2R9XKiu.png
Google傑出科學家紀懷新目前在Google總部DeepMind團隊,帶領大型語言模型研究與對話 式人工智慧(AI)Bard開發。他16日出席媒體聚會,分享Google針對大型語言模型技術研 究與應用的發展概況。中央社記者吳家豪攝 112年8月16日 (中央社記者吳家豪台北16日電)Google對話式人工智慧(AI)服務Bard今年7月擴大支 援包含繁體中文在內的40種語言,Google今天表示,Bard未來有機會支援台語,但台語屬 於低資源語言,較難蒐集相關數據,Google有意願與台灣本土學者合作克服困難。 Google今天由傑出科學家(Distinguished Scientist)紀懷新出席媒體聚會,分享 Google針對大型語言模型技術研究與應用的發展概況。紀懷新來自台灣、目前在總部 Google DeepMind團隊,帶領大型語言模型(LLM)研究與Bard開發工作。 他說,大型語言模型的發展變革仍在早期階段,它會大幅改變人們與AI互動的方式,為生 活帶來顯著改變。Google發表Bard,並非因為已經是完整的產品,Bard更像是實驗性質的 產品,Google希望了解用戶對它的期望。 中央社記者提問,未來Bard是否有機會支援台語、客語等台灣本土語言;紀懷新回應,在 自然語言學術研究上,數據蒐集是相當困難的問題,尤其是低資源語言(low-resource languages),連Google這麼大的公司,想蒐集相關資料都很困難。 紀懷新說,在全球不同地區,可能已經有當地學者在蒐集當地語言相關資料,如果Google 自行蒐集數據,品質不見得比當地學者更好。台灣學術機構例如中央研究院,對本土語言 的研究相當重視,Google有意願與台灣學者合作,克服相關困難。 紀懷新提到,台灣人才以往較注重硬體製造,1980、1990年代很多人才到國外學習新技術 帶回台灣,奠定台灣製造業在國際的領先地位。 他說,Google目前策略是兼顧硬體和軟體,台灣在AI和機器學習的發展上具有很大潛力, 現在是好時機走向新局面,包括台語和客語研究都是Google與台灣學者可以合作的機會。 談到這次回台灣想做的事,紀懷新笑說,自己大約一年沒回來,希望多吃一點台灣美食、 與Google台灣員工交流。他看好台灣在AI方面有發展潛力,希望能花一些時間為台灣做出 貢獻。 從2013年起,紀懷新帶領的團隊為YouTube、Google新聞、廣告、Google Play商店等產品 ,帶來超過720項改進。他著名的研究領域為網路和線上社群系統對使用者行為的影響, 並擁有39項專利和200多篇研究論文發表。(編輯:張良知)1120816 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.153.3 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/TW-language/M.1692197848.A.4A9.html
medama: fb之前也有支援 08/17 00:11
MilchFlasche: FB那個後來有實際開放使用嗎XD(當然是樂觀其成) 08/17 08:57
MilchFlasche: 回應原文,投入資金和人力的話低資源語言也可很快變 08/17 09:01
MilchFlasche: 高資源語言啊。期待共享和合作了。 08/17 09:01
Tahuiyuan: 不期不待,高機率變成廈門話版本。Google真那麼有本事 08/18 08:21
Tahuiyuan: ,就不會拿中國資料庫當作Google翻譯中文版標準資料, 08/18 08:21
Tahuiyuan: 正確做法是以信、雅、達且較複雜的台灣繁體及用語為準 08/18 08:21
Tahuiyuan: ,由繁馭簡,才能兼顧繁簡。 08/18 08:21
medama: 廈門話語料沒有台灣多吧 08/18 08:56
medama: fb之前的閩南語翻譯版也是以台灣腔閩南語為主 08/18 08:56
MilchFlasche: 我做過幾年的l10n in-house,我知影Google濫著zh-c 08/18 13:55
MilchFlasche: n有可能是想欲省錢,閣嘛可能是主持者本成著毋是臺 08/18 13:55
MilchFlasche: 灣出身个 08/18 13:55
gmkuo: 干焦水餃餡橐個束個捎落去烏白攪包包咧,毋知的人攏講好食 08/18 14:14
gmkuo: GIGO 08/18 14:15
saram: 振奮人心好消息. 08/18 20:54
saram: 語音資料和繁體字沒關係. 08/20 02:56
MilchFlasche: 因為人家已經聊開到Google翻譯去了,當然不只關於語 08/20 08:03
MilchFlasche: 音資料。看別人在談什麼也看完整一點好嗎 08/20 08:04
saram: 我要的不只是翻譯字詞.要得是能輸入語言為字詞,也要按照輸 08/20 19:43
saram: 入麥克風語音或串流音檔而翻成台文. 08/20 19:44
saram: 就像中文的語音處理一樣. 08/20 19:45
saram: 你是地下爬的蟲我則是天上飛的鷹. 08/20 19:46
sodabubble: 你要「輸入麥克風語音」,你還打錯字。要「的」是, 08/20 21:47
sodabubble: 連字都打不正確、選不正確的人…… 08/20 21:48
saram: 字與音是兩個層次,但在最終(以線上翻譯而言)兩樣會一起呈現 08/21 01:25
saram: 如果完全不用漢字,以標音符號為字面也無礙於語音的判讀. 08/21 01:27
saram: 換言之語音詞庫的索引只是一個內碼而已. 08/21 01:27
saram: 先要建立所有台語詞的音檔庫.它怎麼寫(圖形檔)都不重要. 08/21 01:30
saram: 接電話時我們聽到熟悉的語音就明白,不必再看文字. 08/21 01:32
saram: 呈現的漢字就算你不滿意,或根本是台羅字都無所謂. 08/21 01:34
MilchFlasche: 繼續紮稻草人好為人師啊。 08/21 07:37
Tahuiyuan: 講啥…只要有了台語的優勢語音,以IPA形式建檔到足以 08/21 09:58
Tahuiyuan: 提供TTS服務,再參考人類語言的同位異音模型,就可以 08/21 09:58
Tahuiyuan: 建立台語的初版語音輸入法,再參考使用者的語音升級到 08/21 09:58
Tahuiyuan: 能辨認各種腔調、口音或不標準發音,語音輸入一般都是 08/21 09:58
Tahuiyuan: 這樣建立起來的。 08/21 09:58