作者CCY0927 (只是個暱稱罷了)
看板Gossiping
標題Re: [問卦] 有沒有計算語言學在台灣是一片藍海的八卦?
時間Sat Jan 9 05:44:06 2010
※ 引述《noamchomsky ()》之銘言:
: 原po背景是傳統語言學的
: 這學期修了一門課叫做"語言學程式設計"
: 其實教的就是一個叫Python的程式語言
: 期末的Project就是自己寫個程式去抓Plurk上的語料做分析
: 慢慢接觸了一點東西以後
: 發現計算語言學在台灣的語言學界似乎還是一片藍海
: 因為傳統的語言學家都只是user,不是designer
: 沒辦法自己設計出符合自己需求的concordancer之類的東西
: 請資工背景的來做,又要花很多時間溝通語言學的東西,整個很不方便
: 總而言之,同時兼具語言學跟程式背景的人才在台灣似乎還很缺乏
: 但未來這樣子的人才似乎又很熱門,至少我覺得在語言學界裡面是這樣,
: 外面業界我不知道
: 所以想問一下,有人有這方面的八卦嗎?
: 計算語言學在台灣真的會賺錢嗎?
不會,計算機語言學(Computational Linguistics)就跟資管是一樣的。美其名是出來
之後好像兩邊都很罩,但實際上你在求學的過程當中,就要選邊站了,看你到底是想
偏資工這一塊,還是要偏過去語言學,甚至是應用教學那一塊;想要中立的結果,就是
做出來的東西兩邊都看不起,這論文投到哪都不會上。
計算機語言學就如同原 po 所說的,是兩邊溝通的一個橋樑,因為同時具備兩邊知識
的人很少。但同樣地,問題點就出在這裡,既然傳統上兩個領域都各自可以單獨培養出
博士人才,你橫跨這兩個領域,怎麼可能沒花上兩倍的時間,就說你精通呢?
目前這領域就是像下列這樣:
資工-------------計算機語言學-------------語言學家
資工:負責開發語言學所需的演算法、程式,例如詞類註記(part-of-speech tagging)
句法註記(syntactic tagging)、語義註記(semantic tagging)、甚至更高階的
discourse tagging(這個我不會翻,總之目的就是要可以判斷這情境當中受話者
或是發話者是誰)。但這領域的人如果沒學過特定語言,無法體會一些語言上的特
性,例如不能理解為什麼法文、西班牙文動詞光一個時態會有六種變化,英文不是
就只有加不加 s,加不加 ed 的差別嗎?
計算機語言學:兩者橋樑、翻譯員、半瓶水。寫出來的程式都很小,也不可能進行演算
法的開發;同樣地,對於某個特定語言,也不具備到可以想到要做什麼
研究的背景知識。
語言學家:對特定語言當中的組成、錯誤形態感到興趣,進而去進行探就發生原因之類的
研究。在這領域當中,對電腦這東西很多人都不熟悉,很多地方要花費大量的
人力來進行資料處理,如收集作文,會先收紙本,再請人打成 doc 檔案;想
對語庫進行詞類註記,就找線上版的介面,讓人一篇一篇地把所有內容貼上去
,然後再把註記結果貼成新檔。
舉個例子,假設你身為一個計算機語言學家,今天收集了很多語料,花時間用 python/php
寫了個線上版的語料庫查詢系統,說不定還會顯示常用片語搭配。
對!你這東西跨了兩個領域,但你的論文要怎麼寫? 投去哪? 對資工的來說,這系統就
只是單純「做黑手」的工作;對語言學家來說,我看不到你語言分析的獨特性在哪?
找兩邊的專家來審稿,就是同時被兩邊的人看不起。
中研院有一個「計算語言學與中文語言處理國際研究生學程」,你可以看一下各師資
的專長,到目前為止都還是各自為政,真正拿這領域學位的只有一個
http://clclp.ling.sinica.edu.tw/faculty_01.html
我個人認為,在上位者身處這兩個領域,若自己沒有兩邊都進修到一個程度(可拿學位)
最好是不要隨便對學生說出「你如果兩邊同邊同時都懂的話,就會很搶手」這種話,這
都是在害人。
因為上位者這樣講是希望學生要花兩倍的時間去拿雙博士,而不是做半調子的事情。
不要覺得資工背景的東西掛上一些語言學專有名詞,這就叫跨領域(Interdisciplinary);
也不要覺得語言學背景的,寫了幾個小程式去對字串進行後處理,這也要叫做跨領域。
對了,用 python 只不過是因為它的函式庫比較多,你可以比較快上手。
python 用在對字串進行後處理很方便,但大部份的工具(POS-tagging, grammar tree 等)
你多半還是都混著用。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.116.111.182
推 zzt:八卦是這個學位目前還沒有人畢業.. 01/09 05:55
→ bignoob:淚推.... 01/09 05:56
推 rei410553:完全看不懂 01/09 06:07
推 s754025:樓上 你看不懂代表你還要唸很多東西 加油一點 01/09 06:39
推 nanako81240:看八卦長知識 01/09 06:57
→ nanako81240:解釋的很清楚阿 外行人也能理解 01/09 06:58
推 moboo:很好理解 很多跨領域都是這樣.. 01/09 07:00
→ yauhh:許多資管的要哭哭了,因為他們根本沒花二倍的工夫... 01/09 07:08
推 Daddario:沒錯 很多跨領域的都這樣#.# 01/09 07:47
推 HowLeeHi:Larry Wall算不算橫跨這2個領域的人?? 01/09 08:01
推 be52879:快推..不然會被人家發現我們看不懂 01/09 08:28
推 OpenGoodHate:通常這種語言效率都很差 01/09 08:47
→ OpenGoodHate:光這點去投資工領域的論文就掛了 01/09 08:48
推 zzt:計算機語言學也有期刊可以投啦 不過很難投上 01/09 08:53
推 OmegaWind:這篇的確可用在許多跨領域上 01/09 09:39