看板 Linguistics 關於我們 聯絡資訊
大家好, 我知道中研院的「搜詞尋字」可以找到中文的詞頻資料。如下網站 http://words.sinica.edu.tw/sou/sou.html 可是我心血來潮,想要找「無語義」的二字詞的詞頻資料,請問哪兒會有呢? 在中研院的「搜詞尋字」的網站中,可以找二字詞的詞頻。 可是「二字詞」都是有意義的。 我所謂的「無語義」,就是任二字組合起來,常在文章中出現的頻率。 當然,我只要找頻率高的較好了,不然太多了。 只是好奇,哪些二個字連在一起出現的頻率較高而已。 像中研院之類的詞頻分析,我相信也是把資料用電腦分析後, 在所有二個字連在一起出現的結果中,把沒有詞義的部分去掉後,所整理出來的資料。 我就是想看看那些因為沒有詞意而被去掉的部分。 請問有人有辦法嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.242.47 ※ 文章網址: https://www.ptt.cc/bbs/Linguistics/M.1532096669.A.19F.html ※ 編輯: ddqueen (114.36.242.47), 07/21/2018 00:54:40 ※ 編輯: ddqueen (114.36.242.47), 07/21/2018 00:56:41
HotDesert: 你的意思是不成詞的任兩個字組合嗎?如果是,你找不。 07/21 16:39
HotDesert: 到的。 07/21 16:39
HotDesert: 因為做這個沒意義。你可以自己寫個像bigram的程式,找 07/21 16:42
HotDesert: 個沒斷詞的語料庫,跑跑看。 07/21 16:42
annisat: 同樓上,跑bigram去掉詞庫的entry~暴力解 XD 07/22 16:37
annisat: 中研院的詞頻分析應該是先斷詞過了 所有結果都是有意義的 07/22 16:38
annisat: 要不然你找最常共現的兩個詞 前詞後字跟後詞前字不成詞 07/22 16:40
annisat: 的話 大概就會是無意義任二字組合比較高的那些了?XD 07/22 16:40
恩~~ 我不會寫程式啦。也不知去哪裡找語料庫。@@ 沒人做過相關研究嗎? ※ 編輯: ddqueen (114.25.201.169), 07/23/2018 04:23:00
CCY0927: Google Ngram corpus V2 http://bit.ly/2JOkHd1 07/24 02:25
CCY0927: 資料量很大,缺點是簡體中文。 07/24 02:26
Hi CCY0927,感謝您,有可能就是我要的。可是我找到Chinese (simplified)後,下截任一個,用word打開,看不太懂也。也沒有中文。擷取一行如下: _ADV_ 007_NOUN 1982 5 5 您看,這樣是什麼? 還是說這個檔案不是用word開的呢? ※ 編輯: ddqueen (114.36.228.99), 07/25/2018 04:29:42
annisat: 跟中研院買(欸 07/27 16:21