Re: [問題] NLP英文文章處理

作者Darlsa (WSP)

看板R_Language

標題Re: [問題] NLP英文文章處理

時間Wed Mar 14 21:25:50 2018

嗨，我之前處理tm的時候，也有遇到同樣的問題，我要抓雙字詞的出現頻率，但tm包都會直接分成兩個字，例如「social design」會被分成「social」跟「design」，我的做法是直接把兩個字的空格去掉，黏在一起，然後用gsub()把原文替換成黏起來的，這樣tm包在處理的時候，就會認為是一個單字了。希望能夠解決你的問題。 ※ 引述《piercelin (pierce)》之銘言： : [問題敘述]: : 大家好，最近在練習用R跑NLP，目前處理英文文章，在斷詞方面我想使用自己的 : 詞庫進行斷詞，例如文章中"My name is Pierce"，正常斷詞會斷在空格處變成"My" "name" : "is" "Pierce"，但我想使用自己的詞庫讓斷詞變成："My name" "is" "Pierce"。 : 目前Google關鍵字name entity recognition已經搜尋過，試過openNLP package， : 但都沒有辦法達到我想要的效果(使用自己的詞庫進行斷詞)，請問其他有經驗的大大有 : 什麼解決的辦法嗎? : [環境敘述]: : R version 3.4.2 (2017-09-28) : Platform: x86_64-w64-mingw32/x64 (64-bit) : Running under: Windows >= 8 x64 (build 9200) : [關鍵字]: : NLP、斷詞、name entity recognition -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.230.25 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1521033954.A.E52.html

推 newdawn1106: 謝謝你，你的方法我目前正在嘗試，成功了再上來回覆 03/16 19:12

→ newdawn1106: 給可能需要的人 03/16 19:12

推 piercelin: 感謝D大的分法，英文斷詞確實比較難像中文依樣給予自訂 03/25 14:11

→ piercelin: 詞庫(原諒小弟不才QQ)，靠著大大的方法成功解決問題， 03/25 14:12

→ piercelin: 謝謝! 03/25 14:12