[問題] 抓取中文字串

作者locka (locka)

看板R_Language

標題[問題] 抓取中文字串

時間Fri Oct 30 15:22:00 2015

各位大大午安：我今天有一組中文的資料，例如： location <- as.factor(c("彰化縣溪州鄉高速公路", "澎湖縣馬公市關帝廟前"...)) 想要請教該怎麼做我才可以只取出每個字串的"前三個字"呢? 我想到的方式是用grep,可惜遇到中文就失敗了... 以下是我失敗的指令: city <- grep("\\D", location, value=TRUE, perl=TRUE) 有查到似乎regular expression比對中文可以用 [u4e00-\u9a05] 可是不是很清楚該如何使用... 可以提供一些意見嗎？或是其實根本是我用錯方法了？謝謝！參考程式碼： https://ideone.com/ccOlwz [軟體熟悉度]: 請把以下不需要的部份刪除入門(寫過其他程式，只是對語法不熟悉) [環境敘述]: R version 3.2.2 (2015-08-14) Platform: i386-w64-mingw32/i386 (32-bit) Running under: Windows 7 x64 (build 7601) Service Pack 1 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.110.191 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1446189724.A.805.html

→ celestialgod: substr(location , 1, 3) 10/30 15:24

→ locka: 忘記最直覺的這招了!感謝c大!!!m(__)m 10/30 15:30