作者locka (locka)
看板R_Language
標題[問題] 抓取中文字串
時間Fri Oct 30 15:22:00 2015
各位大大午安:
我今天有一組中文的資料,例如:
location <- as.factor(c("彰化縣溪州鄉高速公路", "澎湖縣馬公市關帝廟前"...))
想要請教該怎麼做我才可以只取出每個字串的"前三個字"呢?
我想到的方式是用grep,可惜遇到中文就失敗了...
以下是我失敗的指令:
city <- grep("\\D", location, value=TRUE, perl=TRUE)
有查到似乎regular expression比對中文可以用 [u4e00-\u9a05]
可是不是很清楚該如何使用...
可以提供一些意見嗎?或是其實根本是我用錯方法了?謝謝!
參考程式碼:
https://ideone.com/ccOlwz
[軟體熟悉度]:
請把以下不需要的部份刪除
入門(寫過其他程式,只是對語法不熟悉)
[環境敘述]:
R version 3.2.2 (2015-08-14)
Platform: i386-w64-mingw32/i386 (32-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.110.191
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1446189724.A.805.html
→ celestialgod: substr(location , 1, 3) 10/30 15:24
→ locka: 忘記最直覺的這招了!感謝c大!!!m(__)m 10/30 15:30