[問題]用getURL抓台股代碼 encoding問題

作者sorder (Reader)

看板R_Language

標題[問題]用getURL抓台股代碼 encoding問題

時間Sun Apr 26 23:05:19 2015

[問題類型]: 抓資料編碼問題. [軟體熟悉度]: 請把以下不需要的部份刪除入門(寫過其他程式，只是對語法不熟悉) [問題敘述]: 請簡略描述你所要做的事情，或是這個程式的目的利用R來抓台股股票代碼但是抓回來的資料是亂的. 兩個網址都是亂的.Orz~ [程式範例]: //================================== rm(list=ls(all.names=TRUE)) library(RCurl) library(XML) library(bitops) test = getURL("http://isin.twse.com.tw/isin/C_public.jsp?strMode=2",encoding="UTF-8") test2 = getURL("http://www.emega.com.tw/js/StockTable.htm",encoding="big5") write.table(test,"test.txt") write.table(test2,"test2.txt") //================================== [環境敘述]: Win7 + RStudio [關鍵字]: 選擇性，也許未來有用 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.126.95.55 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1430060722.A.57C.html

→ celestialgod: 爬之前的文章吧，ENCODING在windows很麻煩 04/27 12:47

→ celestialgod: 請愛惜生命跟時間，盡早服用UTF8的LINUX 04/27 12:47

→ celestialgod: 那個選項是用.encoding 第一個網址.encoding='big5' 04/27 12:51

→ celestialgod: 會是正確的檔案 04/27 12:51

→ celestialgod: 第二個檔案一樣少個.，結果就會對 04/27 12:52

→ sorder: 感謝爬到了 04/27 13:26

→ sorder: url=URLencode("http://.....") 04/27 13:27

→ sorder: url=getURL(url,.encoding="big5") 即可正確了~~ 04/27 13:28

→ sorder: 原來是少了個"." Orz 04/27 13:29

推 psinqoo: 請愛惜生命跟時間，盡早服用UTF8的LINUX+1 04/28 17:00

→ gsuper: parser 還是自己寫好些, strsplit() 萬用 04/30 00:41