※ 引述《leicheong (睡魔)》之銘言:
: ※ 引述《cole945 (躂躂..)》之銘言:
: : 假設你是用 WebClient 抓了一個網頁下來
: : WebClient client = new WebClient();
: : byte[] data = client.DownloadData("http://www.google.com");
: : /* 在這裡用某種神奇的方法偵測他是什麼編碼,
: : ie, 取得他的 charset, 預設是 iso-8859-1 */
: 簡單的方法是看Response header中的charset部份:
: Content-Type: text/html; charset=UTF-8
: 也可以看body中的meta tag:
: <meta http-equiv="content-type" content="text/html; charset=UTF-8">
: 通常是以meta tag的為準, 因為這是要手動加上去的.
: 沒有的話設成Response header的就可以了. 這在主流的web server都會
: 自動加上去的. 預設通常會是utf-8, 不過因為這和iso-8859-1和在純ASCII
: 英文的編碼中除了開始時沒有BOM外沒有任何分別, 所以這樣就好. :P
剛剛寫了一下
最後決定用抓meta charset的方法
(因為試了 response header.. 成功率不高)..
http://s93.tku.edu.tw/~493522469/GetResponse.txt
這是我的程式碼@@
有空的人可以幫忙看一下有什麼可以改進效率的地方嗎
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 125.225.111.56