看板 C_Sharp 關於我們 聯絡資訊
有辦法可以順利的擷取所有網頁的原始碼嗎 因為每個網頁的Encode都不盡相同.. 怎樣知道被擷取原始碼網頁的編碼呢..? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.225.106.66
horngsh:有些HTML碼是由ASP或PHP動態產生的.... 09/25 16:05
qweqweqweqwe:那如果我只要擷取網站內的中文或英文呢 ..? 09/25 17:59
wa120:c++的我寫過 找找看c#有沒有元件可以使用 09/25 18:31
wa120:<meta http-equiv="Content-Type" charset=big5">這行是預設 09/25 18:34
wa120:編碼 如果沒這行網頁很容易亂碼 而且會變成ie所選擇的編碼 09/25 18:35
wa120:網頁擷取擷取不到asp/php/jsp的原始碼 09/25 18:36
wa120:可是你可以拿到html格式;) 09/25 18:38
qweqweqweqwe:恩 我知道 code我不要 只需要可以正確的抓到中文字 09/25 18:46
qweqweqweqwe:所以這樣說我一定要先抓到網頁的charset= xxx才可以? 09/25 18:47
qweqweqweqwe:但是這樣要先讀取1次html 再根據讀到編碼在讀1次html 09/25 18:48
qweqweqweqwe:怕資料筆數一多的時候..效率慢1半@@ 有更好的方法嗎 09/25 18:49
wa120:網頁有個標頭檔資訊 裡面也有編碼應該可以節省不少時間吧@@ 09/25 18:57
wa120:我是不確定他跟<meta>標籤互衝會有什麼問題~~ 09/25 19:00
wa120:不過我覺得他的標頭資訊(header)是Server的預設值 09/25 19:01
cole945:先抓成byte[]後再依charset轉碼呀 @o@" 09/25 19:50
qweqweqweqwe:可以請問樓上的大概該怎樣做嗎?@@ 09/25 23:57