推 horngsh:有些HTML碼是由ASP或PHP動態產生的.... 09/25 16:05
→ qweqweqweqwe:那如果我只要擷取網站內的中文或英文呢 ..? 09/25 17:59
推 wa120:c++的我寫過 找找看c#有沒有元件可以使用 09/25 18:31
→ wa120:<meta http-equiv="Content-Type" charset=big5">這行是預設 09/25 18:34
→ wa120:編碼 如果沒這行網頁很容易亂碼 而且會變成ie所選擇的編碼 09/25 18:35
→ wa120:網頁擷取擷取不到asp/php/jsp的原始碼 09/25 18:36
→ wa120:可是你可以拿到html格式;) 09/25 18:38
→ qweqweqweqwe:恩 我知道 code我不要 只需要可以正確的抓到中文字 09/25 18:46
→ qweqweqweqwe:所以這樣說我一定要先抓到網頁的charset= xxx才可以? 09/25 18:47
→ qweqweqweqwe:但是這樣要先讀取1次html 再根據讀到編碼在讀1次html 09/25 18:48
→ qweqweqweqwe:怕資料筆數一多的時候..效率慢1半@@ 有更好的方法嗎 09/25 18:49
推 wa120:網頁有個標頭檔資訊 裡面也有編碼應該可以節省不少時間吧@@ 09/25 18:57
→ wa120:我是不確定他跟<meta>標籤互衝會有什麼問題~~ 09/25 19:00
→ wa120:不過我覺得他的標頭資訊(header)是Server的預設值 09/25 19:01
推 cole945:先抓成byte[]後再依charset轉碼呀 @o@" 09/25 19:50
→ qweqweqweqwe:可以請問樓上的大概該怎樣做嗎?@@ 09/25 23:57