[問題] 關於擷取所有原始碼

作者qweqweqweqwe (啪)

看板C_Sharp

標題[問題] 關於擷取所有原始碼

時間Tue Sep 25 14:14:22 2007

有辦法可以順利的擷取所有網頁的原始碼嗎因為每個網頁的Encode都不盡相同.. 怎樣知道被擷取原始碼網頁的編碼呢..? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.225.106.66

推 horngsh:有些HTML碼是由ASP或PHP動態產生的.... 09/25 16:05

→ qweqweqweqwe:那如果我只要擷取網站內的中文或英文呢 ..? 09/25 17:59

推 wa120:c++的我寫過找找看c#有沒有元件可以使用 09/25 18:31

→ wa120:<meta http-equiv="Content-Type" charset=big5">這行是預設 09/25 18:34

→ wa120:編碼如果沒這行網頁很容易亂碼而且會變成ie所選擇的編碼 09/25 18:35

→ wa120:網頁擷取擷取不到asp/php/jsp的原始碼 09/25 18:36

→ wa120:可是你可以拿到html格式;) 09/25 18:38

→ qweqweqweqwe:恩我知道 code我不要只需要可以正確的抓到中文字 09/25 18:46

→ qweqweqweqwe:所以這樣說我一定要先抓到網頁的charset= xxx才可以? 09/25 18:47

→ qweqweqweqwe:但是這樣要先讀取1次html 再根據讀到編碼在讀1次html 09/25 18:48

→ qweqweqweqwe:怕資料筆數一多的時候..效率慢1半@@ 有更好的方法嗎 09/25 18:49

推 wa120:網頁有個標頭檔資訊裡面也有編碼應該可以節省不少時間吧@@ 09/25 18:57

→ wa120:我是不確定他跟<meta>標籤互衝會有什麼問題~~ 09/25 19:00

→ wa120:不過我覺得他的標頭資訊(header)是Server的預設值 09/25 19:01

推 cole945:先抓成byte[]後再依charset轉碼呀 @o@" 09/25 19:50

→ qweqweqweqwe:可以請問樓上的大概該怎樣做嗎?@@ 09/25 23:57