作者ciphero (奶油焗蛋餃...:))
看板java
標題[問題] httpClient無法取得網頁html的問題
時間Fri Nov 30 00:37:28 2012
最近因為工作上有需要,必須蒐集一些電影資訊
發現開眼電影 (
http://www.atmovies.com.tw/home/ ) 這個網站的資料還不錯
所以想利用 httpClient 來擷取資料
直覺上,應該就像當我在網頁的搜尋 bar 裡面鍵入想查詢的中文片名 keyword,
然後畫面上應該就會出現一份符合這個 keyword 的電影清單。
所以我寫了如下的 code:
/*--------------------------程式碼分隔線--------------------------------*/
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.NameValuePair;
import org.apache.http.client.entity.UrlEncodedFormEntity;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.message.BasicNameValuePair;
public class Test {
public static void main(String[] args) throws Exception {
// 我要查詢的關鍵字
String searchStr = "復仇者聯盟";
// 表單 submit 時的 action 程式 (方法為 post)
String searchUrl = "
http://search.atmovies.com.tw/search/search.cfm";
DefaultHttpClient httpclient = new DefaultHttpClient();
HttpPost httpPost = new HttpPost(searchUrl);
// 設定submit時的各項參數 (type, search_term 都是表單元件的變數名稱)
List <NameValuePair> nvps = new ArrayList <NameValuePair>();
nvps.add(new BasicNameValuePair("type", "all"));
nvps.add(new BasicNameValuePair("search_term", searchStr));
httpPost.setEntity(new UrlEncodedFormEntity(nvps, "utf-8"));
HttpResponse response = httpclient.execute(httpPost);
// 檢查一下有沒有回傳成功
if(response.getStatusLine().getStatusCode() != 200)
System.out.println("Http response error!");
HttpEntity entity = response.getEntity();
BufferedReader in = new BufferedReader(
new InputStreamReader(entity.getContent(), "utf-8"));
// 把網頁的 HTML 印出來
String html = null;
while ((html = in.readLine()) != null) System.out.println(html);
}
}
/*--------------------------程式碼結束--------------------------------*/
程式的大意是說:
我想要查詢符合「復仇者聯盟」字串的電影,然後抓出這份清單的 html 內容
雖然 submit 的結果沒有異常(status code = 200),但輸出卻是一片空白 @@~
我有試過把 http header 改成跟瀏覽器送出的完全相同,但結果還是一樣
不曉得各位高手有什麼看法?感謝囉!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 36.227.147.101
※ 編輯: ciphero 來自: 36.227.147.101 (11/30 00:56)
→ gtr99:不要忽略 hidden 欄位的資訊 ex. action=home&fr=search 12/01 18:00
→ ciphero:ㄟ~其實這一點也試過了,仍然不行。我用某些軟體去找 12/01 22:01
→ ciphero:所有submit出去的變數與值以及http header,然後以程式 12/01 22:04
→ ciphero:送出完全相同的內容,結果仍然一樣。也許只能推測對方的 12/01 22:06
→ ciphero:action程式中做了什麼未知的處理,似乎也無法繼續追查了吧 12/01 22:09