作者EmptySmile ((σ′▽‵)′▽‵)σ)
看板Python
標題[問題] GAE的PTT爬蟲
時間Thu Sep 26 16:16:59 2013
如題, 小弟想弄一個可以幫我篩選文章的爬蟲.
先排除GAE daemon等等等問題,
目前碰上的是撈回來的資料有問題.
使用telnetlib,
用read_very_eager()讀取,
用google SDK中的new_project_template改寫,
程式碼如下:
https://gist.github.com/anonymous/6711232
結果會是:
http://ppt.cc/Fe3q
(一個冒號)
能正確登入 (用其他帳號查詢過)
自己功力很差, 不知道原因和問題,
所以上來求助是最快的解答方式,
希望能幫助解惑.
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 125.224.237.99
→ uranusjr:我沒測, 不過 PTT 看板搜尋是小寫 s 不是大寫... 09/26 16:39
ker ker...哈...謝謝,
我是想補充說, 如果不是用GAE, 直接使用電腦去連,
撈回來的資料就會如同在command line連ptt一樣的資料,
所以...ummmmmm...
※ 編輯: EmptySmile 來自: 125.224.237.99 (09/26 16:42)
→ EmptySmile:超哭得...我在read_very_eager前面加sleep(1)就解決了. 09/26 16:51
→ EmptySmile:感謝...解決了...撈得到正常的樣子了... 09/26 16:51