[問題] 批踢踢Crawler

作者amigcamel (阿吉amig)

看板Python

標題[問題] 批踢踢Crawler

時間Sat May 19 16:23:50 2012

大家好最近我試著要寫一個PTT Crawler 利用的是telnetlib tn = telnetlib.Telnet(host) 我想要做的是將某人po的文整篇複製下來我的方法簡單說是這樣 1. 進入某文章 2. tn.read_very_eager() 3. 往下一行 4. tn.read_very_eager() ... 直到讀完該文章為止但效果其實並不好有沒有人有處理這方面的經驗呢？懇請賜教，感激不盡！ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.227.97.242 ※ 編輯: amigcamel 來自: 125.227.97.242 (05/19 17:11)

→ clliu168:對 Web 版來抓呢？我以前抓過 ptt web 版資料，不過有些 05/20 00:11

→ clliu168:時候會 cgi 錯誤之類的問題 05/20 00:11

→ amigcamel:web 沒有問題，但是我想抓八卦版的資料，但似乎web版沒 05/20 00:13

→ amigcamel:有八卦版... 05/20 00:13

→ uranusjr:「效果其實並不好」的意思是？ 05/20 09:23

→ suzuke:編碼問題會有一些奇怪的亂碼出現, 我之前也試過 05/21 00:56

推 yudsx:以前有用這個方法抓過其他BBS站的文章 05/30 12:39

→ yudsx:抓下來要把BBS控制碼和色碼的部份去掉 05/30 12:40

推 huggie:PTT BBS 這些控制碼等..這有沒有documentation可以讀? 05/31 12:06

→ uranusjr:去讀 VT100 Terminal 的 control sequence 就行了 06/02 01:15

→ uranusjr:我自己是直接 K BBS 軟體 (Nally) 的實作... 06/02 01:18

推 cobrasgo:樓上真猛@@ 06/02 21:25

推 CodingMan: 請愛用 PTT Library 01/07 09:40