看板 Python 關於我們 聯絡資訊
大家好 最近我試著要寫一個PTT Crawler 利用的是telnetlib tn = telnetlib.Telnet(host) 我想要做的是將某人po的文整篇複製下來 我的方法簡單說是這樣 1. 進入某文章 2. tn.read_very_eager() 3. 往下一行 4. tn.read_very_eager() ... 直到讀完該文章為止 但效果其實並不好 有沒有人有處理這方面的經驗呢? 懇請賜教, 感激不盡! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.227.97.242 ※ 編輯: amigcamel 來自: 125.227.97.242 (05/19 17:11)
clliu168:對 Web 版來抓呢?我以前抓過 ptt web 版資料,不過有些 05/20 00:11
clliu168:時候會 cgi 錯誤之類的問題 05/20 00:11
amigcamel:web 沒有問題,但是我想抓八卦版的資料,但似乎web版沒 05/20 00:13
amigcamel:有八卦版... 05/20 00:13
uranusjr:「效果其實並不好」的意思是? 05/20 09:23
suzuke:編碼問題會有一些奇怪的亂碼出現, 我之前也試過 05/21 00:56
yudsx:以前有用這個方法抓過其他BBS站的文章 05/30 12:39
yudsx:抓下來要把BBS控制碼和色碼的部份去掉 05/30 12:40
huggie:PTT BBS 這些控制碼等..這有沒有documentation可以讀? 05/31 12:06
uranusjr:去讀 VT100 Terminal 的 control sequence 就行了 06/02 01:15
uranusjr:我自己是直接 K BBS 軟體 (Nally) 的實作... 06/02 01:18
cobrasgo:樓上真猛@@ 06/02 21:25
CodingMan: 請愛用 PTT Library 01/07 09:40