作者yeurus (yeurus)
看板Python
標題[問題] ptt 文章 parse
時間Tue Aug 14 11:45:32 2012
大家好,小弟第一次來這裡問問題,目前在做ptt抓文機器人,
已經能成功進入文章,但parse文章的時候出問題,
仔細看原始ascii碼和我的regx也看不出來,所以想請教有相關經驗的大大
我的regx:
/36m[─]{10,}([\s\S]+)(3[3,4];4[0-7]m 瀏覽)/
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 1.160.28.188
→ kdjf:第二次出現行數時,格式就不一樣了 08/14 13:28
→ yeurus:在第二次是用/([\s\S+)([3[3,4];4[0-7]m 瀏覽)/ 08/14 14:59
→ kdjf:然後第3次也不一樣, 我覺得你直接抓plaintext會比較容易 08/14 21:33
→ uranusjr:在抓進來的時候先把色碼直接濾掉再比對應該會比較快... 08/14 22:36
→ uranusjr:雖然我記得是第一頁和最後一頁會不一樣而已, 其他都一樣 08/14 22:37