看板 Python 關於我們 聯絡資訊
大家好,小弟第一次來這裡問問題,目前在做ptt抓文機器人, 已經能成功進入文章,但parse文章的時候出問題, 仔細看原始ascii碼和我的regx也看不出來,所以想請教有相關經驗的大大 我的regx: /36m[─]{10,}([\s\S]+)(3[3,4];4[0-7]m 瀏覽)/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.160.28.188
kdjf:第二次出現行數時,格式就不一樣了 08/14 13:28
yeurus:在第二次是用/([\s\S+)([3[3,4];4[0-7]m 瀏覽)/ 08/14 14:59
kdjf:然後第3次也不一樣, 我覺得你直接抓plaintext會比較容易 08/14 21:33
uranusjr:在抓進來的時候先把色碼直接濾掉再比對應該會比較快... 08/14 22:36
uranusjr:雖然我記得是第一頁和最後一頁會不一樣而已, 其他都一樣 08/14 22:37