看板 Python 關於我們 聯絡資訊
Hi 因為有需要跟PTT銜接的需求 所以寫了一個PTT爬蟲可以使用的函式庫 算是把散佈在版上關於PTT爬蟲的知識做個整理 不用再每個人都自己把底層實做一次 有缺少的功能 api 請立馬告訴我 有需要歡迎引用 有問題歡迎回報 最後如果可以 不吝給個星星 謝謝 <3 https://github.com/Truth0906/PTTCrawlerLibrary 20171013 更新 整理了前人的程式碼 更新字元對照表共十三萬行 成功支援 PTT 編碼 big5uao 備註一下 這個編碼計畫在2006年社群就停止了 找到的程式碼也停留在 python2跟蠻早版本的對照表 更只有實作 decode 的狀態。 PTT 預設使用這種編碼 當然大部分情況可以使用big5運作 但有人回報內文日文會爆炸 讓我不得不研究一下這富有歷史意義的 big5uao。 我整理出來的這份編碼程式碼 應該是目前年代最新最完整的版本了。 CodingMan -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.161.55.119 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1499526083.A.9F4.html ※ 編輯: CodingMan (218.161.55.119), 07/08/2017 23:14:04
pups003: 推 07/09 00:52
agogoman: 推 07/09 09:13
paoju5566: 推 07/09 22:32
※ 編輯: CodingMan (218.161.55.119), 07/10/2017 00:14:56
ccvs: <3 07/10 10:39
abraxas: 推 07/10 14:53
aznchat100: 我有寫一個multithreaded的爬蟲https://goo.gl/768vmV 07/11 00:40
CodingMan: 謝謝 我研究一下 07/11 08:48
saul1210: 推 07/12 07:57
shanishani: 推一個 07/13 19:01
japing: 推一個 太強大了 07/14 10:04
TCLbasanova: 在import出現error http://imgur.com/wvQKmhw 07/15 17:24
TCLbasanova: 有專家可以幫小弟解答嗎Orz 07/15 17:24
zerof: .......他又沒有丟上 PyPI ... 07/15 23:23
CodingMan: ....我丟 我丟 07/16 10:38
TCLbasanova: 抱歉抱歉 小弟初學python 不清楚流程 謝謝原PO z大 07/17 11:58
gemini6479: 還不快丟XDDD 07/17 14:39
sam80719: 讚,我是剛開始進入程式的初心者,向巨人說謝謝 07/18 19:42
asd2260123: cool!!! 08/24 15:26
※ 編輯: CodingMan (110.28.226.62), 10/13/2017 21:20:58