看板 CFantasy 關於我們 聯絡資訊
如果版主覺得這篇文章不妥的話,請通知我刪除,謝謝 最近試著寫python的UI程式,弄了好久總算寫出一個可 以用的介面, 有興趣的版友可以看看 用途: 使用爬蟲抓取網頁的文字後,存成txt或其它格式。 程式本身可產生純文字txt和青空文庫txt, 配合AozoraEpub3可將青空文庫txt轉成epub 配合kindlegen可將epub轉成mobi 配合kepubify可將epub轉成kepub python的原始碼在此 https://github.com/tsaiminghan/pyGNovelDL 透過pyinstaller打包好的exe 包含其它轉檔程式(java, AozoraEpub3.jar ...)放在extra資料夾內 https://drive.google.com/drive/folders/1l_4FPAIohVKPRZAuTI6ye-T3pKjIIIZ6?usp=sharing 縮址: https://tinyurl.com/y4jvawnh 使用方法 (設定) 1. 點擊window.exe,開啟程式(最小化時會縮到右下角) https://imgur.com/a/3quqMIO 2. 選取設定頁,點擊...按鍵,確認執行檔位置正確 https://imgur.com/a/JY6NDMI (下載) 3. 貼上小說網址,選擇開始分析 https://imgur.com/a/id6F9pX 4. 分析完成後,會新增一筆任務,選擇開始下載 https://imgur.com/a/1sNx7Xf 5. 下載完成後,開啟資料夾可以看到產出的檔案 https://imgur.com/a/htlh7ms 6. commandline.exe可以使用命令的方法下載, 與 windows.exe兩者獨立無關 -- ps:上面的圖我是隨便找一本章節數少的書抓圖, 書我沒看過。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.196.9 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/CFantasy/M.1603523819.A.ABC.html
d86249 : 正版網頁…也能爬? 10/24 17:03
LaAc : 這樣是不是不用擔心變正版受害者XD 10/24 17:08
tsaiminghan : 只能爬非vip的文字 10/24 17:18
chillybreeze: 先推一個 10/24 18:08
fr75 : 不錯喔 現在真的要做正版備份了 不然成為正版受害者 10/24 18:14
xkiller1900 : 正版如果把JAVA關掉可不可以爬? 10/24 18:44
起點就只能爬非vip的部分, 跟有沒有java無關 另外vip的部分應該是圖片吧(我沒試過),所以也沒辦法抓到文字
linzero : 這種其實有點吃網站流量資源,有的網站會對這種方式 10/24 21:30
linzero : 有應對方法,像是一段時間內鎖IP之類的限制 10/24 21:31
linzero : 另外起點VIP現在不是圖片了 10/24 21:32
zc00213 : 不是圖片 vip也能爬嗎? 10/24 22:41
不行,就算vip不是圖片,那還要先處理登入才有辦法爬 我沒處理登入的部分 ※ 編輯: tsaiminghan (220.136.107.98 臺灣), 10/24/2020 22:46:57
xkiller1900 : 所以正版還是只能爬不需登入的 10/25 00:37
lbowlbow : 登入cookie沒做吧,那還是只能爬免費網站 10/26 10:36