看板 Browsers 關於我們 聯絡資訊
很幸運地,總算研究出還可以接受的做法, 0.92 版開始支援深層擷取了! 不過目前的做法還比較陽春, 由於現代網頁變複雜,加上 WebExtension 架構變動及考量支援觸控/手機版, 短期內大概無法支援像傳統 ScrapBook (X) 那樣隨時暫停/恢復及增減下載頁面, 只能用預先設定好的網址篩選規則過濾要深層擷取的網頁。 另外,也還沒有實做傳統 ScrapBook (X) 的站台地圖功能, 其中一個考量也是沿續傳統的站台地圖寫法可能會衍生出一些問題, 此外我也有點懷疑是不是真的還有人在使用這功能... 有在用的可否舉個手及分享一下心得XD 如果沒有其他特別計畫,就準備出 1.0 了~~~ ^_^ -- 《終結內容農場》瀏覽器套件 Chrome: http://bit.ly/CFTGC Firefox: http://bit.ly/CFTFx (桌機 & Android 手機) 真相1: http://bit.ly/CFTss1 真相2: http://bit.ly/CFTss2 詳細介紹:http://bit.ly/CFTinfo -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.3.56 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Browsers/M.1605275841.A.459.html ※ 編輯: danny0838 (59.115.3.56 臺灣), 11/13/2020 21:58:27
shyangs: 我想要(瀏覽器看)網站全索引頁面,不一定要sitemap.xml. 11/14 09:07
能否說明你所謂的網站全索引頁面是指什麼? 目前 WSB 的站台地圖就是按深層擷取爬到的頁面畫出來的, 如果要原網站的站台地圖,除非原網站有提供且 WSB 爬到的頁面有連結, 否則 WSB 無法知道網站總共有哪些頁面... ※ 編輯: danny0838 (59.115.3.56 臺灣), 11/14/2020 12:27:19
shyangs: https://i.imgur.com/vCU1db9.png 圖sitemap.xml 11/14 13:54
shyangs: 一般瀏覽可能是開index.html; 但也可以開sitemap.xml 11/14 13:55
shyangs: 如果擷取的層次很深,sitemap.xml比較方便瀏覽. 11/14 13:56
shyangs: WSB 的站台地圖是index.json? 11/14 13:57
是我筆誤,「『傳統 ScrapBook 的站台地圖』就是按深層擷取爬到的頁面畫出來的」, 你說的 sitemap.xml 就是我前面說的站台地圖, WSB 目前並未實做。至於 index.json 只是資源列表, 相當於傳統 ScrapBook 的 sb-file2url.txt 和 sb-url2name.txt。 沒實做的原因一來是新架構不好寫, 二來是以往的 XML + XSL 在現代瀏覽器會受限於同源政策導致在本地無法正常開啟, (用後端伺服器是沒問題,但靜態站台就會有問題), 三來是目前在規劃合併擷取功能(擷取新頁面併入及交互連結), 這樣可能會有多個起點,更難畫出站台地圖(至少是不能用原來的畫法)。 如果先不考慮三,或許可以把站台地圖儲存在 index.json, 然後瀏覽器套件另外做一個瀏覽站台地圖的介面, 但是這樣就不能自訂站台地圖樣式,也不支援靜態站台。 ※ 編輯: danny0838 (59.115.3.56 臺灣), 11/14/2020 16:07:00 0.94 版初步完成了合併擷取功能, 不過目前還沒想出 GUI 怎麼設計, 暫時只能從批次擷取器修改 JSON 操作。 在合併擷取的情況下,站台地圖可能會有多個起點, 可能要每次擷取時額外加入起始網址的記錄才能重建出站台地圖了@@... ※ 編輯: danny0838 (59.115.3.56 臺灣), 11/15/2020 23:10:36