推 shyangs: 我想要(瀏覽器看)網站全索引頁面,不一定要sitemap.xml. 11/14 09:07
能否說明你所謂的網站全索引頁面是指什麼?
目前 WSB 的站台地圖就是按深層擷取爬到的頁面畫出來的,
如果要原網站的站台地圖,除非原網站有提供且 WSB 爬到的頁面有連結,
否則 WSB 無法知道網站總共有哪些頁面...
※ 編輯: danny0838 (59.115.3.56 臺灣), 11/14/2020 12:27:19
→ shyangs: 一般瀏覽可能是開index.html; 但也可以開sitemap.xml 11/14 13:55
→ shyangs: 如果擷取的層次很深,sitemap.xml比較方便瀏覽. 11/14 13:56
→ shyangs: WSB 的站台地圖是index.json? 11/14 13:57
是我筆誤,「『傳統 ScrapBook 的站台地圖』就是按深層擷取爬到的頁面畫出來的」,
你說的 sitemap.xml 就是我前面說的站台地圖,
WSB 目前並未實做。至於 index.json 只是資源列表,
相當於傳統 ScrapBook 的 sb-file2url.txt 和 sb-url2name.txt。
沒實做的原因一來是新架構不好寫,
二來是以往的 XML + XSL 在現代瀏覽器會受限於同源政策導致在本地無法正常開啟,
(用後端伺服器是沒問題,但靜態站台就會有問題),
三來是目前在規劃合併擷取功能(擷取新頁面併入及交互連結),
這樣可能會有多個起點,更難畫出站台地圖(至少是不能用原來的畫法)。
如果先不考慮三,或許可以把站台地圖儲存在 index.json,
然後瀏覽器套件另外做一個瀏覽站台地圖的介面,
但是這樣就不能自訂站台地圖樣式,也不支援靜態站台。
※ 編輯: danny0838 (59.115.3.56 臺灣), 11/14/2020 16:07:00
0.94 版初步完成了合併擷取功能,
不過目前還沒想出 GUI 怎麼設計,
暫時只能從批次擷取器修改 JSON 操作。
在合併擷取的情況下,站台地圖可能會有多個起點,
可能要每次擷取時額外加入起始網址的記錄才能重建出站台地圖了@@...
※ 編輯: danny0838 (59.115.3.56 臺灣), 11/15/2020 23:10:36