[問題] 爬蟲 url 空白 的問題

作者ibgvdlbj (:))

看板Python

標題[問題] 爬蟲 url 空白的問題

時間Fri Aug 9 13:44:16 2019

Hi 大家好小妹新手上路正在試用 python3 urllib.request 從一個網站裡下載多個pdf檔案後來發現 400 錯誤仔細研究後發現有些 pdf 的link 有空白，在正確的網址下空白則用%20代替想請問大家該怎麼解決? 因為有些pdf link 沒有空白的問題目前在猜想是不是可以這樣寫? import urllib.parse for url in url_list[:] url =root_url + url urllib.parse.quote(url) getFile(url) 麻煩各位大大了，謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 99.241.153.151 (加拿大) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1565329458.A.B85.html ※ 編輯: ibgvdlbj (99.241.153.151 加拿大), 08/09/2019 13:53:49

→ CodingMan: url encode? 08/09 15:03

→ niceguy: replace(' ','%20') ? 08/09 15:06

→ ibgvdlbj: 可以請1樓上大大詳細一點說明嗎？新手上路 @@ 08/09 23:07

→ ibgvdlbj: 2樓大大我試著寫 08/09 23:07

→ ibgvdlbj: url = root_url + url 08/09 23:07

→ ibgvdlbj: url.replace(“ “, “%20”) 08/09 23:07

→ ibgvdlbj: getFile(url) 08/09 23:07

→ ibgvdlbj: 還是不行、不知道哪邊寫錯@@ 08/09 23:07

→ CodingMan: url = url.repalce()...... 08/09 23:11

→ ibgvdlbj: 已跑出～謝謝C大！ 08/10 00:04

→ ibgvdlbj: 另外想請問，我寫raw_url 給定網址（第一頁）下載，但 08/10 00:04

→ ibgvdlbj: 其實還有下5頁的pdf file （想下載100份 pdf files) 不 08/10 00:04

→ ibgvdlbj: 知道在這部分要怎麼寫呢？ 08/10 00:04

→ jiyu520: 學習google噢爬蟲有許多資源和範例 08/10 09:17

→ CodingMan: 網頁有連結就找出來沒有就觀察規則 08/10 09:25

→ ibgvdlbj: 好的，我來試試，有問題再上來請教，謝謝各位 :) 08/10 12:58