看板 Python 關於我們 聯絡資訊
我真的是一個超新手的初學者 沒有寫程式的經驗,但為了論文需要截取某網頁上的資料(公開資料) 我現在有兩個問題 第一,目前看到截取網頁都是在同一頁內截取 但我需要所有http://xxx.xxx.xxx?ID=XXXXX的所有網頁內容 也就是所有id的網頁都需要,但id並不是連續數字,是網頁的名稱 該如何截取呢?大約有二千頁,我需要一些關鍵字 第二,我只是要裡面三段文字, 可以有個指令是下"我只要以下三個中文字+它們後方的資料"即可? 軟體名稱:____ 下載次數:____ 軟體價格:___ 然後下載成一個excel檔,就整理成:軟體名稱|下載次數|軟體價格的列表 不曉得這樣截取會太暴力而被擋嗎? 希望有個指引可以讓我完成它,先跟大家說聲謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.27.212.83
uranusjr:會不會太暴力要看那個網站的伺服器設定 05/29 19:05
uranusjr:最簡單的方法是把網頁內容讀進成一個 string 後, 用 find 05/29 19:07
uranusjr:找到你想要的中文字, 然後擷取後面的資料(要截到哪邊看 05/29 19:07
uranusjr:需求而定), 參考 http://goo.gl/3FGB 05/29 19:08
elicamars:我現在還是不曉的要怎麼多個網頁讀入?而且是非連續數 05/29 21:55
elicamars:但我已經可以載入檔案~謝謝u大 05/29 21:55
uranusjr:雖然不連續, 不過有什麼規則嗎? 05/29 22:15
elicamars:沒有規則耶,就是依軟體名稱取的,都是英文字這樣 05/29 22:17
kdjf:寫一個list 然後一個一個來? 05/29 22:53
elicamars:有可能程式去判斷只要是http:XXX.XXX?id=的字樣全下載嗎 05/30 00:12
uranusjr:可是沒辦法知道那個伺服器上面究竟有哪些檔案啊... 05/30 00:36
uranusjr:除非你要像猜金庫密碼一樣一個一個試XD 05/30 00:36
uranusjr:那個網址格式很明顯是用 GET 在送的, 如果沒有 server 端 05/30 00:41
uranusjr:的資訊根本沒辦法知道要送什麼進去才會正確... 05/30 00:42
elicamars:對阿(苦笑...)看來真的要去寫list了XD 05/30 00:49