[問題] 大量網頁的特定文字截取?

作者elicamars (陰天)

看板Python

標題[問題] 大量網頁的特定文字截取?

時間Sun May 29 18:56:57 2011

我真的是一個超新手的初學者沒有寫程式的經驗，但為了論文需要截取某網頁上的資料(公開資料) 我現在有兩個問題第一，目前看到截取網頁都是在同一頁內截取但我需要所有http://xxx.xxx.xxx?ID=XXXXX的所有網頁內容也就是所有id的網頁都需要，但id並不是連續數字，是網頁的名稱該如何截取呢?大約有二千頁，我需要一些關鍵字第二，我只是要裡面三段文字，可以有個指令是下"我只要以下三個中文字+它們後方的資料"即可? 軟體名稱：____ 下載次數：____ 軟體價格：___ 然後下載成一個excel檔，就整理成：軟體名稱|下載次數|軟體價格的列表不曉得這樣截取會太暴力而被擋嗎? 希望有個指引可以讓我完成它，先跟大家說聲謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.27.212.83

→ uranusjr:會不會太暴力要看那個網站的伺服器設定 05/29 19:05

→ uranusjr:最簡單的方法是把網頁內容讀進成一個 string 後, 用 find 05/29 19:07

→ uranusjr:找到你想要的中文字, 然後擷取後面的資料（要截到哪邊看 05/29 19:07

→ uranusjr:需求而定）, 參考 http://goo.gl/3FGB 05/29 19:08

→ elicamars:我現在還是不曉的要怎麼多個網頁讀入?而且是非連續數 05/29 21:55

→ elicamars:但我已經可以載入檔案~謝謝u大 05/29 21:55

→ uranusjr:雖然不連續, 不過有什麼規則嗎？ 05/29 22:15

→ elicamars:沒有規則耶，就是依軟體名稱取的，都是英文字這樣 05/29 22:17

→ kdjf:寫一個list 然後一個一個來？ 05/29 22:53

→ elicamars:有可能程式去判斷只要是http:XXX.XXX?id=的字樣全下載嗎 05/30 00:12

→ uranusjr:可是沒辦法知道那個伺服器上面究竟有哪些檔案啊... 05/30 00:36

→ uranusjr:除非你要像猜金庫密碼一樣一個一個試XD 05/30 00:36

→ uranusjr:那個網址格式很明顯是用 GET 在送的, 如果沒有 server 端 05/30 00:41

→ uranusjr:的資訊根本沒辦法知道要送什麼進去才會正確... 05/30 00:42

→ elicamars:對阿(苦笑...)看來真的要去寫list了XD 05/30 00:49