[問題] 網頁資料抓取

作者filiaslayers (司馬雲)

看板RegExp

標題[問題] 網頁資料抓取

時間Mon Mar 3 15:17:58 2014

/* 聽說註明使用的語言、環境 * 問題有可能較容易被解決... */ 我寫了一個script想要抓取一個網頁上的檔案列表這個網頁是用apache做index，也就是會把目錄下的檔案自動生成一個列表我有上網google到一個方法，不過他寫的我實在看不懂... 有人可以教我怎麼分析嗎? wget --spider --recursive --no-verbose --output-file=wgetlog.txt $url sed -n "s@.\+ URL:$[^ ]\+$ .\+@\1@p" wgetlog.txt | sed "s@&@\&@" 第一行我知道，不過第二行就不看太懂了而且linux下的sed不是應該要用'而不是"嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.135.113.202

→ danny8376:誰跟你說一定要用'了? "只是要考慮shell的一些特殊符號 03/03 19:23

→ danny8376:要記得跳脫比較麻煩而已 03/03 19:23

→ filiaslayers:所以是都可以嗎?我看所有的教學文都用'才覺得奇怪 03/03 21:04

→ danny8376:兩者的差別你可以分別跑 echo '$PATH' 和 echo "$PATH" 03/03 21:44

→ danny8376:差異很明顯 03/03 21:44

→ danny8376:然後回一下你問了第二行的話很簡單 03/03 21:47

→ danny8376:就是從wgetlog.txt裡面抓出URL:後面的部分 03/03 21:47

→ danny8376:(就是WGET輸出檔案中檔案的部分 03/03 21:48

→ danny8376:抓出來之後再把&換成& (HTML的特殊字元跳脫) 03/03 21:48

懂了，非常謝謝你還可以再請問一下，裡面的@是什麼用意嗎? ※ 編輯: filiaslayers 來自: 1.34.109.207 (03/04 08:02)