看板 RegExp 關於我們 聯絡資訊
<li class=g><h3 class=r><a href="http://mi.nou.edu.tw/workshop/workshop_910718.htm" 以上是我想要抓取的 條件是有class=g 跟 class=r時 才抓取網頁 我表示式寫成 (?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>] 沒辦法抓取我要的網頁 但若我改成 (?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>] 是有辦法 可是在google網頁中 它會連庫存網頁也會抓進來 我只要單一乾淨的主網頁 不要子網頁 有沒有 辦法?? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 202.132.194.89
MrAshan:沒人回答我的問題-_- 11/02 00:29
giacch:最後那表示式, 前面想辦法把class=g的條件加上去試試... 11/02 03:22
MrAshan:試了目前在第一頁擷取網頁是正常但在第二頁一樣會有子網頁 11/02 03:41
MrAshan:又會跟之前一樣 相同性的問題又出現? 11/02 03:42
giacch:可以提供樣本作測試嗎..? 我找的google連一行都出不來... 11/02 03:44
MrAshan:找Crawler相關資訊 會對你有幫助:) 11/07 00:28