→ alpe:btw. 用什麼方式抓 html 都是html, 除了抓不到 (茶) 12/21 22:38
※ 引述《skylock (他娘的!)》之銘言:
: 網址部分已經解決
: 另外我還想要取得網頁的一些資料
: ex:http://tw.page.bid.yahoo.com/tw/auction/1147875268
: 1.上方橘色底的商品名稱
: 2.拍賣檔案裡的目前出價,剩餘時間,出價增額,運送費用
: 我是用file_get_contents()這函數抓取網址的原始碼
: 但對正規表示法實在有點頭痛
: 不知道該怎麼寫呢@@?
就我在工作遇到的來說... ...
教你幾個步驟:
1. 看你要的資料, 有沒有什麼特殊規則可撈出來
或是有什麼是可以清掉一堆廢物的
2. 沒有可以直接撈的方式就, 開始清廢物吧...
3. 邊清邊觀察... 像我, 會直接<xmp> html </xmp>輸出來看
好用的 prel RegExp
$html = preg_replace('/<[^>]*>/si', '', $html);
清掉 所有html tag
$html = preg_replace('/<(head|from|style|script|noscript)[^>]*>(.*?)
<\/\1>/si', '', $html);
清掉 這幾個 <html tag> 到 </html tag> 的文字
--
如果對現世有所不滿的話,就改變自己
如果不想的話,就封住你的耳目... 閉嘴孤獨的活下去
攻殼機動隊
Stand Alone Complex
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 210.58.144.121