作者alpe (薛丁格的貓)
看板PHP
標題Re: 抓取特定字串
時間Tue Jan 16 22:11:19 2007
※ 引述《hfnadkv (衝衝衝)》之銘言:
: 我主要目的是要把下面的期刊名稱給抓出來
: http://www.isinet.com/cgi-bin/jrnlst/jlresults.cgi?PC=K&mode=print&Page=1
: <?
: $handle = fopen('上面的網址', 'r');
$contents = stream_get_contents($handle);
: fclose($handle)
: preg_match_all('/^\d+. +(.*)/m',$contents,$r); //引用大大的正規語法
: print_r($r[1]);
當你要抓網路資料的時候... 看不見得是真的...
來看看 URL 所抓下來的 html
<DL>
<DT>1. AAPG BULLETIN</DT>
<br><DD>Monthly<br><DD>ISSN: 0149-1423<DD>AMER ASSOC PETROLEUM GEOLOGIST,
1444 S BOULDER AVE, PO BOX 979, TULSA, USA, OK, 74119-3604<br><br><DT>2.
ABDOMINAL IMAGING</DT>
這跟你提供的東西可是全然不同的... ...
buganini 所寫出來的 沒錯, 不過是在你提供的資料下...
btw. /^\d+
. +(.*)/
那個. 可能會有點問題... ...
看了一下... 用xml 可... 如果要用preg /\d+\. +(.*?)</
等一下用 xml 的方式玩玩看
--
Live Long and Prosper
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 221.169.25.33
推 hfnadkv:aple真神阿~~~ 01/16 22:36
→ hfnadkv:RE真該好好學了!呼~ 01/16 22:36
推 wadd:高手^^,這個我也還在學當中^^ 01/16 22:58
推 buganini:對喔...點忘了slash... 01/17 02:33
→ buganini:可用preg_replace('/<.*?>/is','',$s); 把html去掉 01/17 02:34
→ buganini:<script> <style> 這種的往前爬文應該有 懶的寫了 01/17 02:35
推 hfnadkv:感恩!多學了好幾招~ 01/17 11:11