※ 引述《lovejoe7010 (shen)》之銘言:
: 一段文章或是網頁上的字串
: 例如:"你好,歡迎來到PTT網站"!
: 有沒有甚麼方法可以抓出全部的文字!
: 例如中文:您好歡迎來到網站
: 英文:PTT
<?
mb_http_output("UTF-8");
mb_internal_encoding('UTF-8');
function is_chinese($str){
//檢查傳入的字串是否為中文~
//在gb2312编碼中,正規表為: '/['.chr(0xa1)."-".chr(0xff).']/'
//在utf-8编碼中,正規表為: /[\x{4e00}-\x{9fa5}]/u
//***********************************************
//原创作者:易心 QQ 343931221
//个人网站:www.ex123.net
//作品由易心原创,转载请保留此版权信息。
//http://exblog.ex123.net/html/blogview-81-4057_1.html
//***********************************************
$pattern='/[\x{4e00}-\x{9fa5}]/u';
return (preg_match($pattern,$str))? true:false;
}
//$webdata=strip_tags(file_get_contents('http://3wa.tw'));
$webdata="你好,歡迎來到PTT網站";
$tmp_chinese='';
$tmp_english='';
$tmp_math='';
$tmp_others='';
for($i=0,$max=mb_strlen($webdata);$i<$max;$i++)
{
if(strtolower(mb_substr($webdata,$i,1))>='a'&&strtolower(mb_substr($webdata,$i,1))<='z')
{
$tmp_english.=mb_substr($webdata,$i,1);
}
else if(mb_substr($webdata,$i,1)>='0'&&mb_substr($webdata,$i,1)<='9')
{
$tmp_math.=mb_substr($webdata,$i,1);
}
else if(is_chinese(mb_substr($webdata,$i,1)))
{
$tmp_chinese.=mb_substr($webdata,$i,1);
}
else
{
$tmp_others.=mb_substr($webdata,$i,1);
}
}
?>
原文:<?=$webdata;?>
<br>
中文:<?=$tmp_chinese;?>
<br>
英文:<?=$tmp_english;?>
<br>
數字:<?=$tmp_math;?>
<br>
其他:<?=$tmp_others;?>
//------以為為執行結果---------
原文:你好,歡迎來到PTT網站
中文:你好歡迎來到網站
英文:PTT
數字:
其他:,
--
3WA訓練家的工作室
宗旨:人生就是要爽
個人佈弱格 網址:http://3wa.tw
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.136.183.97
※ 編輯: shadowjohn 來自: 220.136.183.97 (11/28 16:21)
※ 編輯: shadowjohn 來自: 220.136.183.97 (11/28 16:28)
※ 編輯: shadowjohn 來自: 220.136.183.97 (11/28 16:41)