看板 PHP 關於我們 聯絡資訊
※ 引述《danielkimo (Daniel)》之銘言: : related to 9462 : 感謝大家的幫忙, 現在已經可以判斷網頁的文字是否為中文字, : 以下列為例: : Kaohsiung City Mayor Chen Chu (陳菊) looks set to represent the Democratic [中刪] : 通常中文字都是在括號裡, 但是要抓括號前面的英文字, 有時人名是二個字, : 有時是三個字,請問這樣要怎樣確切抓出正且的中文翻譯呢 : ps. 有時新聞文章會有機構的名稱, 就沒辦法人名最多三個字的方法來辨別了 : output exapmle: Yang Chiu-hsing 楊秋興 : 謝謝大家 寫在前面:我還沒有想到好的答案,不過既然版上討論風氣不錯,大家集思廣益也好 人名部份比較單純,大概有兩項地雷與一條注意事項 地雷一:會不會有人有中間名?有些人會把中文(或英文)名字放成中間名 地雷二:會不會有人有中文與英文姓名,且兩者無直接關聯 (例如湯若望先生的全稱是 Johann Adam Schall von Bell) 注意事項:英文拼音較長,並且中間有連字號,所以可能會碰到行尾斷行 簡單判斷方式: 以台灣正式姓名書寫範例,應為 Xxxxx-yyyyy Zzzzzz 之格式, 可以用 (\w+-)?\w+\s\w+\(\w+\) 的方式來匹配 之後在照字數與連字號數目處理 組織名稱如果是以「連續大寫」來判定的話,可以抓 ([A-Z]\w*)((\s|-)([A-Z]\w*))*\s\(\w+\) ^^^^^^中間容許為空白字元或連字號) 但像上面那行範例,就會誤判出 'Kaohsiung City Mayor Chen Chu (陳菊)' 這樣的句子。 因此以 regex 篩過之後,還是需要程式或人工檢查姓名是否匹配 人名可以從字數下手,但公司機構名稱就有些麻煩囉 ㄎㄎ 另外,機構名稱中可能有 'A' 'I' 等單字,但也可能只是剛好放到一起, 這靠人工判斷會比較簡單; 機構名稱其實也是可以使用數字的,這點修改就留給你啦 -- 鬼壓床怎麼辦 騎上去啊 Blog: http://clifflu.blogspot.com/ Since March, 2007 Photo Galelry: http://www.picasaweb.com/clifflu 沒有了 T_T -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.230.190