看板 java 關於我們 聯絡資訊
今天碰到一個問題, 就是從簡體的網頁,網頁編碼GB2312,把整個網頁原始碼抓下來, 然後讀外部的TXT檔(單字庫),也是簡體字, 如果網頁上的句子中有出現字庫中的單字,就把該超連結的檔案下載下來, 我是用迴圈+ .indexOf >=0 判斷有無符合字庫內的單字, 不過試了一整天都沒辦法,System.out.print 出來的某些字會變?? 不知道是不是因為外部檔讀進來,需要設定編碼? 還是網頁擷取下來的字要做其他設定? 不過我試了幾種,不是亂碼就是會有?? 麻煩請高手指導一下,謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.32.29.166