看板 AndroidDev 關於我們 聯絡資訊
※ 引述《tripleleft (連續中離)》之銘言: : 最近因為某些軟體的風波 : 所以想自己寫個連接PTT的軟體 : 目前的寫法是開一個新的Thread跑socket : socket = new Socket(host, port); : : 然後參考版上讀取的方法 : in = new BufferedReader(new InputStreamReader(socket.getInputStream())); : in.readLine(); : 不過編碼一直出問題 : (使用String S = new String(in.readLine().getBytes(),"BIG5");) : 所以把他拆開來讀取 : byte[] data = in.readLine().getBytes(); : for迴圈跑S+= Byte.toString(data[num]) + ","; : 然後把他印出來 : System.out.println(S); : 然後就發現只要遇到中文字或全形符號他的編碼就會變成-17 -65 -67(0xEF 0xBF 0xBD) : (甚至不是偶數的倍數到底是怎麼回事) : 想問問到底是我寫的問題有問題還是我編碼的方式不對 new String(in.readLine().getBytes(),"BIG5"); 這行看起來沒什麼問題,可能要直接把原始的 bytes 印出來才知道為什麼不能轉。 byte[] byteArray = new byte[] {(byte) 0xA4, (byte) 0xA4}; try { String s = new String(byteArray, "Big5"); System.out.println(s); System.out.println("length of s: " + s.length()); } catch (UnsupportedEncodingException e) { } 上面可以印出: 中 1 參考 Big5 的 spec http://bit.ly/1GNtEO0 雙色字需要特別處理。 以上面「中」的編碼 0xA4A4 為例, 高位字節 A4 與低位字節 A4 在 Big5 的定義區間, 因此 new String(byteArray, "Big5") 這行會拿 0xA4A4 去 Big5 碼表查對應的字。 而雙色字,如「」,當程式在解析 byte array 時, 遇到第一個 0xA4,因為 0xA4 不在 ASCII 編碼中, 且符合 Big5 的高位字節, 所以預期下一個 byte 會符合 Big5 的低位字節。 但是下一個 byte 是 0x1B (ESC), 這不符合低位字節, 此時就會跳進特別的處理, 容錯率高一點的話, 他可能會把 0xA4 0x1B 當成兩個不可視的字元, 結果就是整個 array 轉完後,不會有「中」這個字。 嚴謹一點來看,0xA4 0x1B 既不是合法的 Big5 編碼,也不是合法的 ASCII 編碼, 因此發生 exception 也是很合理的。 此外雙色字並不存在於 Unicode 中也是一個問題。 new String(byteArray, "Big5") 這行會轉兩次碼, 第一次去查 0xA4A4 是什麼字,查到是「中」之後, 要作為 String 放在記憶體中, 此時會再查一次「中」在 Unicode 的編碼是什麼, 並在 String instance 中存入該 Unicode 編碼。 另外 Byte.toString(byteArray[i]) 這樣看不到是什麼字很正常, 因為這樣只是把 byte 轉成 10 進位的數字再轉成字串而已。 這樣不會把 0xA4A4 當成一個字,只會當成 2 個 byte。 -- http://changyuheng.github.io/ http://murmuring-on-the-air.github.io/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.141.120.55 ※ 文章網址: https://www.ptt.cc/bbs/AndroidDev/M.1435324839.A.441.html ※ 編輯: changyuheng (220.141.120.55), 06/26/2015 22:22:09
tripleleft: 我了解在文字中間插入顏色的問題 不過我看一下登入畫 06/28 22:07
tripleleft: 面 那張下雨的圖片沒有在全行字元中間插顏色 06/28 22:07
tripleleft: 我把byte轉成string是因為他都是亂碼 所以我想直接看 06/28 22:08
tripleleft: 十進制的狀態是怎麼樣(十六進制我有困難XD) 才能分析 06/28 22:09
tripleleft: 問題 後來就是我發問的 所有中文字都會出現-17-65-67 06/28 22:10
tripleleft: 現在是打算用JSch走SSH 06/28 22:13