作者cole945 (躂躂..)
看板EZsoft
標題Re: [心得] Unicode 補完計畫 (UAO)
時間Sat Nov 3 02:42:33 2007
推 reptile:沒人說表不能是碼吧?況且,一開始Unicode這個表的確是16bit
不過很巧在unicode裡, "表" 就不是碼 .__.a
他跟其他編碼的概念不太一樣。
就是以 "表" 這個字為例,
在 unicode 中,定義了這個字叫 U+8868 ,就這樣而已
但實際上這個字真正在應用時, 該如何以位元編碼的形式存在電腦上,
若用 utf-8 法來編碼, 就會變成 e8 a1 a8
而用 utf-16le 則是 68 88 (其實跟原本一樣)
所以說在 Unicode, "表" 和 "碼" 是不太一樣的 :)
--
已經有人寫過一篇介紹 unicode 的好文件了, 所以我就直接貼別人寫好的
The Joel on Software
每個軟體開發者都絕對一定要會的Unicode及字元集必備知識(沒有藉口!)
http://tinyurl.com/y7vw4t
「有些人誤認為Unicode只是個16位元碼,裡頭每個字都要佔16位元,所以總
共有65,536個字元。事實上這並不正確。這是關於Unicode常見的誤解,...」
「Unicode可以定義的字母數量並沒有實質限制,事實上可以超過65,536個,
所以並不是所有的Unicode字母都能擠進兩個位元組裡,...」
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.139.143.52
推 alicekey:原來IE猜編碼是用頻率分析法,這方法蠻好的。 11/03 07:14
推 alicekey:作者會覺得這方法奇怪,可能是沒學過密碼學。 11/03 07:18
推 vizshala:用猜的怎麼會好? 11/03 08:57
推 vizshala: 應該是網頁符合W3C標準 瀏覽器用猜的只是種妥協 11/03 09:00
推 albb0920:很多人懶的設charset的 XD 11/03 10:08
推 alicekey:我是指在猜的方法中算好的,總體來說好不好就不知道.. 11/03 14:26
推 seansylin:有設定當然照charset,沒有只好用猜的,這絕對是比較好 11/03 14:31
→ seansylin:的設計,"容許錯誤"是最基本的的設計原則 11/03 14:32
推 sdbb:推容許錯誤,樓上專業 11/03 20:56
→ ddman:推Joel on Software, 奇人一個! 11/03 21:58