看板 RIPE_gender 關於我們 聯絡資訊
怎麼挑選 4096 個韓文字 看大家都在分享感情,我就分享一下阿宅工程師在做什麼好了 C 語言,或任何語言,其實都是工具 而在工具之上還有 domain knowledge, 這其實更重要 比如會計,我不懂,無法寫會計程式 下棋,我不會贏,無法寫下棋程式 而如果有 domain knowledge,就算工具語言不熟練 for loop 不用卻 hard code 幾百行,或程式速度略慢,甚至當機 這些其實在某限度下都可以忍受的 (還是有不少手機會自動重開機啊,那就是當機了;人家還不是在賣) 因此,阿宅的工作,決勝點不在 coding, 在 domain knowledge 換個領域常就要 K書了 (就好像會打電話了,但換個妹就得重新熟悉對方的喜好;相對之下打電話只是最基本的) 這次為什麼要挑 4096 個韓文字? 因為同事在寫小設備的軟體,記憶體有限,他提出的上限就是 4096 字 我們可以手機顯示簡訊來理解 手機之所以可以顯示簡訊,是因為從大氣中接到簡訊的內碼,而內碼再查詢出字型 這張字型表大,則字的選擇多;若記憶體不足,則能選擇的字體少(收到只好顯示亂碼) 以中文來說,怕不有數萬字;但若記憶體不足,則挑一萬多字的次常用字 再不足,可以精簡至數千字的常用字 以英文來說,是拼音字,那只要 26 個;或分大小寫,則 26*2 個 那麼韓文呢?韓文算怎樣的類型,怎樣挑比較好呢? 韓文字母才 24 個,如果都用字母,就 24 字即可 就好像中文雖然數萬字,但如果全用注音文,也只要幾十字即可 如果我們真的只提供韓文字母 24 字,那是注音文了 那要怎麼挑 4096 字以下呢? 然後我就在一堆文件中頭大了.. (當然啦,我都舉手機為例了;有做韓文手機的工程師應該有答案) -- 輕聲一歎 歎不盡傷感 默默的盼 盼望那遲來的緣 幾許相見 加深我的愛戀 分秒不見 都使我相思綿綿 天天的等 夜夜的盼 虛度了多少 落葉的秋天 常聽你消息 就像在眼前 仔細的看一看 你卻遠在天邊 默問蒼天 何時了我心願 對你情感 長留在歲歲年年                                  - 孫儀 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.251.197.63 ※ 文章網址: http://www.ptt.cc/bbs/RIPE_gender/M.1410551919.A.C70.html ※ 編輯: HuangJC (60.251.197.63), 09/13/2014 04:00:01
ahsan: 咦,不算漢字,韓文本就是注音文,基本格局就是子音母音子音組 09/13 04:11
ahsan: 沒記錯的話,通通能發音,有意思的字不就幾千個嘛.ISO 應該有 09/13 04:12
ahsan: CJK 碼表可查.我玩 national languages 是 80 年代了,也許 09/13 04:14
ahsan: 又是給你舊情報. 09/13 04:14
我們設備內傳送簡訊都是 unicode,所以先查這份 https://zh.wikipedia.org/wiki/Unicode https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97 http://tinyurl.com/lgmuws5 然後文內有提及查這份,中日韓越統一表意文字,這就你說的 CJK 了 情報是不舊,但是字集太大,文內說: 最初期的統一漢字共20,941字,其範圍為:0x4E00—0x9FCC 20941 > 4096 記憶體炸了~ 所以要挑~~~ ※ 編輯: HuangJC (60.251.197.63), 09/13/2014 04:45:07
HuangJC: CJKV 是含其它語系,我很快決定日越中文都不需要了 09/13 04:48
HuangJC: 所以現在字集縮小到 K0 這個來源.. 09/13 04:48
ahsan: 自己去算,這些是Hangul(韓文),但是你還會需要Jamo(字母). 09/14 04:15
這些是怎麼來的? 其實這題我已經解完,同事看過同意了 所以我不是要魚,我是要釣桿 如果你能解釋你的資料怎麼找到這的,看過比我的更有說服力,我會用你的 -------- 承上次推文,我說縮小到 K0 這個來源 https://zh.wikipedia.org/wiki/KS_X_1001 這是 KS X 1001 的內容 KS X 1001是韓國用於書寫的諺文和漢字的字元編碼規格。 然後我看到諺文 https://zh.wikipedia.org/wiki/%E8%AB%BA%E6%96%87 再湊上某處看到,諺文就算是韓國的文字了(我是指,比注音高一級的) 這諺文範圍在哪呢? U+AC00-U+D7A3, U+1100-U+11FF, U+3131-U+318E, U+FFA1-U+FFDC 以上,其中 AC00~D7A3, 就是你給的網址 如果我要用,我似乎少了一句話:上面的範圍,最前面就是最常用字 如果是最常用字了,那或許可以考慮 ※ 編輯: HuangJC (175.180.190.39), 09/16/2014 02:27:12
HuangJC: 我做了個減法,光 AC00~D7A3就一萬多字,又爆了 09/16 02:28
HuangJC: 直接講完我的做法好了, KS X 1001 內有常用諺文 09/16 02:29
HuangJC: 所以我把這份文件和諺文取交集,就是常用諺文了 09/16 02:30
HuangJC: 接下來我還有好多語系要做,麻煩的是文件沒一致性 09/16 02:30
HuangJC: 每個國家都要重檢討一次,才能定義出常用字 09/16 02:30
HuangJC: 所以我覺得,我仍然沒拿到釣竿 09/16 02:31