看板 IME 關於我們 聯絡資訊
※ 引述《cnoize (泥巴星球Server)》之銘言: : 我記得教育部有 86 年, 87 年的兩個表。 : 網際網路前輩做的 1994 年、1995 年的兩個統計表。 : 中研院長期整理的表格。 : 這些不同的表格之中,常用字有些微的不同。 : 部分字的字頻可靠性需要研究。 : 網際網路前輩的表格中,"交" 很常見。 : 我認為是取樣文章為 newsgroup,每篇文章都有 "交通大學BBS" : 的緣故。 記憶內容有些錯誤,正確資料如下: 逗號、句號是常用的,所以如果輸入法把它們的空位換成字, 效率會變低。 http://technology.chtsai.org/charfreq/ 1994 年 Big5 中文網路討論字頻統計 http://technology.chtsai.org/charfreq/94charfreq.html 13 資 7 大 26 學 27 交 57 工 1993 年全部 Big5 相關討論區字頻統計 http://technology.chtsai.org/charfreq/93charfreq.html S: 符號 1 ─ S # 減號? 3   S # 全型空白? 7 , S # 逗號 9 │ S # 直線? 12 。 S # 句號 17 ═ S # 等號 29 □ S # 正方形? 11 大 16 學 18 資 30 交 35 系 40 工 交大大學資工系 http://ftp.isu.edu.tw/pub/Windows/Chinese/phrase/ http://ftp.isu.edu.tw/pub/Windows/Chinese/phrase/00_index.txt http://bbs.nsysu.edu.tw/txtVersion/treasure/psychology/\ M.855653188.A/M.932180472.H.html http://tinyurl.com/234psax -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 219.86.129.221
ilanese:有提到「未去除檔頭引言及簽名等資訊」這點。但未必所有統 05/20 01:55
ilanese:計字頻的資料都會有這個問題。 05/20 01:56
ilanese:我倒是贊成將「,」、「。」這兩個標點符號放在一碼字裡。 05/20 01:58
ilanese:其他一些標點符號可放在二碼字裡。 05/20 01:59