作者cnoize (泥巴星球Server)
看板IME
標題Re: [閒聊] 字頻總表前30個字的拆碼數比較
時間Thu May 20 01:08:57 2010
※ 引述《cnoize (泥巴星球Server)》之銘言:
: 我記得教育部有 86 年, 87 年的兩個表。
: 網際網路前輩做的 1994 年、1995 年的兩個統計表。
: 中研院長期整理的表格。
: 這些不同的表格之中,常用字有些微的不同。
: 部分字的字頻可靠性需要研究。
: 網際網路前輩的表格中,"交" 很常見。
: 我認為是取樣文章為 newsgroup,每篇文章都有 "交通大學BBS"
: 的緣故。
記憶內容有些錯誤,正確資料如下:
逗號、句號是常用的,所以如果輸入法把它們的空位換成字,
效率會變低。
http://technology.chtsai.org/charfreq/
1994 年 Big5 中文網路討論字頻統計
http://technology.chtsai.org/charfreq/94charfreq.html
13 資
7 大
26 學
27 交
57 工
1993 年全部 Big5 相關討論區字頻統計
http://technology.chtsai.org/charfreq/93charfreq.html
S: 符號
1 ─ S # 減號?
3 S # 全型空白?
7 , S # 逗號
9 │ S # 直線?
12 。 S # 句號
17 ═ S # 等號
29 □ S # 正方形?
11 大
16 學
18 資
30 交
35 系
40 工
交大大學資工系
http://ftp.isu.edu.tw/pub/Windows/Chinese/phrase/
http://ftp.isu.edu.tw/pub/Windows/Chinese/phrase/00_index.txt
http://bbs.nsysu.edu.tw/txtVersion/treasure/psychology/\
M.855653188.A/M.932180472.H.html
http://tinyurl.com/234psax
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 219.86.129.221
→ ilanese:有提到「未去除檔頭引言及簽名等資訊」這點。但未必所有統 05/20 01:55
→ ilanese:計字頻的資料都會有這個問題。 05/20 01:56
推 ilanese:我倒是贊成將「,」、「。」這兩個標點符號放在一碼字裡。 05/20 01:58
→ ilanese:其他一些標點符號可放在二碼字裡。 05/20 01:59