看板 C_Sharp 關於我們 聯絡資訊
※ 引述《check (check)》之銘言: : 各位板友大家好,我在處理一個中文字統計出了問題, : 想請問板友這問題是出在哪邊? : 我有兩個檔案Dictionary.txt裡每一列即是一個中文詞,共82045個。 : 另一個是corpus4.txt,每一列即是一篇中文文章,詞與詞已經用半形空白格開。 : 共225列。 : 我現在要做的是統計每個詞在各篇文章中是否曾出現過 (出現過即算) : 預計輸出檔案格式為 : 詞一 次數 : 詞二 次數 : ... : 以此類推,其中次數會介於0~225之間。 : 不過我的程式碼卻跑不出結果來,請板友提點一下 : http://paste.plurk.com/show/646536 : 我是猜測ReadLine溢位,或者是 : if (wtemp.IndexOf(dic[i].ToString()) != -1) : 這邊有問題? 竟然你覺得這邊有問題,那就乾脆把這邊Console出來 Console.WriteLine("dic:"+dic[i].ToString()) Console.WriteLine("mappingIndex:"+wtemp.IndexOf(dic[i].ToString())) 看看你要的結果是不是對的 參考看看 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 60.251.100.51
check:謝謝 我現在去試看看 09/05 14:38
check:檢查的結果是,程式沒問題只是跑很慢orz 09/05 19:08
check:5個小時只跑了四分之一 09/05 19:09
BETNPP:因為io是很花時間的 建議你把多個字串組合成一個一次輸出 09/05 20:56
BETNPP:另一種做法把文章一次讀入記憶體 減少io request 09/05 21:03