→ Lucemia:看python 記憶體用量會不會爆掉 11/06 10:20
→ Lucemia:不會的話直接將資料全部處理完在一次寫入mysql 11/06 10:20
→ Lucemia:會的話就用檔案分別暫存 11/06 10:21
→ Lucemia:正常像常用英文單字有限,要直接在python裡面處理完不難 11/06 10:21
推 darkroad:Insert 的table用index 會越來越慢因為要一值重整 11/06 11:13
推 StubbornLin:要不要考率用map reduce的分散式寫法? 11/06 12:04
→ StubbornLin:基本上google用來切單詞找頻率好像就是用這種方法 11/06 12:05
→ StubbornLin:現成的map reduce分散式運算 11/06 12:13
推 StubbornLin:又或著 如果你不喜歡map reduce 11/06 12:32
→ StubbornLin:可以考慮把文章分成好幾群 降到可以開dict的數量級 11/06 12:33
→ StubbornLin:然後就照你說的 每台電腦parse文章都用dict檢查 11/06 12:34
→ StubbornLin:等那一整部份的文章做完 再一口氣存回mysql 11/06 12:34
→ iapptt:如果不堅持自己做,可用sphinx fulltext search engine 11/10 11:36