※ 引述《slalala (用BBS修電腦~Orz)》之銘言:
: 我現在要做一個程式
: 必須要讀取.txt檔案 一個檔案約150多MB(我沒豪洨/ \我也很難過><)
: 內容是
: 把程式裡面相關文章斷詞塞選出來 存入資料庫(大概結果會超過2萬筆資料)
斷詞阿... [遠目]
可以問一下 java 有哪些(中文)斷詞 library 嗎?
(目前只有聽說 PATTerm 這個... 而且用法不明 Orz)
: 想請問 我知道我不該把資料通通存入String
: 但是如果真要這樣做可行嗎?(我嘗試過會ERROR)
: 有辦法加大Catch讓String讀入150多MB嗎(._.?)
不是加大 cache,而是增加 JVM 的記憶體大小
指令是執行時候下
java -xmx
不過... 這個方法應該是治標不治本
一般的文章應該是有段落的
所以用 BufferedReader.readLine()
然後依照你文件的格式,去拼出一個段落,把這個段落另存檔案
最後再分別 load 這些檔案進去斷詞
這樣應該比較好(不過沒 try 過,純嘴砲 [逃])
: 請問有什麼function能一次 慢慢讓軟體去處理這麼大的檔案呢?
: 另外問一下ArrayList有長度限制嗎?
--
侃侃長論鮮窒礙 首頁:http://www.psmonkey.idv.tw
眾目睽睽無心顫 Blog:http://ps-think.blogspot.com
煢居少聊常人事
殺頭容易告白難 歡迎參觀 Java 版(@ptt.cc)精華區 \囧/
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.228.195.84