→ n3oanderson:open source communities more often communicate 10/24 22:46
→ n3oanderson:through mailing list or irc 10/24 22:46
→ iceonly:就算是多用mailing list也不會像那個官方網站來的少 10/24 22:48
※ 編輯: iceonly 來自: 118.170.191.35 (10/24 22:48)
→ cansas:說真的 我覺得Mahout這樣還可以出書 已經算不錯了 我就是做 10/25 21:19
→ cansas:Machine learning的 絕大部分的Open Source幾乎都沒有文件 10/25 21:20
→ cansas:用起來就跟解謎一樣 你遲早必須要去Trace他們程式碼 把他AP 10/25 21:20
→ cansas:I包到你程式中 而且Naive Bayes不需要用到Mahout 他計算條 10/25 21:22
→ cansas:e 文件也很少 儘管他已經有十年 Sponsor有FBI也有SIRI所屬 10/25 21:26
→ cansas:的CALO計畫 那又如何ML本來現在就屬於研究社群在用的東西 10/25 21:27
→ cansas:唯一的方法就是自己看 我還真的想不出任何快速捷徑 10/25 21:27
推 hilorrk:mahout 好處不是利用 mapreduce 分散計算能力嗎? 10/25 22:50
→ iceonly:我用weka刻出了一個classifier,然後因為資料太多爆掉了 10/26 20:02
→ iceonly:放了-Xmx8g跟我喊OOM 10/26 20:03
→ iceonly:weka的API跟mahout比起來算簡單的,還有範例檔可看 10/26 20:04
→ iceonly:另一方面是train出來的模型太大,很難做到realtime 10/26 20:06
→ iceonly:會動到hadoop生態環境的都是資料來源太大的關係 10/26 20:09
→ iceonly:是阿,我現在是trace他的test和他的command line script是 10/26 20:12
→ iceonly:怎麼寫的 10/26 20:13
→ cansas:若是這樣 我的建議是 1.你應該調整特徵數 因為也不是所有特 10/26 20:15
→ cansas:徵都有用 2.分類器不用一台分好幾類 你可以好幾個小的 再用 10/26 20:16
→ cansas:一個大的串起來 3.去掉不具代表性的訓練文件 之所以這樣做 10/26 20:16
→ cansas:主要是因為 訓練文件真的爆多也沒用 當超過一個門檻值 分類 10/26 20:17
→ cansas:氣的效果就收斂了 所以真的無計可施的狀況下 建議才用MAHOU 10/26 20:18
→ cansas:T 10/26 20:18
→ iceonly:13我考慮過了,2的話你是指像是先將900個target分成30群然 10/26 21:23
→ iceonly:後再將這30群當作target分類嗎(就是先30選1再30選1) 10/26 21:25
→ iceonly:目前我是做出30個分類器去分900個類別,只是效果實在很糟 10/26 21:27
→ iceonly:另外mahout的cnb用在範例上實在很威,也會幫你做tfidf之 10/26 21:36
→ iceonly:類的工作,其實挺棒的 10/26 21:37
推 bettis:學懂後寫一本吧! 10/26 21:55