看板 Soft_Job 關於我們 聯絡資訊
@書名:(請盡量寫正確的全名) Mahout In Action @書本類型:(繁體書、簡體書、翻譯書、英文書) 英文書 @連結:(請至少附上一個參考連結,方便使用者找尋、購買。) http://www.tenlong.com.tw/items/1935182684?item_id=384683 @入手方式:借閱(圖書館、親友)、購買、交換 借閱 @為什麼會買這本書? 因為這本是市面上唯一一本在教mahout的書 @讀完有任何感想?(請至少附上五十字感想) 與其說是Mahout In Action, 不如說是Practical Machine Learning Using Mahout 此書的作者花了相當篇幅在machine learning的概念上進行解說, 從基礎概念,模型如何調整到如何應用在實際環境上都有,並且沒有提到數學式。 對於我這種研究所不是做machine learning,數學又糟的人來講相當有用。 然而優點也就只有這樣而已了。如果要以mahout參考書來評論他的話是不及格的。 參考書最重要的程式碼不夠。 前兩大章節(推薦和分群)還算是有完整的程式碼, 分類這章節跟本就沒提到什麼mahout的API,只有示範SGD的訓練而已。 (對,不教你如何分類。我訓練完了,再來勒?) 從網站上下載的範例檔與書內寫的又不太一樣, 那一大串被註解掉的code看起來才是關鍵部份但是uncomment之後卻不能跑。 naivebayes的部份更扯,只教你command line的training和testing,沒有classifying。 好不容易google到code之後發現使用方法跟SGD完全不一樣, 真無法理解為什麼他能完全跳過這部份,我才不相信搞分類的沒人在用naivebayes @覺得買得有價值嗎? Yes/No 看人,畢竟這是唯一一本教mahout的書 @如果給一到五顆星,你給幾顆? (*****) 如果你要用到mahout:**** 畢竟也只有這一本了 其他:* (註:如果要批評請就事論事,請勿出現人身攻擊。) 好吧,其實這篇是抱怨文~_~ mahout的官方文件也很少, 少到我覺得有人想學mahout叫他看官方網站的人真的有看過官方網站嗎? 看一看這本書,然後忘記官方網站吧,什麼都不會跟你講的 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.170.191.35
n3oanderson:open source communities more often communicate 10/24 22:46
n3oanderson:through mailing list or irc 10/24 22:46
iceonly:就算是多用mailing list也不會像那個官方網站來的少 10/24 22:48
※ 編輯: iceonly 來自: 118.170.191.35 (10/24 22:48)
cansas:說真的 我覺得Mahout這樣還可以出書 已經算不錯了 我就是做 10/25 21:19
cansas:Machine learning的 絕大部分的Open Source幾乎都沒有文件 10/25 21:20
cansas:用起來就跟解謎一樣 你遲早必須要去Trace他們程式碼 把他AP 10/25 21:20
cansas:I包到你程式中 而且Naive Bayes不需要用到Mahout 他計算條 10/25 21:22
cansas:見機率的方式很簡單 自己寫即可可參考http://0rz.tw/Vzs81 10/25 21:23
cansas:不然也可參考http://0rz.tw/sMRXU 只是這又是一個OpenSourc 10/25 21:25
cansas:e 文件也很少 儘管他已經有十年 Sponsor有FBI也有SIRI所屬 10/25 21:26
cansas:的CALO計畫 那又如何ML本來現在就屬於研究社群在用的東西 10/25 21:27
cansas:唯一的方法就是自己看 我還真的想不出任何快速捷徑 10/25 21:27
hilorrk:mahout 好處不是利用 mapreduce 分散計算能力嗎? 10/25 22:50
iceonly:我用weka刻出了一個classifier,然後因為資料太多爆掉了 10/26 20:02
iceonly:放了-Xmx8g跟我喊OOM 10/26 20:03
iceonly:weka的API跟mahout比起來算簡單的,還有範例檔可看 10/26 20:04
iceonly:另一方面是train出來的模型太大,很難做到realtime 10/26 20:06
iceonly:會動到hadoop生態環境的都是資料來源太大的關係 10/26 20:09
iceonly:是阿,我現在是trace他的test和他的command line script是 10/26 20:12
iceonly:怎麼寫的 10/26 20:13
cansas:若是這樣 我的建議是 1.你應該調整特徵數 因為也不是所有特 10/26 20:15
cansas:徵都有用 2.分類器不用一台分好幾類 你可以好幾個小的 再用 10/26 20:16
cansas:一個大的串起來 3.去掉不具代表性的訓練文件 之所以這樣做 10/26 20:16
cansas:主要是因為 訓練文件真的爆多也沒用 當超過一個門檻值 分類 10/26 20:17
cansas:氣的效果就收斂了 所以真的無計可施的狀況下 建議才用MAHOU 10/26 20:18
cansas:T 10/26 20:18
iceonly:13我考慮過了,2的話你是指像是先將900個target分成30群然 10/26 21:23
iceonly:後再將這30群當作target分類嗎(就是先30選1再30選1) 10/26 21:25
iceonly:目前我是做出30個分類器去分900個類別,只是效果實在很糟 10/26 21:27
iceonly:另外mahout的cnb用在範例上實在很威,也會幫你做tfidf之 10/26 21:36
iceonly:類的工作,其實挺棒的 10/26 21:37
bettis:學懂後寫一本吧! 10/26 21:55