[賞書] Mahout In Action

作者iceonly (只有冰)

看板Soft_Job

標題[賞書] Mahout In Action

時間Wed Oct 24 22:41:43 2012

＠書名：（請盡量寫正確的全名） Mahout In Action ＠書本類型：（繁體書、簡體書、翻譯書、英文書）英文書＠連結：（請至少附上一個參考連結，方便使用者找尋、購買。） http://www.tenlong.com.tw/items/1935182684?item_id=384683 ＠入手方式：借閱（圖書館、親友）、購買、交換借閱＠為什麼會買這本書？因為這本是市面上唯一一本在教mahout的書＠讀完有任何感想？（請至少附上五十字感想）與其說是Mahout In Action，不如說是Practical Machine Learning Using Mahout 此書的作者花了相當篇幅在machine learning的概念上進行解說，從基礎概念，模型如何調整到如何應用在實際環境上都有，並且沒有提到數學式。對於我這種研究所不是做machine learning，數學又糟的人來講相當有用。然而優點也就只有這樣而已了。如果要以mahout參考書來評論他的話是不及格的。參考書最重要的程式碼不夠。前兩大章節(推薦和分群)還算是有完整的程式碼，分類這章節跟本就沒提到什麼mahout的API，只有示範SGD的訓練而已。 (對，不教你如何分類。我訓練完了，再來勒?) 從網站上下載的範例檔與書內寫的又不太一樣，那一大串被註解掉的code看起來才是關鍵部份但是uncomment之後卻不能跑。 naivebayes的部份更扯，只教你command line的training和testing，沒有classifying。好不容易google到code之後發現使用方法跟SGD完全不一樣，真無法理解為什麼他能完全跳過這部份，我才不相信搞分類的沒人在用naivebayes ＠覺得買得有價值嗎？ Yes/No 看人，畢竟這是唯一一本教mahout的書＠如果給一到五顆星，你給幾顆？ (*****) 如果你要用到mahout:**** 畢竟也只有這一本了其他:* (註：如果要批評請就事論事，請勿出現人身攻擊。）好吧，其實這篇是抱怨文~_~ mahout的官方文件也很少，少到我覺得有人想學mahout叫他看官方網站的人真的有看過官方網站嗎? 看一看這本書，然後忘記官方網站吧，什麼都不會跟你講的 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.170.191.35

→ n3oanderson:open source communities more often communicate 10/24 22:46

→ n3oanderson:through mailing list or irc 10/24 22:46

→ iceonly:就算是多用mailing list也不會像那個官方網站來的少 10/24 22:48

※ 編輯: iceonly 來自: 118.170.191.35 (10/24 22:48)

→ cansas:說真的我覺得Mahout這樣還可以出書已經算不錯了我就是做 10/25 21:19

→ cansas:Machine learning的絕大部分的Open Source幾乎都沒有文件 10/25 21:20

→ cansas:用起來就跟解謎一樣你遲早必須要去Trace他們程式碼把他AP 10/25 21:20

→ cansas:I包到你程式中而且Naive Bayes不需要用到Mahout 他計算條 10/25 21:22

→ cansas:見機率的方式很簡單自己寫即可可參考http://0rz.tw/Vzs81 10/25 21:23

→ cansas:不然也可參考http://0rz.tw/sMRXU 只是這又是一個OpenSourc 10/25 21:25

→ cansas:e 文件也很少儘管他已經有十年 Sponsor有FBI也有SIRI所屬 10/25 21:26

→ cansas:的CALO計畫那又如何ML本來現在就屬於研究社群在用的東西 10/25 21:27

→ cansas:唯一的方法就是自己看我還真的想不出任何快速捷徑 10/25 21:27

推 hilorrk:mahout 好處不是利用 mapreduce 分散計算能力嗎? 10/25 22:50

→ iceonly:我用weka刻出了一個classifier，然後因為資料太多爆掉了 10/26 20:02

→ iceonly:放了-Xmx8g跟我喊OOM 10/26 20:03

→ iceonly:weka的API跟mahout比起來算簡單的，還有範例檔可看 10/26 20:04

→ iceonly:另一方面是train出來的模型太大，很難做到realtime 10/26 20:06

→ iceonly:會動到hadoop生態環境的都是資料來源太大的關係 10/26 20:09

→ iceonly:是阿，我現在是trace他的test和他的command line script是 10/26 20:12

→ iceonly:怎麼寫的 10/26 20:13

→ cansas:若是這樣我的建議是 1.你應該調整特徵數因為也不是所有特 10/26 20:15

→ cansas:徵都有用 2.分類器不用一台分好幾類你可以好幾個小的再用 10/26 20:16

→ cansas:一個大的串起來 3.去掉不具代表性的訓練文件之所以這樣做 10/26 20:16

→ cansas:主要是因為訓練文件真的爆多也沒用當超過一個門檻值分類 10/26 20:17

→ cansas:氣的效果就收斂了所以真的無計可施的狀況下建議才用MAHOU 10/26 20:18

→ cansas:T 10/26 20:18

→ iceonly:13我考慮過了，2的話你是指像是先將900個target分成30群然 10/26 21:23

→ iceonly:後再將這30群當作target分類嗎(就是先30選1再30選1) 10/26 21:25

→ iceonly:目前我是做出30個分類器去分900個類別，只是效果實在很糟 10/26 21:27

→ iceonly:另外mahout的cnb用在範例上實在很威，也會幫你做tfidf之 10/26 21:36

→ iceonly:類的工作，其實挺棒的 10/26 21:37

推 bettis:學懂後寫一本吧！ 10/26 21:55