[問題] xgboost 在 python 與 r 上的差異

作者f496328mm (123)

看板R_Language

標題[問題] xgboost 在 python 與 r 上的差異

時間Fri May 12 01:17:36 2017

文章分類提示: - 問題: 當你想要問問題時，請使用這個類別。建議先到 http://tinyurl.com/mnerchs 搜尋本板舊文。 [問題類型]: 意見調查(我對R 有個很棒的想法，想問問大家的意見) [軟體熟悉度]: 入門(寫過其他程式，只是對語法不熟悉) [問題敘述]: 最近發現 xgboost 在 R 與 python 上好像不太一樣，python的好像比較好? 所以拿 iris data 進行測試 python http://imgur.com/Z9qB7B3 R http://imgur.com/bu5RN3D 參數都設一樣，發現 python 的表現比較好，1 次 vs 7 次而且 python 做出的 model 比較好，在 best_iteration 上也有差異，所以 python 的 xgboost 比較快也比較強? ------------------------------------------------------ 單純在 iris data 上就有差異，實際做分析時，差異只會更大，想問問各位，是我code有錯，還是真的有差異?? ps: seed 可能不同，但是不應該影響這麼多 [程式範例]: 程式碼可貼於以下網站： [環境敘述]: XGB 在 R 與 PYTHON 上版本都是 0.6 [關鍵字]: -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.80.21.159 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1494523058.A.AD5.html ※ 編輯: f496328mm (111.80.21.159), 05/12/2017 01:19:08 ※ 編輯: f496328mm (111.80.21.159), 05/12/2017 01:27:10

→ a78998042a: 對結果有興趣，如果覺得seed可能產生影響，是否直接多 05/12 08:22

→ a78998042a: 做幾次? 減輕隨機誤差，反正iris data set也不大 05/12 08:22

→ f496328mm: 實際上做過多次，甚至其它data，一樣發生相同問題，應 05/12 09:14

→ f496328mm: 該跟seed無關 05/12 09:14

推 a78998042a: 您的意思是做過多次python的結果都顯著優於r的版本? 05/12 09:22

→ f496328mm: YES 特別在KAGGLE上幾乎大家都用 python 05/12 11:12

→ f496328mm: 實際上我用 R 去重現對方的 python 效果也比較差 05/12 11:12

→ f496328mm: 可能是因為這個原因所以比較少人用 R 05/12 11:13

→ f496328mm: 而且我有google找過其他人也有相同的疑問 05/12 11:14

→ f496328mm: 我認為不太可能因為種子產生這麼大的區別 05/12 11:15

→ f496328mm: 目前不知道原因只好先轉用PYTHON去train model 05/12 11:15

→ clansoda: 何不直接去問DMLC? 05/12 11:39

→ f496328mm: 已經問了等待回應 05/12 12:45

推 spiderway: 有隨機性... 05/21 23:32

→ Wush978: 直接被close了 05/23 15:56