看板 R_Language 關於我們 聯絡資訊
文章分類提示: - 問題: 當你想要問問題時,請使用這個類別。 建議先到 http://tinyurl.com/mnerchs 搜尋本板舊文。 [問題類型]: 意見調查(我對R 有個很棒的想法,想問問大家的意見) [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 最近發現 xgboost 在 R 與 python 上好像不太一樣,python的好像比較好? 所以拿 iris data 進行測試 python http://imgur.com/Z9qB7B3 R http://imgur.com/bu5RN3D 參數都設一樣, 發現 python 的表現比較好,1 次 vs 7 次 而且 python 做出的 model 比較好, 在 best_iteration 上也有差異, 所以 python 的 xgboost 比較快也比較強? ------------------------------------------------------ 單純在 iris data 上就有差異,實際做分析時,差異只會更大, 想問問各位,是我code有錯,還是真的有差異?? ps: seed 可能不同,但是不應該影響這麼多 [程式範例]: 程式碼可貼於以下網站: [環境敘述]: XGB 在 R 與 PYTHON 上版本都是 0.6 [關鍵字]: -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.80.21.159 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1494523058.A.AD5.html ※ 編輯: f496328mm (111.80.21.159), 05/12/2017 01:19:08 ※ 編輯: f496328mm (111.80.21.159), 05/12/2017 01:27:10
a78998042a: 對結果有興趣,如果覺得seed可能產生影響,是否直接多 05/12 08:22
a78998042a: 做幾次? 減輕隨機誤差,反正iris data set也不大 05/12 08:22
f496328mm: 實際上做過多次,甚至其它data,一樣發生相同問題,應 05/12 09:14
f496328mm: 該跟seed無關 05/12 09:14
a78998042a: 您的意思是做過多次python的結果都顯著優於r的版本? 05/12 09:22
f496328mm: YES 特別在KAGGLE上 幾乎大家都用 python 05/12 11:12
f496328mm: 實際上我用 R 去重現對方的 python 效果也比較差 05/12 11:12
f496328mm: 可能是因為這個原因 所以比較少人用 R 05/12 11:13
f496328mm: 而且我有google找過 其他人也有相同的疑問 05/12 11:14
f496328mm: 我認為不太可能因為種子 產生這麼大的區別 05/12 11:15
f496328mm: 目前不知道原因 只好先轉用PYTHON去train model 05/12 11:15
clansoda: 何不直接去問DMLC? 05/12 11:39
f496328mm: 已經問了 等待回應 05/12 12:45
spiderway: 有隨機性... 05/21 23:32
Wush978: 直接被close了 05/23 15:56