作者f496328mm (123)
看板R_Language
標題[問題] xgboost 在 python 與 r 上的差異
時間Fri May 12 01:17:36 2017
文章分類提示:
- 問題: 當你想要問問題時,請使用這個類別。
建議先到
http://tinyurl.com/mnerchs 搜尋本板舊文。
[問題類型]:
意見調查(我對R 有個很棒的想法,想問問大家的意見)
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
最近發現 xgboost 在 R 與 python 上好像不太一樣,python的好像比較好?
所以拿 iris data 進行測試
python
http://imgur.com/Z9qB7B3
R
http://imgur.com/bu5RN3D
參數都設一樣,
發現 python 的表現比較好,1 次 vs 7 次
而且 python 做出的 model 比較好,
在 best_iteration 上也有差異,
所以 python 的 xgboost 比較快也比較強?
------------------------------------------------------
單純在 iris data 上就有差異,實際做分析時,差異只會更大,
想問問各位,是我code有錯,還是真的有差異??
ps: seed 可能不同,但是不應該影響這麼多
[程式範例]:
程式碼可貼於以下網站:
[環境敘述]:
XGB 在 R 與 PYTHON 上版本都是 0.6
[關鍵字]:
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.80.21.159
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1494523058.A.AD5.html
※ 編輯: f496328mm (111.80.21.159), 05/12/2017 01:19:08
※ 編輯: f496328mm (111.80.21.159), 05/12/2017 01:27:10
→ a78998042a: 對結果有興趣,如果覺得seed可能產生影響,是否直接多 05/12 08:22
→ a78998042a: 做幾次? 減輕隨機誤差,反正iris data set也不大 05/12 08:22
→ f496328mm: 實際上做過多次,甚至其它data,一樣發生相同問題,應 05/12 09:14
→ f496328mm: 該跟seed無關 05/12 09:14
推 a78998042a: 您的意思是做過多次python的結果都顯著優於r的版本? 05/12 09:22
→ f496328mm: YES 特別在KAGGLE上 幾乎大家都用 python 05/12 11:12
→ f496328mm: 實際上我用 R 去重現對方的 python 效果也比較差 05/12 11:12
→ f496328mm: 可能是因為這個原因 所以比較少人用 R 05/12 11:13
→ f496328mm: 而且我有google找過 其他人也有相同的疑問 05/12 11:14
→ f496328mm: 我認為不太可能因為種子 產生這麼大的區別 05/12 11:15
→ f496328mm: 目前不知道原因 只好先轉用PYTHON去train model 05/12 11:15
→ clansoda: 何不直接去問DMLC? 05/12 11:39
→ f496328mm: 已經問了 等待回應 05/12 12:45
推 spiderway: 有隨機性... 05/21 23:32
→ Wush978: 直接被close了 05/23 15:56