作者OnePiecePR (OPPR)
看板Python
標題[閒聊] 菜鳥上Kaggle: 房價預測
時間Tue Feb 13 22:30:24 2018
這裡有人玩 Kaggle 嗎?
其實我還沒認真坐坐下來學Python,也沒其他程式經驗。
只是朋友說Kaggle 很好玩,可以當作學 Python 的目標,建議每兩週作一題,我就挑戰
看看。
我做的是很久的題目,1460 筆房價資料,每筆資料79個特性。
訓練後,要估另外1459筆資料回傳讓網站系統估算成績。
我先花了四五天,整理資料(我以前 Excel 還可以),然後朋友丟一個 Lasso Regressi
on給我,我馬上套用,算一個結果就上傳... 以為這樣就算完成一題。
結果被打搶,Error message 我沒看清楚。
那一版真的很差,預估值誤差 rmse 將近35000。
再花了一週時間,重新再整一次資料,邊研究別人的方法,大致加了兩招:XGB 跟 K fol
d 誤差降低到15000 左右。我想大概是我的極限了。
過程中一直用的 bumpy,pandas,一下子 array, 一下子 dataframe, 花了不少時間處理
,應該乖乖坐下來搞懂才是。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.14.66.203
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1518532227.A.7C6.html
推 hl4: 你這 metric 是不是忘了取 log 02/14 00:27
推 penolove: b 跟 n 很近 02/14 00:37
推 EGsux: 呃 這樣玩會學有點久 加油xd 02/14 08:38
→ EGsux: 你留意一下其他人怎做 feature engineering 02/14 08:39
推 CaptPlanet: 可以多看別人的kernel 進步會比較快 02/14 09:56
→ OnePiecePR: 感謝大家,我就讓b 留著,紀錄 b n 不遠。也會去多看 02/14 09:58
→ OnePiecePR: 別人怎麼作,還有樓上建議的 feature engineering 02/14 09:58
→ OnePiecePR: 對了,一樓說的我沒作,在研究看看,感恩 02/14 09:58
→ jackwang01: 多跑幾個random seed再把結果綜合起來平均之類的,通 02/14 11:40
→ jackwang01: 常會有明顯的進步 02/14 11:40