看板 DataScience 關於我們 聯絡資訊
最近在練習Kaggle的房價預測 看了一些前輩的分享, 有些都是modeling之前數據用StandardScaler作標準化 也有的是在數據前處理的時候就對目標函數做log轉換, 其他特徵值做boxcox轉換 請問如果目的是要讓數據正規化分布的話,為什麼不直接做標準化就好呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.139.171.21 (日本) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1668057809.A.6BC.html
chang1248w: 什麼是偏化 11/10 13:59
chang1248w: 標準化不會改變偏度啊 我理解正確的話, 都是讓要讓數據正規分布... 11/10 14:12 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:02 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:50 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:32:07
lycantrope: 標準化不會讓數據正規分布啊. 11/10 15:04
chang1248w: 資料前處理的目的有很多啊,有的模型會被資料的scale 11/10 15:48
chang1248w: 影響的,像是knn 神經網路 還有一些gradient based的 11/10 15:48
chang1248w: 方法 11/10 15:48
chang1248w: 另外有的目的是為了在視覺上呈現資訊 11/10 15:49
polie4523: 兩個效果不一樣吧。標準化改變尺度不改變分佈,你把處 11/11 02:23
polie4523: 理前後的histogram畫出來就知道不會變 11/11 02:23
polie4523: 你提到的boxcox才會改變特徵分佈,如果原本特徵不符合 11/11 02:28
polie4523: 常態分佈,效果就是讓處理後的資料比較像,因爲大部分m 11/11 02:28
polie4523: odel都假設處理的特徵是常態分佈才這樣做,一樣可以把 11/11 02:28
polie4523: 處理前後的histogram畫出來比較 11/11 02:28
qddcynthia: 那請問一般是兩種方法都一起用嗎? 11/11 07:35
chang1248w: 這也不一定 11/11 15:39
f821027: X做標準化的部分同意4樓說的 有的模型對於outliers很敏 11/11 20:28
f821027: 感 就適合先做標準化 你說的boxcox是針對y轉換 因為y資 11/11 20:28
f821027: 料分佈標準差太大 把他做一個轉換後 再和X去build model 11/11 20:28
f821027: 這個model predict出的Y再用boxcox反函數轉回原本y的樣 11/11 20:28
f821027: 本空間 11/11 20:28