[問題] 請問數據標準化跟偏度(skew)處理

作者qddcynthia (溫暖的大手)

看板DataScience

標題[問題] 請問數據標準化跟偏度(skew)處理

時間Thu Nov 10 13:23:27 2022

最近在練習Kaggle的房價預測看了一些前輩的分享, 有些都是modeling之前數據用StandardScaler作標準化也有的是在數據前處理的時候就對目標函數做log轉換, 其他特徵值做boxcox轉換請問如果目的是要讓數據正規化分布的話,為什麼不直接做標準化就好呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 163.139.171.21 (日本) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1668057809.A.6BC.html

→ chang1248w: 什麼是偏化 11/10 13:59

→ chang1248w: 標準化不會改變偏度啊我理解正確的話, 都是讓要讓數據正規分布... 11/10 14:12 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:02 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:50 ※ 編輯: qddcynthia (163.139.171.21 日本), 11/10/2022 14:32:07

推 lycantrope: 標準化不會讓數據正規分布啊. 11/10 15:04

→ chang1248w: 資料前處理的目的有很多啊，有的模型會被資料的scale 11/10 15:48

→ chang1248w: 影響的，像是knn 神經網路還有一些gradient based的 11/10 15:48

→ chang1248w: 方法 11/10 15:48

→ chang1248w: 另外有的目的是為了在視覺上呈現資訊 11/10 15:49

→ polie4523: 兩個效果不一樣吧。標準化改變尺度不改變分佈，你把處 11/11 02:23

→ polie4523: 理前後的histogram畫出來就知道不會變 11/11 02:23

→ polie4523: 你提到的boxcox才會改變特徵分佈，如果原本特徵不符合 11/11 02:28

→ polie4523: 常態分佈，效果就是讓處理後的資料比較像，因爲大部分m 11/11 02:28

→ polie4523: odel都假設處理的特徵是常態分佈才這樣做，一樣可以把 11/11 02:28

→ polie4523: 處理前後的histogram畫出來比較 11/11 02:28

→ qddcynthia: 那請問一般是兩種方法都一起用嗎? 11/11 07:35

→ chang1248w: 這也不一定 11/11 15:39

推 f821027: X做標準化的部分同意4樓說的有的模型對於outliers很敏 11/11 20:28

→ f821027: 感就適合先做標準化你說的boxcox是針對y轉換因為y資 11/11 20:28

→ f821027: 料分佈標準差太大把他做一個轉換後再和X去build model 11/11 20:28

→ f821027: 這個model predict出的Y再用boxcox反函數轉回原本y的樣 11/11 20:28

→ f821027: 本空間 11/11 20:28