看板 Statistics 關於我們 聯絡資訊
如圖 https://imgur.com/wNaueoB 我想說PCA理論上不是要去找正交嗎?結果除了第一、二主成分之間以外 一整個滿滿的超高正相關和超高負相關,這樣正常嗎? 貢獻比率前三個累計起來約90%,第三個貢獻比率約為13% 還有,VIF值除了第一個勉強在300以內外,其他全部破萬...... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.139.190.17 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1689606838.A.3B0.html ※ 編輯: fragmentwing (223.139.190.17 臺灣), 07/17/2023 23:32:03
yhliu: 正交就零相關。 07/18 06:26
andrew43: 原始變數之間是不是有幾乎+/-1的線性相關? 07/18 14:45
fragmentwing: 是有沒錯 可是PCA會放大這現象? 原本是三個 PCA弄 07/18 17:38
fragmentwing: 完變成4個 07/18 17:38
fragmentwing: 所以PCA其實不會消除共線性嗎? 07/18 17:39
fragmentwing: 啊不對這邊也要扣掉自己 所以是3個 07/18 17:40
andrew43: 如果有完美共線,PCA有意義的軸數不會是原變數個數 07/18 17:48
andrew43: 例如1到10和10到1,這二個變數做PCA,第二軸並沒有意義 07/18 17:49
andrew43: 至於這些沒用的軸可能會和前面的軸碰巧有相關性 07/18 17:57
andrew43: 至於你說原3變數生出4個PCA軸,我覺得你一定做錯了什麼 07/18 17:58
fragmentwing: 我是說原本的n軸中有3個相關係數絕對值趨近1的意思 07/18 19:33
fragmentwing: 話說a大 你讓我想到一件事 為什麼kPCA最大軸數是用 07/18 19:33
fragmentwing: 資料數算的? 07/18 19:33
fragmentwing: 我後來發現可能我程式要檢查一下 雖然原始數據確實 07/19 13:37
fragmentwing: 共線很嚴重 可是我今天專門寫一個計算vif和相關係數 07/19 13:37
fragmentwing: 的程式來驗證卻又發現pca有好好把正交做出來…… 07/19 13:37
cuylerLin: 要先知道 PCA 的理論模型在算什麼(把資料當成一個 glo 07/20 00:20
cuylerLin: bal ellipsoid 來看待的話)而不是直接隨便一個 raw da 07/20 00:20
cuylerLin: ta 丟 PCA 就沒事,垃圾進就會垃圾出 07/20 00:20
cuylerLin: 要怎樣的 data preprocessing 之後才丟 PCA 與 PCA 能 07/20 00:21
cuylerLin: 夠幫你做到怎樣的事情兩者無關 07/20 00:21
fragmentwing: 後來幾次重算發現應該純粹當初程式寫錯的鍋 07/21 07:59