看板 Statistics 關於我們 聯絡資訊
※ 引述《kroll (呷胖71號)》之銘言: : 主成分希望將原先p個變數萃取成k個 (p>k) : 並且必須考慮新變數對原始變數的 變異數-共變數結構 的解釋能力 : PCA使用線性組合,組合後的k個變數之間相關係數為0 : 也就是說 : PCA之後,縮減變數 並 簡化變數間的關係 : 當我們將原始變數轉為主成分後 : 便可將各變數的原始分數轉為主成分分數,供進一步的分析 : 要解釋的話...舉個情境 ++ 問卷 : 帥哥的條件 : 假設原始有5個變數 : 身高、腿長、膚質、衣著打扮、衛生習慣 : 經過主成分分析後 : 第1主成分解釋 60 % : 第2主成分解釋 30 % : 剩下的解釋力都小 : 那麼你就是把原先5個變數縮減到2個了 如k大所說: 主成分希望將原先p個變數萃取成k個 且p>k 所以並不一定要只做兩個主成份, 也就是你可以做到第3主成分,甚至是第4主成分 而最後要留幾個主成分, 就看這些主成分解釋了多少你的依變數 如k大舉的例子: 第1加第2解釋了百分之九十, 所以就留1跟2 我看過1加2解釋達75%, 而就沒留3的, 所以這部分比較主觀 而一般常留兩個的原因, 是因為畫圖方便, 這一點後面會再補充 : 如果主成分分數又剛好分成兩派 前3個解釋第1主成份 後2個解釋第2主成分 : 那主成分還可以命名一下 ex: 天生麗質 後天努力 至於主成分怎麼解釋內容是什麼, 基本上主成分內容是原是變數的線性組合 ex:主成分1可能等於(20%原始變數1+60%原始變數2+80%原始變數3 +2%原始變數4+30%原始變數5) 也可能等於(10%原始變數1+30%原始變數2+40%原始變數3 +6%原始變數4+70%原始變數5) 到底是怎樣的比例混合的並無法得知, 所以頂多去看趨勢 怎麼看,就是去畫圖: 對於每一個帥哥的條件,你都可以利用其自變數(身高,腿長,膚質,衣著打扮,衛生習慣) 算得第1主成分和第2主成分的分數 然後以第1主成分當x軸,第2主成分當y軸, 把每個點標在圖上 藉由點的分布及現有的自變數推測, 第1主成分可能是什麼 所以,假設你看到帥哥的條件=好的,第1主成分分數高, 帥哥的條件=差的,第1主成分分數低, 再回去看 帥哥的條件=好的 且 第1主成分分數高的, 大多數是身高高, 腿長, 皮膚好 帥哥的條件=差的 且 第1主成分分數低的, 大多數是身高矮, 腿短, 皮膚差 接著才可以推測第1主成分 與 身高、腿長、膚質有比較大的關係 注意是推測喔,並不是絕對, 因為裡頭有可能包含了其他你沒有列出的影響帥哥條件的因素 而畫圖, 對人來說, 畫二維的圖形是比較容易畫, 且是容易懂得, 三維的話難度比二維難一點, 四維的話...至少我是畫不出來啦, 所以這就是會習慣取兩個主成份的原因 就這樣, 說的不好或有錯還請大家補充 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 125.231.67.76
Whitegun001: 感謝解釋呀! 06/20 17:04