推 x88776544pc: 它的概念簡單來說就是對每個變數一一加入雜訊 02/08 22:22
→ x88776544pc: 如果某變數很重要,那加入雜訊後的錯誤率就會大幅 UP 02/08 22:24
→ x88776544pc: 第三步:將OOB樣本中的第 i 個變數加入雜訊以取得 02/08 22:27
→ x88776544pc: 該變數雜訊化後的預測結果去計算OOB error rate i 02/08 22:28
→ x88776544pc: 常見的方式有將該變數 bootstrap, sample 或遞移 02/08 22:30
→ wheado: 不懂加入雜訊是什麼意思 02/09 00:02
→ wheado: 我的感覺是不看i變數接著計算正確率下降多少 02/09 00:02
→ wheado: 然後每個被sample到的變數都不看一次 02/09 00:02
→ wheado: 就可以得到該棵樹所有的decreasing accuracy 02/09 00:02
→ x88776544pc: 說成不看也可以,但在預測時你總是要給這個"不看" 02/09 00:16
→ x88776544pc: 的變數一個值,通常就是透過上述方法把它變成一個沒 02/09 00:17
→ x88776544pc: 有價值的變數,也就是 noise variable 02/09 00:18
→ x88776544pc: 而 MDI 只是將每個變數在所有樹中有使用到它的節點 02/09 00:21
→ x88776544pc: 造成的 gini 值下降量加起來,再以所有樹的數目平均 02/09 00:24
推 a78998042a: 在不同tree套件中,相同指標的算法也不一定一樣 02/20 12:34
→ a78998042a: ,可能會對於可能發生的結點,或現在模行發生的 02/20 12:35
→ a78998042a: 結點,產生不一樣的加權。 02/20 12:35
→ a78998042a: 印象中他的算法是,對單一顆樹,在拿掉一個變數 02/20 12:35
→ a78998042a: 之後,模型的評估值(這裡是gini)效果是否下降 02/20 12:35
→ a78998042a: (decrease),下降越多,表示該變數是雜訊變數的 02/20 12:35
→ a78998042a: 可能性越高,重要性越低,而如果一變數在加入之 02/20 12:36
→ a78998042a: 後,模型的正確率反而出現混淆、干擾,評估值會趨近0 02/20 12:36
→ a78998042a: 然後Mean就是把所有樹的平均,所以是Mean 02/20 12:36
→ a78998042a: decrease gini,如果是MDA(accuracy),數值也 02/20 12:36
→ a78998042a: 可能小於0。 02/20 12:37
→ a78998042a: 希望以上回答有協助到您,對回答有疑義可以來信給我。 02/20 12:46
→ x88776544pc: 樓上你講的permutation-based的算法只適用於 MDA 吧? 02/21 23:33
→ x88776544pc: 你講 gini 的概念是對的但不能那樣算 MDgini 02/21 23:38
推 x88776544pc: 如果覺得我有理解錯誤的地方麻煩指正一下 02/21 23:45