[問題] python sklearn DT/RF feature important

作者s82237823 ()

看板Python

標題[問題] python sklearn DT/RF feature important

時間Thu Apr 8 11:54:51 2021

大家好我最近正在練習使用sklearn library 主要是在用decision tree/random forest這兩個演算法我想請問一下這兩個的feature importance (同一個dataset 以及使用sklearn的importance_ ）我每一個feature importance的值都落在0.1-0.2之間請問這個值本身有什麼意義嗎？另外這個是只限於這個演算法裡面使用還是可以比較？比如說我同一個dataset DT 的 importance 是10-20之間然後 RF得到的是0.1-0.2之間這兩個演算法拿到的feature importance是有可比性的嗎？謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 174.81.22.61 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1617854095.A.AE1.html

→ aassdd926: Random forest 本身就是多個DT，他的 feature importa 04/09 10:50

→ aassdd926: nce 是所有樹加權平均過的。而這個數值主要依據樹以此 04/09 10:50

→ aassdd926: 特徵分裂下，數據impurity的下降程度（樣本比例權重下 04/09 10:50

→ aassdd926: ）。用途上feature importance可以用來選取特徵，例如 04/09 10:50

→ aassdd926: 重覆刪除後面10位不重要的特徵，以找出讓模型表現最好 04/09 10:50

→ aassdd926: 的特徵subset，但也要小心過擬合的特徵feature improt 04/09 10:50

→ aassdd926: ance 也會很高，容易受到誤導 04/09 10:50

→ aassdd926: 如果要比較的話，我應該會把它轉換成 rank 04/09 10:58