作者s82237823 ()
看板Python
標題[問題] python sklearn DT/RF feature important
時間Thu Apr 8 11:54:51 2021
大家好
我最近正在練習使用sklearn library
主要是在用decision tree/random forest這兩個演算法
我想請問一下這兩個的feature importance
(同一個dataset 以及使用sklearn的importance_ )
我每一個feature importance的值都落在0.1-0.2之間
請問這個值本身有什麼意義嗎?
另外這個是只限於這個演算法裡面使用還是可以比較?
比如說我同一個dataset
DT 的 importance 是10-20之間
然後 RF得到的是0.1-0.2之間
這兩個演算法拿到的feature importance是有可比性的嗎?
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 174.81.22.61 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1617854095.A.AE1.html
→ aassdd926: Random forest 本身就是多個DT,他的 feature importa 04/09 10:50
→ aassdd926: nce 是所有樹加權平均過的。而這個數值主要依據樹以此 04/09 10:50
→ aassdd926: 特徵分裂下,數據impurity的下降程度(樣本比例權重下 04/09 10:50
→ aassdd926: )。用途上feature importance可以用來選取特徵,例如 04/09 10:50
→ aassdd926: 重覆刪除後面10位不重要的特徵,以找出讓模型表現最好 04/09 10:50
→ aassdd926: 的特徵subset,但也要小心過擬合的特徵feature improt 04/09 10:50
→ aassdd926: ance 也會很高,容易受到誤導 04/09 10:50
→ aassdd926: 如果要比較的話,我應該會把它轉換成 rank 04/09 10:58