看板 Python 關於我們 聯絡資訊
大家好 我最近正在練習使用sklearn library 主要是在用decision tree/random forest這兩個演算法 我想請問一下這兩個的feature importance (同一個dataset 以及使用sklearn的importance_ ) 我每一個feature importance的值都落在0.1-0.2之間 請問這個值本身有什麼意義嗎? 另外這個是只限於這個演算法裡面使用還是可以比較? 比如說我同一個dataset DT 的 importance 是10-20之間 然後 RF得到的是0.1-0.2之間 這兩個演算法拿到的feature importance是有可比性的嗎? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 174.81.22.61 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1617854095.A.AE1.html
aassdd926: Random forest 本身就是多個DT,他的 feature importa 04/09 10:50
aassdd926: nce 是所有樹加權平均過的。而這個數值主要依據樹以此 04/09 10:50
aassdd926: 特徵分裂下,數據impurity的下降程度(樣本比例權重下 04/09 10:50
aassdd926: )。用途上feature importance可以用來選取特徵,例如 04/09 10:50
aassdd926: 重覆刪除後面10位不重要的特徵,以找出讓模型表現最好 04/09 10:50
aassdd926: 的特徵subset,但也要小心過擬合的特徵feature improt 04/09 10:50
aassdd926: ance 也會很高,容易受到誤導 04/09 10:50
aassdd926: 如果要比較的話,我應該會把它轉換成 rank 04/09 10:58