[問題] 請益決策樹sample size的問題

作者amber219212 (權權)

看板Statistics

標題[問題] 請益決策樹sample size的問題

時間Fri Sep 25 15:17:37 2015

如果是跟統計軟體有關請重發文章，使用程式做為分類。請詳述問題內容，以利板友幫忙解答，過短文章依板規處置，請注意。為避免版面混亂，請勿手動置底問題，擅用E做檔案編輯各位好, 目前我現在分析的資料形態是, 總個案數約60人, dependent variable 為有病沒病, independent variable 有類別變項及連續變項, 使用的演算法是 C4.5 (Quinlan, 1993), 因為有多個independent variable (連續)都可以將這60人正確分類有病沒病 (accuracy= 100%), 因此我發現會根據我丟自變項的順序, 決定我的決策樹圖形，舉例來說自變項1-3 皆可以正確分類, 若我將自變項1放在第一個位置, 則決策樹圖形根結點為自變項1, 反之, 若我將自變項3放第一個位置, 根結點則為自變項3, 我不清楚這樣的狀況是否就是overfitting ? 或者我的直覺反應是個案數太少, 但網路上搜尋後似乎並沒有討論到, 樣本數至少多少, 才適合用decision tree這樣的方法來分類。非常感謝看完我的問題。 software: Sipina -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.9.200 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1443165460.A.5AF.html

→ andrew43: 有沒有overfitting不清楚, 但注意IVs間相關高有沒有問題 09/25 16:04

→ recorriendo: cross-validation檢查 09/26 01:24