看板 Statistics 關於我們 聯絡資訊
如果是跟統計軟體有關請重發文章,使用程式做為分類。 請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。 為避免版面混亂,請勿手動置底問題,擅用E做檔案編輯 各位好, 目前我現在分析的資料形態是, 總個案數約60人, dependent variable 為有病沒病, independent variable 有類別變項及連續變項, 使用的演算法是 C4.5 (Quinlan, 1993), 因為有多個independent variable (連續)都可以將這60人正確分類有病沒病 (accuracy= 100%), 因此我發現會根據我丟自變項的順序, 決定我的決策樹圖形, 舉例來說自變項1-3 皆可以正確分類, 若我將自變項1放在第一個位置, 則決策樹圖形根結點為自變項1, 反之, 若我將自變項3放第一個位置, 根結點則為自變項3, 我不清楚這樣的狀況是否就是overfitting ? 或者我的直覺反應是個案數太少, 但網路上搜尋後似乎並沒有討論到, 樣本數至少多少, 才適合用decision tree這樣的方法來分類。 非常感謝看完我的問題。 software: Sipina -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.9.200 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1443165460.A.5AF.html
andrew43: 有沒有overfitting不清楚, 但注意IVs間相關高有沒有問題 09/25 16:04
recorriendo: cross-validation檢查 09/26 01:24