看板 Statistics 關於我們 聯絡資訊
[1;32m如果是跟統計軟體有關請重發文章,使用程式做為分類。 統計軟體,如SPSS, AMOS, SAS, R, STATA, Eviews,請都使用程式做為分類 請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。 為避免版面混亂,請勿手動置底問題,擅用E做檔案編輯 請問一下當我用隨機森林去對我數據作分類模型, 分類後用混淆矩陣confusion matrix去得到準確率和誤分類率, 也用了ROC曲線去算AUC值, 將我要如何去算conditional probobility 和我的baseline是多少? 基本上我是用python sklearn 裡RandomForestClassifier, accuracy_score, confusion_matrix -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 209.90.32.81 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1503694704.A.3C2.html
f496328mm: 你 baseline 指的是? 基準線? 08/26 08:02
f496328mm: 如果是的話, 那就是你的 AUC 值, 或是其他的evaluation 08/26 08:03
f496328mm: 然後再去改進你的 model, 最後可以知道 08/26 08:03
f496328mm: 你進步多少, 跟 baseline 比 08/26 08:04
jacobcan118: 我拿Random forest用auc roc算出來 值是.08975多欸 08/26 13:05
jacobcan118: 有什麼方法可以改進Random forest的model嗎? 設不同 08/26 13:06
jacobcan118: 的n_estimator? 08/26 13:06
f496328mm: 改進有很多方法,比較重要的是feature工程 08/26 22:06
f496328mm: 簡單講就是,由原始變數,去額外衍生製造新變數,可能 08/26 22:08
f496328mm: 會提高準確率 08/26 22:08
f496328mm: 話說你連auc不到0.1,這???這很爛的結果吧 08/26 22:09
jacobcan118: 不好意思. 是0.8975. feature工程意思是只選不同變數 08/26 22:15
recorriendo: AUC=0.5最爛 (2 classes的情況) 愈大或愈小都愈好 08/27 01:23
f496328mm: 只選不同變數,你是指variable selection嗎?那是其中 08/27 04:03
f496328mm: 一部分,你是可以額外製造變數的,舉個簡單的例子,變 08/27 04:04
f496328mm: 數與目標,是非線性關係,所以變數取平方,變成新變數 08/27 04:04
f496328mm: 不過平方只是一種,重點還是要看問題,你也可以畫畫圖 08/27 04:05
f496328mm: 看變數之間的關係 08/27 04:05
f496328mm: 另外你的auc,應該是指testing吧?因為一般的RF很容易o 08/27 04:06
f496328mm: verfitting 08/27 04:06