看板 Statistics 關於我們 聯絡資訊
Logisics的Selection有None, Forward, Backward, Stepwise, Score 但是我要的是符合ROC達到某一定程度下 所有的候選模型 請問SAS有辦法產出嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 210.71.218.254
tew:應該是可以 08/16 18:46
gsuper:我用 stepwise 的方法 , 控制 model error 在 特定數值以下 08/17 01:52
gsuper:以AUC當performance , 挑出來的 model performance 在全排 08/17 01:53
gsuper:列組合的 0.1% 以下 , 用暴力法 coding 不太划算 08/17 01:54
gsuper:除非你要搞很貴的實驗 , 那就全部暴力給他下去吧 08/17 01:55
liton:樓上說的只會挑出一組AUC最好的 但這組後面的BOOTSTRAPPING 08/17 10:00
liton:以及後面的USER TEST可能過不了 08/17 10:01
liton:coding不是問題,麻煩的是計算,例如我100個變數中要取出 08/17 10:23
liton:10個變數的組合 COMBIN(100,10)...這要算到什麼時候? 08/17 10:24
gsuper:我說的就是這種暴力法 R指令 combn(100,10) , combn(100,9) 08/17 12:47
gsuper:combn(100,i) {i屬於 1~10} 08/17 12:48
gsuper:你可以試試看 Cohen`s d 這個指標, 計算時間比AUC少很多 08/17 12:51
gsuper:但兩者的關聯性在常態分佈下很高 08/17 12:51
gsuper:reclassification 類的應該也是要算很久 (NRI和IRI) 08/17 12:52
gsuper:因為 NRI 在資料處理上有點麻煩 , IRI要積分 (同AUC) 08/17 13:34
liton:目前我想到的方法是先篩變數,例如單變量P>5%的直接砍了 08/17 14:26
liton:VIF或COV不符某一特定標準的也砍了 08/17 14:27
liton:剩下的才進入Logistics 08/17 14:28
gsuper:我是這樣做 08/17 14:54
gsuper:1. 假設有 100 個 features , 先計算 AUC_FULL 08/17 14:55
gsuper:2. 先移除第一個 feature , 計算 99 markers 的 delta AUC 08/17 14:55
gsuper: delta_AUC = AUC_FULL - AUC_NESTED 08/17 14:57
gsuper:3. 將第一個放回去 , 把第二個拿掉 , 計算第二個 feature 08/17 14:58
gsuper: 的 delta_AUC 08/17 14:58
gsuper:算了....講不清楚 08/17 14:58
liton:你說的是技術性coding的問題,我說的是如何減少計算組數 08/17 15:01
liton:例如C(10,2),你還是得算組,我思考的是如何只要算5組 08/17 15:25
tew:要不要先將解釋變數先跑相關 如果有些便項相關高 08/18 13:20
tew:就從其中的變項挑最佳的 或者用因素分析縮減變項 08/18 13:21
gsuper:我還是覺得有在回答你的問題 你要的是 heuristic feature 09/05 04:23
gsuper:selection 的方法 , 等於說在N組解裏面 , 挑出前 1/1000 09/05 04:23
gsuper:然後提供你的老闆做選擇 (可能是跟我一樣 不被完全信任) 09/05 04:24
gsuper:所以要看暴力法的結果 但暴力法又跑不完 09/05 04:24
gsuper:基本就是要把一些不可能OK的結果事先排除不計算 09/05 16:26
gsuper:所以我才提到 effect size 比 AUC 要省時間 09/05 16:27
gsuper:事前把各種組合的 Cohen`s d 算出來 , 把太離譜的先拿掉 09/05 16:27