看板 DataScience 關於我們 聯絡資訊
大家好, 想問一個資料在時間上相關的分類問題。 假設我有10000筆資料,每筆有20個feature,跟一個label(假設是1到5), 這10000筆有時間上先後順序的關係。 要解的任務是去分類另外100筆從訓練資料中隨機抽出的測試資料, 我目前想做的是一次隨機取連續10筆給LSTM然後預測第10筆時的label, 但是label有很嚴重的imbalance(訓練資料中1佔40%,5佔2%), 而label隨著時間會很像這樣: 1111222111122223322111111122223333433222111111 隨便增加4 or 5的資料量感覺怪怪的,也不知道要插在哪裡, 我如果試著在train的時候把ground truth為5的10筆重複餵給model, 這樣算是合理的解決方法嗎? 因為目前什麼都不做,在驗證資料裡幾乎都會判斷1,沒什麼意義。 另外,有的feature視覺化後跟label的趨勢幾乎無關(有點像雜訊那樣), 有的看起來有週期性,有的大致上符合label的起伏, 我想做的是用不同的LSTM來處理這些feature, 最後再用linear層把多個lstm的output結合起來預測出label, 不知道有沒有人推薦如何把feature分群(哪些feature用同一個LSTM), 或者說有人推薦其他解決方法嗎? 感覺這是feature engineering,小弟經驗很少QQ 以上,有講不清楚或說錯的歡迎指正!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.212.6 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1557494115.A.E37.html
conartist: 先用其他方法解決imbalance class 比較重要,lstm 沒05/11 09:37
conartist: 有保證能解決這個問題05/11 09:37
sma1033: 如果你要預測5,那你最好先確定5的出現是存在規律的,若505/11 10:39
sma1033: 出現的時機並沒有很明顯的規律性,這問題大概是無解05/11 10:41
sma1033: 若沒辦法先確認資料之間的關係的話,大概怎麼做都是GIGO05/11 10:42
sma1033: LSTM沒那麼神奇,通常也就只是把輸入跟輸出背起來而已05/11 10:45
回c大,因為label其實是代表系統正不正常,5是最異常所以最少,我目前比較可以確定 的是通常如果要出現5幾乎是1慢慢提升變成5(類似111122234454432221111) 因為不太可能從1突然變成5,所以我想說一組10筆如果ground truth是5(第10筆的label) ,就重複多餵幾次,不知道這樣解決得了嗎? 回s大,你是指出現5的時候,feature要有固定的pattern嗎?我覺得應該有因為5出現不 是隨機的,如同我上一段回覆,但現在我不太確定視覺化像雜訊的feature要不要給lstm ,會不會破壞它的學習呢?比起我只給視覺化比較合理的feature ※ 編輯: y956403 (110.26.126.119), 05/11/2019 19:15:56
sxy67230: 如果4、5出現的機率很低,又沒有規則,你應該要把這些fe 05/11 19:22
sxy67230: ature 視為是outlier,可以用很多聚類的方式one class s 05/11 19:22
sxy67230: vm做異常檢測。如果有規則,但你不知道規則,試試看有沒 05/11 19:22
sxy67230: 有辦法用生成模型(hmm)產出,產不出來代表這就真的是 05/11 19:22
sxy67230: 異常點。 05/11 19:22
sxy67230: 異常點理論上機器是學不出產出4.5 label的。 05/11 19:23
sma1033: 機器學習適用的範圍是在於你可以明確知道 05/11 21:15
sma1033: 規則,但是不容易寫成code的應用,比方說 05/11 21:16
sma1033: 是辨認貓的圖片這種。 05/11 21:17
sma1033: 我覺得你應該先試著看看人工有沒有辦法寫下 05/11 21:18
sma1033: 明確的判斷規則,再決定下一步要怎麼做 05/11 21:19
sma1033: 你剛才提的feature特性我覺得代表性不足 05/11 21:20
sma1033: 因為出現4為出現5的必要條件但並非充分條件 05/11 21:23
sma1033: 慢慢的出現1234跟「必然會出現5」之間是否 05/11 21:26
sma1033: 有足夠的因果關係,你可能要自己想一下 05/11 21:27
ruokcnn: 1~5是ordinal嗎? 是的話要不要先用arima尻尻看 05/12 01:18
ruokcnn: 搞不好label本身有自回歸? 05/12 01:18