作者yoyololicon (十年魔乃粉)
看板DataScience
標題[心得] Music Demixing Challenge 2021 A組銅牌
時間Mon Nov 15 15:31:30 2021
安安~小弟十年魔乃粉辣,毫久沒在這發文惹
其實這個比賽已經結束好幾個月,不過上週還有辦後續的工作坊
小弟因此還得去報告一下poster,總算結束了可以來分享點心得和過程XD
比賽網址
https://www.aicrowd.com/challenges/music-demixing-challenge-ismir-2021
是個Sony出資在AIcrowd這個平台上辦的AI競賽
題目是音樂的聲源分離,要把一首曲子分成鼓、貝斯、人聲、其他(不屬於以上三類)的
四個獨立音檔
參賽分成兩組別
A組限制使用musdb18這個2018年的一次類似比賽提供的dataset,B組則沒有任何限制
而主辦方的目的其實是想藉由這樣自由參加的形式,在音樂聲源分離這領域做一些follow
up research,sony方的四位主辦也都是相關的學者
詳情可以參考比賽結束後的review paper
https://arxiv.org/abs/2108.13559
自己以前的研究題目跟MIR相關,所以聲源分離也略知一二,但沒有自己實際做過XD
就想藉著這次比賽學點經驗,也沒有想要得名什麼的,畢竟參加者真的很多妖魔鬼怪
於是從五月初開始一個人奮鬥
最初的想法是先試試各種不同模型再決定方向
所以前期幾乎都在寫training pipeline, dataloader等,讓之後抽換模型能夠更容易
等到codebase開發的差不多,成功試過第一個baseline model後
覺得自己一個人力量有限,計算資源也不夠(我只有一張3070 QQ),就開始徵人組隊
後來形成了個5~6人的小隊,大部分都是朋友或以前的同事,有接觸過音訊領域的為主
其中很榮幸找到nnAudio的作者Kin-Wai加入,貢獻了龐大的算力(V100 x4)
他也是final model的第二作者
因為我們都不是聲源分離的專長,所以主要開發方向就是從主辦提供的baseline開始改
看改了之後能提昇多少
組別只參加A組,畢竟收集資料絕對拼不過大公司QQ
期間我們不斷survey相關paper,討論有沒有能改進的地方
很幸運的是,小隊成員幾乎不是PhD,就是PhD student或master
所以有時候討論內容會深到小弟只能在旁邊默默不出聲XD
現在回頭看很多討論串都想保存下來當未來的研究方向
雖然陣容堅強,但開發過程也不是一路順遂
中間也曾有一個月幾乎毫無進度,只能等model training完畢的時候
而在改良了各種模型後,排名一直卡在10~14這個區間
也觀察到在這區間大家的分數都非常接近,很可能是修改baseline的極限就在這邊
到了比賽最後一週,實在是沒招了,就想說乾脆把之前開發的三個模型合在一起算了
結果分數一舉加了0.5 SDR,躍升到了第四
至此到比賽結束,我們都在瘋狂的調整模型輸出的加總比例,但還是無法突破第三名
好在主辦方的規則有說若沒有open source將失去領獎資格
而第三名的印度人自動放棄,所以我們就莫名其妙的遞補到了銅牌XDDDD
B組也有相同的情況,第一名的AudioShake也放棄open source
(一家美國的新創,分數高的可怕,擺明來秀肌肉)
能撈到銅牌,除了幸運,實在很難說我們的模型有什麼特別的novelty
因為銀牌的韓國大學的Woosung用的是他PhD時開發的模型改良版
而金牌是facebook(x)Meta(o)的research scientist Alexandre Défossez
得獎的模型也是他PhD時的作品,這個領域的SOTA---Demucs,的噁心改良版
(我有在研討會聽他的talk,他只靠一個人,試了各種噁心東西XD)
有趣的是,字節跳動的團隊也有參賽,但分數剛好只差我們一點ww
比賽結果發表的線上錄影
https://youtu.be/TntPVZ4ajIk
(我超緊張英文講得很破請包含>///<,尤其AIcrowd協辦的印度人英文我幾乎聽不懂qq)
比賽結束後,主辦也辦了一個附屬在今年ISMIR的聲源分離workshop
https://mdx-workshop.github.io/
邀請有參賽的組別來報告自己的模型
所以我們也跟著寫了一篇不到三頁的paper,在poster section做分享
如果對模型的細節有興趣,可以參考看看
https://mdx-workshop.github.io/proceedings/chinyun.pdf
而第一次參加ISMIR還是線上研討會的經驗,篇幅值得再寫一篇,我有空再來分享好了
如果想嘗試小弟開發的模型,可以直接從github上面拿來用
https://github.com/yoyololicon/danna-sep
想重現我們的training結果的話
https://github.com/yoyololicon/music-demixing-challenge-ismir-2021-entry
大概醬,有其他想知道的細節,可以推文,我盡量回答~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.32.97 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1636961499.A.D96.html
推 jigfopsda: 推 11/15 20:50
→ jigfopsda: 好奇問,能不能簡介一下 SDR 的概念是什麼 XD 11/15 20:51
→ yoyololicon: 就是ground truth 數值跟誤差值的比例 11/15 20:56
→ yoyololicon: 越高越好 11/15 20:56
推 jigfopsda: 原來如此 XD 11/15 20:59
推 kenkao25: ensemble modeling很強大的 11/17 15:52
→ yoyololicon: 其實最後前三名都有做model blending 似乎不意外 11/17 17:46
推 yatingiloveu: 推推 11/19 19:23
推 patrick2dot0: 感謝分享 11/20 00:33
推 b10007034: 謝謝分享,少數得獎的分享者 11/21 01:29
推 yuwenche: 難得在這碰到一個樂於分享者,只可惜跟我的領域差太多. 11/24 09:55
推 ce270651: 好強 11/24 22:01
推 lohas1019: 感謝分享 12/03 14:15
推 wakawakaAAA: 推 厲害 01/01 17:21
推 tim26982772: 推個 02/24 08:11
推 oicjacky: 厲害推個 03/22 15:12
推 joe120519: 推 05/08 08:02