[心得] Music Demixing Challenge 2021 A組銅牌

作者yoyololicon (十年魔乃粉)

看板DataScience

標題[心得] Music Demixing Challenge 2021 A組銅牌

時間Mon Nov 15 15:31:30 2021

安安～小弟十年魔乃粉辣，毫久沒在這發文惹其實這個比賽已經結束好幾個月，不過上週還有辦後續的工作坊小弟因此還得去報告一下poster，總算結束了可以來分享點心得和過程XD 比賽網址 https://www.aicrowd.com/challenges/music-demixing-challenge-ismir-2021 是個Sony出資在AIcrowd這個平台上辦的AI競賽題目是音樂的聲源分離，要把一首曲子分成鼓、貝斯、人聲、其他（不屬於以上三類）的四個獨立音檔參賽分成兩組別 A組限制使用musdb18這個2018年的一次類似比賽提供的dataset，B組則沒有任何限制而主辦方的目的其實是想藉由這樣自由參加的形式，在音樂聲源分離這領域做一些follow up research，sony方的四位主辦也都是相關的學者詳情可以參考比賽結束後的review paper https://arxiv.org/abs/2108.13559 自己以前的研究題目跟MIR相關，所以聲源分離也略知一二，但沒有自己實際做過XD 就想藉著這次比賽學點經驗，也沒有想要得名什麼的，畢竟參加者真的很多妖魔鬼怪於是從五月初開始一個人奮鬥最初的想法是先試試各種不同模型再決定方向所以前期幾乎都在寫training pipeline, dataloader等，讓之後抽換模型能夠更容易等到codebase開發的差不多，成功試過第一個baseline model後覺得自己一個人力量有限，計算資源也不夠（我只有一張3070 QQ），就開始徵人組隊後來形成了個5~6人的小隊，大部分都是朋友或以前的同事，有接觸過音訊領域的為主其中很榮幸找到nnAudio的作者Kin-Wai加入，貢獻了龐大的算力(V100 x4) 他也是final model的第二作者因為我們都不是聲源分離的專長，所以主要開發方向就是從主辦提供的baseline開始改看改了之後能提昇多少組別只參加A組，畢竟收集資料絕對拼不過大公司QQ 期間我們不斷survey相關paper，討論有沒有能改進的地方很幸運的是，小隊成員幾乎不是PhD，就是PhD student或master 所以有時候討論內容會深到小弟只能在旁邊默默不出聲XD 現在回頭看很多討論串都想保存下來當未來的研究方向雖然陣容堅強，但開發過程也不是一路順遂中間也曾有一個月幾乎毫無進度，只能等model training完畢的時候而在改良了各種模型後，排名一直卡在10~14這個區間也觀察到在這區間大家的分數都非常接近，很可能是修改baseline的極限就在這邊到了比賽最後一週，實在是沒招了，就想說乾脆把之前開發的三個模型合在一起算了結果分數一舉加了0.5 SDR，躍升到了第四至此到比賽結束，我們都在瘋狂的調整模型輸出的加總比例，但還是無法突破第三名好在主辦方的規則有說若沒有open source將失去領獎資格而第三名的印度人自動放棄，所以我們就莫名其妙的遞補到了銅牌XDDDD B組也有相同的情況，第一名的AudioShake也放棄open source （一家美國的新創，分數高的可怕，擺明來秀肌肉）能撈到銅牌，除了幸運，實在很難說我們的模型有什麼特別的novelty 因為銀牌的韓國大學的Woosung用的是他PhD時開發的模型改良版而金牌是facebook(x)Meta(o)的research scientist Alexandre Défossez 得獎的模型也是他PhD時的作品，這個領域的SOTA---Demucs，的噁心改良版（我有在研討會聽他的talk，他只靠一個人，試了各種噁心東西XD）有趣的是，字節跳動的團隊也有參賽，但分數剛好只差我們一點ww 比賽結果發表的線上錄影 https://youtu.be/TntPVZ4ajIk

（我超緊張英文講得很破請包含>///<，尤其AIcrowd協辦的印度人英文我幾乎聽不懂qq) 比賽結束後，主辦也辦了一個附屬在今年ISMIR的聲源分離workshop https://mdx-workshop.github.io/ 邀請有參賽的組別來報告自己的模型所以我們也跟著寫了一篇不到三頁的paper，在poster section做分享如果對模型的細節有興趣，可以參考看看 https://mdx-workshop.github.io/proceedings/chinyun.pdf 而第一次參加ISMIR還是線上研討會的經驗，篇幅值得再寫一篇，我有空再來分享好了如果想嘗試小弟開發的模型，可以直接從github上面拿來用 https://github.com/yoyololicon/danna-sep 想重現我們的training結果的話 https://github.com/yoyololicon/music-demixing-challenge-ismir-2021-entry 大概醬，有其他想知道的細節，可以推文，我盡量回答～ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.32.97 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1636961499.A.D96.html

推 jigfopsda: 推 11/15 20:50

→ jigfopsda: 好奇問，能不能簡介一下 SDR 的概念是什麼 XD 11/15 20:51

→ yoyololicon: 就是ground truth 數值跟誤差值的比例 11/15 20:56

→ yoyololicon: 越高越好 11/15 20:56

推 jigfopsda: 原來如此 XD 11/15 20:59

推 kenkao25: ensemble modeling很強大的 11/17 15:52

→ yoyololicon: 其實最後前三名都有做model blending 似乎不意外 11/17 17:46

推 yatingiloveu: 推推 11/19 19:23

推 patrick2dot0: 感謝分享 11/20 00:33

推 b10007034: 謝謝分享，少數得獎的分享者 11/21 01:29

推 yuwenche: 難得在這碰到一個樂於分享者,只可惜跟我的領域差太多. 11/24 09:55

推 ce270651: 好強 11/24 22:01

推 lohas1019: 感謝分享 12/03 14:15

推 wakawakaAAA: 推厲害 01/01 17:21

推 tim26982772: 推個 02/24 08:11

推 oicjacky: 厲害推個 03/22 15:12

推 joe120519: 推 05/08 08:02