Re: [閒聊] AI採譜

作者yoyololicon (十年魔乃粉)

看板C_Chat

標題Re: [閒聊] AI採譜

時間Tue Feb 23 18:15:31 2021

※ 引述《siscon (e-diot)》之銘言： : ACG點 : 某些小眾動漫粉特別熱衷於把ACG曲改編成鋼琴譜 : 然後其實本來就有好幾個軟體能用但效果都不是很好 : 但半年前出的這個新的個人覺得算進展一大步吧 : 以下是一些DEMO 給AI聽三首原曲輸出MIDI : 原曲1 : https://youtu.be/dJ0Xcu0vJNU

: 原曲2 : https://youtu.be/pOAf4UoqFq0

: 原曲3 : https://youtu.be/T_D_pp283nw

: 結果: AI聽了上面的音樂之後輸出的MIDI : https://youtu.be/Uy65VfiXJ0M

: 注意到這個軟體還只能鋼琴轉MIDI而已 : 不能多樂器也不能從MIDI轉成樂譜(雖然可以搭配其他工具做到) : 這軟體其實是一家名為字節跳動的公司裡面的員工發佈的論文 : (字節跳動就是抖音的公司) : 之前最頂尖是google brain 2018出的一篇論文 : 而這篇超過google那篇 : 大概看了一下論文 google原本最小的frame size(最短時間單位)是32 ms : 而這篇新的用類似內插的方式去算按下琴鍵的時間點(onset) : 可以說在按下琴鍵的解析度上遠比32 ms好 : 然後這篇還多預測踏板跟放開琴鍵的時間點(offset) : onset跟offset的準度有多重要呢 : 舉個例子王羽佳演奏的大黃蜂的飛行 Cziffra改編版 : BPM=108 一拍要按8次 : 所以每秒要按14.4次每次的時間69.4 ms : google那篇解析度32 ms 明顯是不夠用的 : 實際差距可以聽聽看以下影片 : https://youtu.be/OknF2KVJnRM

: 對於ACG採譜者的影響 : 大概是以後不用靠耳朵可以用眼睛把別人彈奏的ACG曲直接寫下來 : 而對於做MIX的人來說 : 以前有一段想用的音樂要不直接當一軌音軌要不自己聽過寫下來 : 如果想做細節或是風格的編輯就一定要寫下來 : 但現在能夠直接生成MIDI的話就能省去寫下來的功夫 : 直接對生成的MIDI編輯就可以了 : 對於做音樂生成的人 : 比起對音訊檔去做分析 : MIDI可以說是更加簡潔的表示式 : 所以說要training什麼的也會比較方便 : 這篇其中一個貢獻就是把古典鋼琴轉成MIDI的dataset : 以前要有這種dataset非常麻煩 : 要請鋼琴家在能夠精確測量的鋼琴上演奏才能收集數據 : 參考資料提供給有興趣的人 : 1.軟體載點 : https://github.com/bytedance/GiantMIDI-Piano : 2.簡易安裝教學 : https://youtu.be/2gRfhL_TAvU

: 3.這篇論文 : https://arxiv.org/abs/2010.01815 : 4.google論文 : https://arxiv.org/abs/1710.11153 : 5.一些中文討論 : https://www.bilibili.com/video/BV1e5411E7vA : 6.關於這個議題的更多介紹 : https://bit.ly/2NkUiM1 難得看到自己以前的研究題目，來分享一下好了XD 採譜(Automatic Music Transcription)算是音樂資訊檢索(Music Information Retrieval) 裡蠻指標性的一個題目其中又以鋼琴的採譜最為熟知而採譜可以分成兩部份 1. 從原始音檔提出有用的資訊，轉成某些表示模式（如MIDI格式） 2. 將1)的資料轉換成可讀可用的樂譜（如五線譜） (2)比較symbolic也比較難，需要音樂相關domain knowledge，比較少人做而(1)又大致可以拆成：多重音高辨識，音符的開始(onset)與結束(offset)偵測。其中offset最難做，因為鋼琴是擊弦樂器，能量會隨著時間衰減，很難辨識出音符結束的時間（很多paper 做benchmark也是把offset拿掉不計）多重音高辨識應該是最多人做了（我之前也是做這部份XD）而隨著深度學習的興起，這幾年採譜系統也從NMF、sparse coding或是機率模型轉成用NN 效果提昇了非常多抖音這篇重要的地方是有把整個(1)的採譜系統做起來，包含了很少人做的offset detection，甚至是延音踏板的偵測，並把onset/offset的時間轉成連續的 (很多作法都是固定frame的hop size然後就直接用frame index當作時間位址）講了這麼多，其實台灣也有不少實驗室有在做音樂相關的題目順便就來宣傳一下我之前的實驗室最近出的採譜模型：omnizart 全能扎特 https://github.com/Music-and-Culture-Technology-Lab/omnizart 除了音樂的採譜外，還有提供鼓組的採譜、主旋律辨識、和弦辨識等等的功能使用的模型很多都有上過期刊或研討會尤其是和弦辨識，有拿到ISMIR 2019的最佳paper（做MIR蠻重要的一個研討會）歡迎有興趣的鄉民來玩玩看XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.32.97 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1614075340.A.939.html

推 Ricestone: 推 02/23 18:16

推 j9966330k: 恩我也是這樣想的 02/23 18:18

推 dos01: 我真的很想問這類的工具實際用途到底是應用在什麼東西上面 02/23 18:20

→ Ricestone: 呃...這類的已經很明確了吧 02/23 18:22

→ Ricestone: 上一篇講的就已經是幾個實用的例子了 02/23 18:22

→ Ricestone: 就算只是彈吉他，也常常需要採譜啊 02/23 18:23

→ yoyololicon: 有和弦辨識抓吉他譜就方便很多XD 02/23 18:25

推 longlyeagle: nice nice 02/23 18:26

推 ZooseWu: 推推好酷 02/23 18:26

推 g5637128: 推 02/23 18:29

推 siscon: 哇 ISMIR best paper 02/23 18:29

推 DraperyFalls: 推個試過一些model效果還是普通 02/23 18:30

推 gaduoray: 恩恩原來如此啊我完全明白了peko 02/23 18:31

推 DarkyIsCat: 推 02/23 18:39

推 IllMOR: 樓主大神 02/23 18:40

推 twosheep0603: 高手在民間跪惹 02/23 18:51

推 zxcasd848: 嗯嗯原來如此呢(完全聽不懂) 02/23 19:03

推 naya7415963: 好酷的東西 02/24 00:03