看板 DataScience 關於我們 聯絡資訊
Youtube版權審核包括音樂、影像兩個部分, 音樂的部分好像調高調低音就會抓不到, 但影像部分不論縮放、翻轉都還會被判定侵權, 有人知道類似的作法嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.214.163.255 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1591541265.A.F54.html
sssh: 我覺得很合理啊XD 06/08 05:27
kaltu: 影像spatial data在機器學習上縮放旋轉本來就是很常用的dat 06/14 11:01
kaltu: a augmentation 06/14 11:01
kaltu: 通常model也會強調這部分的robustness 06/14 11:01
kaltu: 音樂的話,現在主流其實還是基於傅立葉的手法,例如 Shazam 06/14 11:01
kaltu: 是用聲譜去做 fingerprinting 06/14 11:01
kaltu: YouTube很有可能在商業上跟Shazam合作使用同一份fingerprin 06/14 11:01
kaltu: t庫 06/14 11:01
kaltu: 那你從聲譜的原理上就看得出來這是對音高敏感的技術 06/14 11:01
kaltu: 用聲譜的優點是音樂這種temporal data,在Y軸上不同頻率如 06/14 11:18
kaltu: 果因為等化器特效、使用者麥克風和場所喇叭的頻率響應、現 06/14 11:18
kaltu: 場的噪音等因素 06/14 11:18
kaltu: 而使得某些頻率被遮蔽,那X軸拉長了依然可以match 06/14 11:18
kaltu: 如果要讓Y軸不只頻率遮蔽還要加入對頻率平移(調高調低)的ro 06/14 11:18
kaltu: bustness 06/14 11:18
kaltu: 感覺是變成除了在X軸做sliding window search之外對Y軸也要 06/14 11:18
kaltu: 做一遍? 06/14 11:18