看板 DataScience 關於我們 聯絡資訊
請問如果場景中有背景電視人聲 或背景講話聲 要怎麼在語音辨識前去除呢? 或是有辦法在語音辨識以前單獨抽出想要辨識的人聲音嗎? 先謝謝各位任何建議了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 46.15.133.255 (挪威) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1688728872.A.66A.html
yiche: 想知道FFT效果好嗎 07/08 16:04
DrizztMon: 用別的NN model去解決 07/09 09:20
chang1248w: https://bit.ly/3NKMzSl 07/09 17:53
chang1248w: meta那邊去年好像還有推出語音分離,可以把多人分開 07/15 18:32
j840715: tasnet 08/18 16:14
yoyololicon: 先套個speech enhancement模型 08/30 07:33
yoyololicon: 還是有背景人聲就再做speaker separation 08/30 07:34
yoyololicon: 得說一下 這些處理多少會影響語音辨識的準度 08/30 07:34