[問題] 背景電視講話聲去除或人聲提取

作者jaids (做工的人)

看板DataScience

標題[問題] 背景電視講話聲去除或人聲提取

時間Fri Jul 7 19:21:08 2023

請問如果場景中有背景電視人聲或背景講話聲要怎麼在語音辨識前去除呢？或是有辦法在語音辨識以前單獨抽出想要辨識的人聲音嗎？先謝謝各位任何建議了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 46.15.133.255 (挪威) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1688728872.A.66A.html

推 yiche: 想知道FFT效果好嗎 07/08 16:04

→ DrizztMon: 用別的NN model去解決 07/09 09:20

→ chang1248w: https://bit.ly/3NKMzSl 07/09 17:53

→ chang1248w: meta那邊去年好像還有推出語音分離，可以把多人分開 07/15 18:32

推 j840715: tasnet 08/18 16:14

推 yoyololicon: 先套個speech enhancement模型 08/30 07:33

→ yoyololicon: 還是有背景人聲就再做speaker separation 08/30 07:34

→ yoyololicon: 得說一下這些處理多少會影響語音辨識的準度 08/30 07:34