看板 CSSE 關於我們 聯絡資訊
不確定這個問題是否可以在此版發問, 如果有其他更合適的版, 再請指正, 謝謝 最近在做語音辨識的research, 並對同事做了一些技術分享 當下被問到了一個問題, 我發現這部分我還真的不知道 我的問題如下, 以現今的語音辨識APP, 如apple的siri Q1. 當我們輸入喚醒詞 "Hey siri" 或者其他內建的語音命令時 它的語音辨識機制應該是在手機(local)端做掉, 也可以說是離線處理的部分 而這邊所謂的語音辨識機制, 也就是先將時域訊號透過傅立葉轉成頻域訊號, 然後經過特 徵提取, 再做聲學辨識? 還是local端是採用其他較快速的辨識方式? Q2. 比較複雜的聲學/語意分析, 理論上都要上傳到雲端做 此時上傳的data是原始的語音訊號? 還是會先做一些前處理, 比如降噪/轉頻域訊號...等 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.176.75 ※ 文章網址: https://www.ptt.cc/bbs/CSSE/M.1543855162.A.45B.html