看板 Gossiping 關於我們 聯絡資訊
其實跟ai溝通有個很大的問題 就是ai根本就不像人 永遠都要依靠一個電腦或是手持裝置 感覺就像在跟很遠的一個人對話 隔著一個窗口像在送信一樣 真的很辛苦 ai有沒有辦法做到就像身邊的一個人可以自由對話 甚至還可以互相打斷對方的談話用很即時沒有網路延遲的方式跟你交談 等到ai不確定答案的時候會主動問你需不需要我幫你查一下 好的你去查一下這時候ai才會去啟動網路 不然就繼續離線跟你哈啦 你在講話的時候還會嗯 嗯 嗯 是的 這樣相互回應不會完全抓不到斷點還要停頓一段時間才確定語音是不是結束可以送出 而且現在的ai語音通話 常常都嘛是完整錄音後送出 沒有近端語音引擎在離線下就幫你分析斷句 整句送出其實效率很差不如使用鍵盤 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.216.134 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1774778298.A.21C.html
winglight: 是你沒同意Al使用麥克風吧 42.70.77.205 03/29 17:59
現在的即時語言對話很爛 你講完了還要突然保持安靜等手機判斷對話中斷 而且根本沒辦法濾音 如果你在餐廳很吵雜手機會錄到隔壁的人對話根本沒辦法用 但是一邊吃飯一邊聊天只能限於人類 跟ai類就很辛苦 沒辦法辨識主要對話的人物 萬一講到一半你的朋友進來 也需要有讓ai即時知道那是想要加入談話的人物需要留意朋友的聲紋進行濾音
Wardyal: 講話的時候 嗯嗯嗯嗯的那種人很靠北耶180.218.160.178 03/29 18:01
可以 ya ok 啊你是說...嗎? 但是如果人類對話時都沒反應 一般的人會直覺對方根本沒在聽或不想再聽或是他累了不要再吵他了 其實現在的語音輸入常常就是沒有反應沒辦法確定他到底有沒有陷入辨識異常 等到你送出之後才發現根本沒聽懂你說的 類似這樣你忘詞的時候 還可以讓你補完整你的一句話也不會因此造成叉開話題
error405: 最近有看到相關技術 114.36.200.57 03/29 18:07
adios881: GeminiLive很接近 162.120.248.78 03/29 18:07
但是那個好像沒有近端引擎 其實近端引擎不用很強而且輸入文本極短不會突然需要你對llm輸入一本書 只要聽得懂常見的中、英文詞彙 聽不懂的ai再同步偷偷連網查 好像是整合的問題 如果斷網連輸入字都沒辦法 其實簡單的打字對話早就有辦法近端聊天了 其實近端的語音不用到能力很強 只要有辦法吃你的咬字就行了 其他的他不會讓他自己去問資料中心 那話說回來其實就跟十年前的siri一樣根本語音對話幾乎沒什麼進步 沒連網連哈啦都不行 甚至我說話時候要把正在播放的周杰倫夜曲關掉 沒連網連哈啦都不行 這樣用了兩次就不想再開了 所以在很少人在用語音ai但是其實很多人都試過決定不想再用
LoveSports: 我今天跟人類吃飯 在餐廳用AI語音對話 146.70.76.186 03/29 18:28
LoveSports: AI辨識沒問題 隔壁桌小孩在吵 跟我同 146.70.76.186 03/29 18:28
LoveSports: 桌的試圖插嘴問我的AI問題也沒干擾到 146.70.76.186 03/29 18:28
LoveSports: 另一邊隔壁桌也持續夫妻對話都沒干擾 146.70.76.186 03/29 18:29
但是你有連網而且一次要講完一整段 沒講完就送出不如就不要講了
LoveSports: 跟我吃飯的那個人每次都會試圖插嘴問 146.70.76.186 03/29 18:30
LoveSports: 問題 我的AI都不理他 讚 146.70.76.186 03/29 18:30
LoveSports: 上面是LLM 另外sharp手機的EMOPA AI 146.70.76.186 03/29 18:31
LoveSports: (不是LLM 比較陽春的)也是不理他 146.70.76.186 03/29 18:31
所以你用的介面有近端分析跟離線辨識嗎?是哪一套?
LoveSports: 不過AI說是因為插嘴者距離太遠XD 146.70.76.186 03/29 18:33
android、ios、windows都可以我想體驗看看
LoveSports: 我不懂你的意思 我只是用普通的LLM的 146.70.76.186 03/29 18:35
LoveSports: 手機APP 146.70.76.186 03/29 18:35
但至少要開一個對話軟體或是系統介面吧?
LoveSports: 不過你文章說的打斷AI講話可以吧 146.70.76.186 03/29 18:35
LoveSports: 我常打斷他們 而且我有口吃 146.70.76.186 03/29 18:36
目前gemini跟chatgpt都沒辦法 而且那些一定是要連網的 只要連網即時對話體驗就很糟了
LoveSports: 就是普通的LLM的APP平台的語音對話 146.70.76.186 03/29 18:36
那是哪一套? gemini跟chatgpt都是沒辦法斷網的
potionx: 權限給夠就可以 之前openclaw發明人說 111.240.97.173 03/29 18:36
potionx: 他在健身房收到AI傳來的訊息 他就隨口講 111.240.97.173 03/29 18:37
LoveSports: 阿 我好像看懂了 你希望你講每一句的 146.70.76.186 03/29 18:37
現在有幾款有支援tts了 需要下載即時語音llm
dferww55: 要再幾年,不會太久 1.171.210.132 03/29 18:37
potionx: 講完後想到他沒有給AI裝語音辨識應該會再 111.240.97.173 03/29 18:37
LoveSports: 時候 AI發聲音表示有在聽吧 那個好像 146.70.76.186 03/29 18:37
LoveSports: 現在還沒辦法 146.70.76.186 03/29 18:38
potionx: 收到詢問的訊息 可是AI沒送來 111.240.97.173 03/29 18:38
LoveSports: 等等 我從來沒說我有斷網喔 如果你只 146.70.76.186 03/29 18:38
有找到類似的 whisper可以斷網對話不傷token但辨識超慢這樣不可能斷句了
dferww55: 要解決口音及空間雜訊問題 1.171.210.132 03/29 18:38
LoveSports: 問斷網的 那是我回錯了 146.70.76.186 03/29 18:38
potionx: 後來發現AI自己去找了辨識語音安裝後 111.240.97.173 03/29 18:38
potionx: 就把他講的話 執行了 111.240.97.173 03/29 18:39
potionx: 你的問題可以丟去開源社區問 搞不好早有 111.240.97.173 03/29 18:41
LoveSports: 我剛才找GPT實驗了好像還算可以 146.70.76.190 03/29 19:12
LoveSports: 請看回文 有截圖 146.70.76.190 03/29 19:12
試了都很難用一直在鬼打牆跟手機語音客服一樣爛 特斯拉的語音不知道會不會一樣頓 ※ 編輯: gyGirl (58.114.216.134 臺灣), 03/29/2026 19:46:01
willism: typeless 101.9.192.239 03/29 19:44