作者kinda (天天)
看板C_Chat
標題Re: [Vtub] AI是不是可以做即時字幕了?
時間Fri Mar 24 21:32:52 2023
※ 引述《wei115 (社畜)》之銘言:
: 如題
: 像是這部短片 都是日文
: 看攏無
: https://www.youtube.com/watch?v=6Sx13Our0Io
: 但在chatGPT的加持下
: 他可根據 google廢到笑的日聽字幕
跑了 OpenAI 的語音辨識 (Whisper) 正確率大概9成。
比YT的廢字幕好多了(約6成?)
以下
紅字為錯誤、
黃字為修正、〇〇代表我聽不懂。
[00:01.300 --> 00:08.540]
おけますでさ、なんかキャバクラみたいなの追加されたん
だよ
ポケマスっでさ
[00:08.540 --> 00:09.680] え?何それ?
[00:09.680 --> 00:14.000] 言い方悪くない?会話して好感度高めるみたいなやつでし
ょ?
[00:14.260 --> 00:14.500] そう
[00:14.500 --> 00:16.620] 言い方が悪いよ
[00:16.620 --> 00:18.400] キャバクラみたいなの
[00:18.400 --> 00:20.920] そうやってキャバクラみたいって思ってんだ
[00:20.920 --> 00:23.840] ちゃいちゃんキャバクラ行ったことあんだ?
[00:24.380 --> 00:24.820] ない
[00:24.820 --> 00:28.100] じゃあなんでキャバクラみたいってわかるんですか?
[00:28.840 --> 00:30.340] そう言われてたから
[00:30.340 --> 00:32.540] あ、インターネットの意見を
[00:32.540 --> 00:34.660] そうです、すいません、僕の意思
がない
じゃ
[00:34.660 --> 00:37.800] 珍しいね、
夜明けですね
弱気
[00:37.800 --> 00:41.480] 弱みを見せてこそ
[00:41.480 --> 00:43.220] キャバクラ行ってみたいな
[00:43.220 --> 00:44.160] えー!
[00:44.480 --> 00:45.100] 行ってみたい!
[00:45.900 --> 00:47.020] 怖い
[00:47.020 --> 00:48.100] 怖くない?
[00:49.020 --> 00:52.700] え、なんか大人のお姉さんになんかね、してもらえたら
[00:52.700 --> 00:54.040] 全部仕事だよ
[漏一句] 〇〇?
[00:55.680 --> 00:56.620] クリアどうした?
やった、〇〇
[00:56.720 --> 00:59.880] 全部仕事
[00:59.880 --> 01:02.300] そんな
[01:02.300 --> 01:03.760] 分かってるよ
[01:03.760 --> 01:07.460] 女の子のお客さん喜んでくれる率高いらしいからね
[漏一句] そんなこと、わかってる。なあ、いいだろう別に
[01:07.460 --> 01:11.380] 夢買ってんだよ
[01:11.380 --> 01:13.520] なんでそんなこと言わなくちゃいけないんだ
[01:13.520 --> 01:16.160] ここで僕ら夢を見させちゃう
[01:16.160 --> 01:17.680] そうだよ
[01:17.680 --> 01:20.840] 父さん、キャバクラ連れてってくれよ
[01:21.360 --> 01:22.200] バカやろ
[01:22.200 --> 01:23.900] 中学生やろお前
[01:23.900 --> 01:26.140] バカやろ
: 大致總結出 這部短片的大綱
: https://i.imgur.com/99Wg6Qs.png
: 這樣想想,如果結合語音模組
: 使用chatGPT應該可以產生出非常具有可讀性的即時字幕八?
: 目前來看可能價格比較高
: 已一部兩小時的直播來說,token數用api計費應該可以到NT1000?
: 有西恰嗎?
前面大家都有回了。
OpenAI Whisper 的模型有免費公開、也有人寫App or 公開colab。
之後沒意外的話,商業網站的字幕都會更新一波吧。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.251 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1679664775.A.0C1.html
→ gasgoose: 這種程度的正確的要商業化會被噴到翻天吧…. 03/24 21:39
→ kinda: 字幕組可以少8成人力吧。商業網站的自動字幕應該可以直接用 03/24 21:43
推 arrenwu: 那是因為自動字幕會提示"自動生成" 這種就參考用 03/24 21:45
→ arrenwu: 至於字幕組應該更之前就有再使用字幕轉語音的工具了 03/24 21:46
→ arrenwu: 而如果要翻譯的話,這差距可能就又更小了 03/24 21:46
→ arrenwu: 因為翻譯本身要重構語句 03/24 21:47
推 kimokimocom: 看到現在覺得離100%最後那一哩路一直都還是最困難的 03/24 21:48
→ deepdish: 有人把步驟都拍成影片惹 有興趣的人自己研究 03/24 21:48
→ deepdish: OpenAI's Whisper ASR Tool with GPU Support: WhisperD 03/24 21:49
推 Lhmstu: 即時字幕teams不是有了?還是是指日文? 03/24 21:49
語音辨識一直都有,各大OS都有內建的API。
但準確度不好,特別是有背景音樂 + 一般人閒聊 + 非英文。
(一般人指的是非新聞主播、聲優)
測過這個的日文,比蘋果內建的 or YT自動字幕好很多。
推 philip81501: 放心 現在早就沒全手工這件事了 就算AI錯誤率高 他還 03/24 21:53
→ philip81501: 是幫你把字幕卡時間點對好了 03/24 21:53
→ labbat: 光是自動時間軸就已經超省時間了 03/24 22:07
※ 編輯: kinda (122.116.34.251 臺灣), 03/24/2023 22:30:56