作者hahaha222 (dasg)
看板NTUEE_Speech
標題[舉手] 請大家幫忙 label DSP lecture 的 retrieval data
時間Fri Dec 10 23:07:54 2010
大家好:
很抱歉要勞煩大家幫實驗室做一件事。
請大家幫 DSP Lecture 標註 retrieval 要用的 data,
這些 data 目前會先被用在 thomas 的 journal 上,
未來也可能有很多應用。
需要請大家幫忙的就是,
想一些 query 並標註和該 query 相關的語音段落。
--
本來應該要請大家直接準備自己的 query ,
然後看過整個 DSP 的 corpus ,
然後標出 relevant 的 document,
但我寫了一個小程式讓大家比較方便一點。
所有的東西都在 ~tlkagk/label_lecture/ 裡。
用法其實和 label 公視新聞的程式一樣。
詳細作法如下,
1. 稍微看一下 lecture2concept.txt DSP 的 corpus 裡面大概有什麼,
想一下大概可以 retrieve 什麼東西。
2. 執行 ./label_lecture.pl
a. 輸入姓名, ex, tlkagk
b. 先想好大概要找什麼,然後輸入 query, ex, Algorithm
c. 我的程式會先做一遍很粗糙的 retrieval,
程式會呈現出 return 回來的 document 內容,
並詢問使用者該 document 是否是使用者要找的。
(return 回來的 document 最多 50 個)
d. 程式會問是否儲存,
按是的話,會把結果存在 ~tlkagk/label_lecture/lable/,
檔名為 "name_query.lab"
如果有人標了 PTV 10 個 query 以上,
以及 DSP Lecture 5 個 query 以上。
可以寄信給我,我 12/22 請喝影料(限118茶舖)。
謝謝大家 m(_ _)m
李宏毅 敬上
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.21.24
※ 編輯: hahaha222 來自: 140.112.21.24 (12/10 23:10)
推 Leeng:lecture2concept.txt 我看big5是亂碼 unicode只有一部份字 12/12 00:07
→ Leeng:能正常顯示,其他也是亂碼? 12/12 00:08
→ hahaha222:如果載到自己的電腦上看,還會是亂碼嗎? 12/12 13:10
推 hpttw:用unicode可以正常顯示耶 12/12 17:06
推 hasroten:用ultraedit可以看的到 12/14 11:54