→ yoyololicon: 只看這張照片的話,很難救了 12/07 23:58
推 ddavid: 其實是可以做的,但會是很大的一個問題 12/08 10:50
→ ddavid: 思路是這樣的,影片看來雖然解析度不夠文字不清楚,但是因 12/08 10:51
→ ddavid: 為文字大致外形還是可辨識,因此至少每一個字可以得到一個 12/08 10:51
→ ddavid: 可能是哪些字的文字分佈機率函數 12/08 10:52
→ ddavid: 然後再靠自然語言相關的技術,從機率函數中去挑選最可能組 12/08 10:53
→ ddavid: 成有意義句子的可能性 12/08 10:53
→ ddavid: 好了,概念說起來很簡單,但是技術難度就高了,特別是第二 12/08 10:54
→ ddavid: 階段的組句難度很高XD 12/08 10:54
→ yoyololicon: 不不 這連外型都很難辨識了吧= = 12/08 11:32
→ yoyololicon: 我倒是覺得如果是影片的話 也許能靠相鄰的frame救一 12/08 11:33
→ yoyololicon: 點點資訊回來 不知道有沒有類似task 12/08 11:33
→ yoyololicon: 這種restoration的問題我的看法是 如果人都很難猜出 12/08 11:36
→ yoyololicon: 原本的資料長怎樣 那機器也不會好到哪去 12/08 11:36
推 st1009: 覺得要靠相鄰來救+1 12/08 12:14
推 KindWei: 你可以故意創造這類模糊文字的照片 然後自己 train model 12/08 19:57
→ KindWei: 去解 12/08 19:57
→ KindWei: 不然就有看有沒有現成的 model 和資料集 但應該有點難 12/08 19:57
推 watashino: 其實還是有可能啦 12/09 12:32
→ watashino: 現在的sr技術真的蠻強的 12/09 12:32
→ watashino: 尤其是這種很特定、有固定pattern的資料 12/09 12:32
→ su3cl31125: 對於我這普通人看來是很困難的工程 感謝大家的回覆 12/09 23:43
→ ruthertw: 這個題目很難作 12/10 02:25
推 aa871220: 現行去躁比較強的都英文 12/13 21:52
→ aa871220: 繁體中文dataset 來源根本不足xd 12/13 21:52
→ truehero: 這種程度的模糊應該可以解 12/15 22:42
推 truehero: 今年玉山不是有辦手寫辨識賽,資料集可以拿來用 12/15 22:47
推 mom213: 請通靈王可能較容易0.0 12/16 01:39
推 b10007034: 同感是影片的話,比一張照片有更多的資訊 12/24 15:41
推 ddavid: @yoyololicon 我說的外型,是指一些明顯可見的特徵 01/21 11:15
→ ddavid: 比如就算這麼模糊,但其中很多字明顯可見是左右兩塊組成, 01/21 11:16
→ ddavid: 中間那一頁最右上角那個字明顯有像「地」或「他」右下那個 01/21 11:17
→ ddavid: 彎勾形狀,另外從文字色的密度可猜測筆畫的密集程度等等 01/21 11:18
→ ddavid: 更細微還能看出一些如「然」「無」這些上密下疏,或是「喝 01/21 11:20
→ ddavid: 」左短右長而「和」會左長右短的特徵 01/21 11:21
→ ddavid: 因此先弄到大量手寫字庫訓練針對這類特徵的模型後,就有機 01/21 11:22
→ ddavid: 會嘗試對模糊的字進行辨識輸出候選字列表與對應機率 01/21 11:23
→ ddavid: 進一步就是上面講的,再串自然語言模型嘗試最可能組詞組句 01/21 11:24
→ ddavid: 的選項,就有機會輸出候選句子 01/21 11:24
→ ddavid: 但這真的是個可以寫無數篇 Paper 的大題目XD 01/21 11:25
推 yoyololicon: 我懂你的意思 但這個糊到學出來的分佈也不會很sharp 01/21 14:02
→ yoyololicon: 再拿來生可能的字句,可能會有數千條候選字句 01/21 14:03
→ yoyololicon: 題目worth trying 但不能保證是原po需要的解答 01/21 14:04
推 ddavid: 候選句可能很多,但特徵取得夠好夠多的話,有可能意外地機 01/21 16:11
→ ddavid: 率處理後高低機率差距很容易拉開,畢竟有些特徵事實上蠻容 01/21 16:12
→ ddavid: 易鎖定到相對少數的字,而文字本身就已經有字頻差距,再套 01/21 16:13
→ ddavid: 到詞庫又可以篩選掉很多低機率可能性,再進一步到了自然語 01/21 16:14
→ ddavid: 言模型又可以除去文法上直接不可能或低機率的組合 01/21 16:15
→ ddavid: 我直覺上是認為過程超級繁複且運算量很大,但做完的結果有 01/21 16:17
→ ddavid: 可能意外地不會有大量高機率候選句,因為某些特徵的篩選力 01/21 16:18
→ ddavid: 還是蠻強大的 01/21 16:18
→ ddavid: 當然,如果寫作者本身行文的文法就很特別或很糟會是麻煩 01/21 16:20