看板 DataScience 關於我們 聯絡資訊
請求板上大大支援 5年前朋友寄給我的一封手寫信寄丟 多年後沒了交集 但還是很想知道內容寫了什麼 但影片是手機錄影 畫質不佳 有無方式可以增強解析 以下為影片截圖 https://i.imgur.com/qsyQpQg.jpg
在ask板被告知可以來這裡問問 如有錯板會刪文 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.129.87.75 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1638879290.A.1A9.html
yoyololicon: 只看這張照片的話,很難救了 12/07 23:58
ddavid: 其實是可以做的,但會是很大的一個問題 12/08 10:50
ddavid: 思路是這樣的,影片看來雖然解析度不夠文字不清楚,但是因 12/08 10:51
ddavid: 為文字大致外形還是可辨識,因此至少每一個字可以得到一個 12/08 10:51
ddavid: 可能是哪些字的文字分佈機率函數 12/08 10:52
ddavid: 然後再靠自然語言相關的技術,從機率函數中去挑選最可能組 12/08 10:53
ddavid: 成有意義句子的可能性 12/08 10:53
ddavid: 好了,概念說起來很簡單,但是技術難度就高了,特別是第二 12/08 10:54
ddavid: 階段的組句難度很高XD 12/08 10:54
yoyololicon: 不不 這連外型都很難辨識了吧= = 12/08 11:32
yoyololicon: 我倒是覺得如果是影片的話 也許能靠相鄰的frame救一 12/08 11:33
yoyololicon: 點點資訊回來 不知道有沒有類似task 12/08 11:33
yoyololicon: 這種restoration的問題我的看法是 如果人都很難猜出 12/08 11:36
yoyololicon: 原本的資料長怎樣 那機器也不會好到哪去 12/08 11:36
st1009: 覺得要靠相鄰來救+1 12/08 12:14
KindWei: 你可以故意創造這類模糊文字的照片 然後自己 train model 12/08 19:57
KindWei: 去解 12/08 19:57
KindWei: 不然就有看有沒有現成的 model 和資料集 但應該有點難 12/08 19:57
watashino: 其實還是有可能啦 12/09 12:32
watashino: 現在的sr技術真的蠻強的 12/09 12:32
watashino: 尤其是這種很特定、有固定pattern的資料 12/09 12:32
su3cl31125: 對於我這普通人看來是很困難的工程 感謝大家的回覆 12/09 23:43
ruthertw: 這個題目很難作 12/10 02:25
aa871220: 現行去躁比較強的都英文 12/13 21:52
aa871220: 繁體中文dataset 來源根本不足xd 12/13 21:52
truehero: 這種程度的模糊應該可以解 12/15 22:42
truehero: 今年玉山不是有辦手寫辨識賽,資料集可以拿來用 12/15 22:47
mom213: 請通靈王可能較容易0.0 12/16 01:39
b10007034: 同感是影片的話,比一張照片有更多的資訊 12/24 15:41
ddavid: @yoyololicon 我說的外型,是指一些明顯可見的特徵 01/21 11:15
ddavid: 比如就算這麼模糊,但其中很多字明顯可見是左右兩塊組成, 01/21 11:16
ddavid: 中間那一頁最右上角那個字明顯有像「地」或「他」右下那個 01/21 11:17
ddavid: 彎勾形狀,另外從文字色的密度可猜測筆畫的密集程度等等 01/21 11:18
ddavid: 更細微還能看出一些如「然」「無」這些上密下疏,或是「喝 01/21 11:20
ddavid: 」左短右長而「和」會左長右短的特徵 01/21 11:21
ddavid: 因此先弄到大量手寫字庫訓練針對這類特徵的模型後,就有機 01/21 11:22
ddavid: 會嘗試對模糊的字進行辨識輸出候選字列表與對應機率 01/21 11:23
ddavid: 進一步就是上面講的,再串自然語言模型嘗試最可能組詞組句 01/21 11:24
ddavid: 的選項,就有機會輸出候選句子 01/21 11:24
ddavid: 但這真的是個可以寫無數篇 Paper 的大題目XD 01/21 11:25
yoyololicon: 我懂你的意思 但這個糊到學出來的分佈也不會很sharp 01/21 14:02
yoyololicon: 再拿來生可能的字句,可能會有數千條候選字句 01/21 14:03
yoyololicon: 題目worth trying 但不能保證是原po需要的解答 01/21 14:04
ddavid: 候選句可能很多,但特徵取得夠好夠多的話,有可能意外地機 01/21 16:11
ddavid: 率處理後高低機率差距很容易拉開,畢竟有些特徵事實上蠻容 01/21 16:12
ddavid: 易鎖定到相對少數的字,而文字本身就已經有字頻差距,再套 01/21 16:13
ddavid: 到詞庫又可以篩選掉很多低機率可能性,再進一步到了自然語 01/21 16:14
ddavid: 言模型又可以除去文法上直接不可能或低機率的組合 01/21 16:15
ddavid: 我直覺上是認為過程超級繁複且運算量很大,但做完的結果有 01/21 16:17
ddavid: 可能意外地不會有大量高機率候選句,因為某些特徵的篩選力 01/21 16:18
ddavid: 還是蠻強大的 01/21 16:18
ddavid: 當然,如果寫作者本身行文的文法就很特別或很糟會是麻煩 01/21 16:20