[閒聊] 赤松健：赤松健：國圖全書籍光學字元建置和AI辨識

作者LABOYS (洛城浪子)

看板C_Chat

標題[閒聊] 赤松健：赤松健：國圖全書籍光學字元建置和AI辨識

時間Thu Jul 14 21:57:45 2022

https://twitter.com/KenAkamatsu/status/1547567317894463488 https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg

拜訪了(株)モルフォＡＩソリューションズ株式會社我曾經闡述我的夢想是「國會圖書館的全書籍都以光學字元辨認技術來建置，並且可以進行全文檢索為目標」沒想到負責該技術的就是這間公司。古文書的圖像→文本轉化，以現在的技術已經非常高水準，以後期待能朝著利用人工智慧的領域，利用到AI來判斷前後的文字脈絡或用字遣詞，這樣的目標邁進。如果這個夢想成真，那麼其益處將是無法計量的。 -- 「胡鐵花，我希望你以後知道，世上的女孩子，並不是每個都像高亞男那麼好對付的，你覺得高亞男好對付，只因為她喜歡你。」「不錯，從今以後，我再不敢說我會對付女人了，我現在簡直恨不得跪在高亞男面前，去嗅她的腳。」《楚留香傳奇‧大沙漠》 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.161.181.6 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1657807072.A.040.html ※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 21:58:25

→ spfy: GOOGLE：為什麼要花錢? 07/14 21:58

→ gox1117: 錢哪來 07/14 21:58

推 mattc123456c: 掃描還要去比對吧？ 07/14 21:59

→ medama: 他這裡的古文書指的是古代日本的手寫草書字體， 07/14 21:59

→ medama: 以前都要人工辨認，非常費時， 07/14 21:59

→ medama: 現在技術已經可以用電腦辨認， 07/14 21:59

推 LLSGG: 大圖書館計畫， 07/14 21:59

→ medama: 今後的目標是用電腦靠前後文來提升字體辨認率 07/14 22:00

→ medama: 不是單純舊書籍的意思 07/14 22:00

→ LLSGG: 抓一下古文抄襲 07/14 22:00

※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 22:01:43

推 majohnman: 先不論這件事的必要程度，畢竟將書本電子化的確可以以 07/14 22:02

→ majohnman: 防萬一未來發生什麼事，但是全書的數字很龐大吧，要去 07/14 22:02

→ majohnman: 哪生錢來搞這種事，政府也不會輕易撥款在這種事上吧 07/14 22:02

推 bestteam: GOOGLE能做到判別古文書???? 07/14 22:02

推 mattc123456c: 對於1樓，免費OCR服務不夠理想 07/14 22:03

→ a71085: 中文有一個老外發起的網站叫做中國哲學書電子化計劃 07/14 22:03

→ cat05joy: OCR只是合標準的字體字體一歪很容易辨識不到 07/14 22:07

→ spfy: GOOGLE以前是用reCAPTCHA叫大家幫他辨識不是指用免費OCR 07/14 22:08

→ spfy: 免費OCR連標準英文字體都會認錯 07/14 22:09

推 Bugquan: 不會掃描後，做成驗證碼 07/14 22:10

→ qazxswptt: 有點跑太多的感覺不如先數位化辨識以後再說 07/14 22:17

推 bladesinger: google的reCAPTCHA那堆填字就是讓無數下載(?)的用戶 07/14 22:22

→ bladesinger: 來進行人肉訓練AI 07/14 22:22

推 hinajian: 免費的最貴 07/14 22:22

→ bladesinger: 訓練到google的OCR對英文古書有特攻了 07/14 22:22

推 Bugquan: 不過最大的問題還是錢 07/14 22:24

推 reccalin: 這個真的成功會很棒一堆古早論文都只有圖檔 07/14 22:27

→ inte629l: 之後會有古文書的圖片來辨別50音嗎XD 07/14 22:32

推 discoveryray: 研究生福音 07/14 22:34

推 michaelfat19: 選上議員就是要爭取用政府的錢做這件事啊== 07/14 22:47

推 jasonchangki: 這種就是整理期超苦但一旦成型超方便 07/14 23:07

推 nalthax: 耶 07/14 23:13

推 newasus: OCR技術需求太高先不論單純掃描的話不會花到非常多錢吧 07/14 23:51

→ newasus: 應該幾千萬台幣內能搞定？ 07/14 23:51

推 TsaiPC: 日本國會圖書館目前一直有在做絕版書數位化，只是目前要看 07/15 00:18

→ TsaiPC: 電子檔還是要到國會圖書館才行 07/15 00:18

推 nilr: 推 07/15 07:47

推 abucat: 這個推 07/15 09:01

推 ui: 這個推，現在在推AI的字元圖像辨認學習了 07/15 10:18

→ ui: 如果持續擴大字元數據庫，那未來一本書電子化將會是幾秒內的事 07/15 10:19

→ ui: 全文檢索與現行的影像數位化，還是有很大區別的 07/15 10:20