精華區beta C_Chat 關於我們 聯絡資訊
https://twitter.com/KenAkamatsu/status/1547567317894463488 https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
拜訪了(株)モルフォAIソリューションズ株式會社 我曾經闡述我的夢想是 「國會圖書館的全書籍都以光學字元辨認技術來建置,並且可以進行全文檢索為目標」 沒想到負責該技術的就是這間公司。 古文書的圖像→文本轉化,以現在的技術已經非常高水準, 以後期待能朝著利用人工智慧的領域, 利用到AI來判斷前後的文字脈絡或用字遣詞,這樣的目標邁進。 如果這個夢想成真,那麼其益處將是無法計量的。 -- 「胡鐵花,我希望你以後知道,世上的女孩子, 並不是每個都像高亞男那麼好對付的,你覺得高亞男好對付,只因為她喜歡你。」 「不錯,從今以後,我再不敢說我會對付女人了, 我現在簡直恨不得跪在高亞男面前,去嗅她的腳。」 《楚留香傳奇‧大沙漠》 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.161.181.6 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1657807072.A.040.html ※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 21:58:25
spfy: GOOGLE:為什麼要花錢? 07/14 21:58
gox1117: 錢哪來 07/14 21:58
mattc123456c: 掃描還要去比對吧? 07/14 21:59
medama: 他這裡的古文書指的是古代日本的手寫草書字體, 07/14 21:59
medama: 以前都要人工辨認,非常費時, 07/14 21:59
medama: 現在技術已經可以用電腦辨認, 07/14 21:59
LLSGG: 大圖書館計畫, 07/14 21:59
medama: 今後的目標是用電腦靠前後文來提升字體辨認率 07/14 22:00
medama: 不是單純舊書籍的意思 07/14 22:00
LLSGG: 抓一下古文抄襲 07/14 22:00
※ 編輯: LABOYS (118.161.181.6 臺灣), 07/14/2022 22:01:43
majohnman: 先不論這件事的必要程度,畢竟將書本電子化的確可以以 07/14 22:02
majohnman: 防萬一未來發生什麼事,但是全書的數字很龐大吧,要去 07/14 22:02
majohnman: 哪生錢來搞這種事,政府也不會輕易撥款在這種事上吧 07/14 22:02
bestteam: GOOGLE能做到判別古文書???? 07/14 22:02
mattc123456c: 對於1樓,免費OCR服務不夠理想 07/14 22:03
a71085: 中文有一個老外發起的網站叫做中國哲學書電子化計劃 07/14 22:03
cat05joy: OCR只是合標準的字體 字體一歪很容易辨識不到 07/14 22:07
spfy: GOOGLE以前是用reCAPTCHA叫大家幫他辨識 不是指用免費OCR 07/14 22:08
spfy: 免費OCR連標準英文字體都會認錯 07/14 22:09
Bugquan: 不會掃描後,做成驗證碼 07/14 22:10
qazxswptt: 有點跑太多的感覺 不如先數位化 辨識以後再說 07/14 22:17
bladesinger: google的reCAPTCHA那堆填字就是讓無數下載(?)的用戶 07/14 22:22
bladesinger: 來進行人肉訓練AI 07/14 22:22
hinajian: 免費的最貴 07/14 22:22
bladesinger: 訓練到google的OCR對英文古書有特攻了 07/14 22:22
Bugquan: 不過最大的問題還是錢 07/14 22:24
reccalin: 這個真的成功會很棒 一堆古早論文都只有圖檔 07/14 22:27
inte629l: 之後會有古文書的圖片來辨別50音嗎XD 07/14 22:32
discoveryray: 研究生福音 07/14 22:34
michaelfat19: 選上議員就是要爭取用政府的錢做這件事啊== 07/14 22:47
jasonchangki: 這種就是整理期超苦但一旦成型超方便 07/14 23:07
nalthax: 耶 07/14 23:13
newasus: OCR技術需求太高先不論 單純掃描的話不會花到非常多錢吧 07/14 23:51
newasus: 應該幾千萬台幣內能搞定? 07/14 23:51
TsaiPC: 日本國會圖書館目前一直有在做絕版書數位化,只是目前要看 07/15 00:18
TsaiPC: 電子檔還是要到國會圖書館才行 07/15 00:18
nilr: 推 07/15 07:47
abucat: 這個推 07/15 09:01
ui: 這個推,現在在推AI的字元圖像辨認學習了 07/15 10:18
ui: 如果持續擴大字元數據庫,那未來一本書電子化將會是幾秒內的事 07/15 10:19
ui: 全文檢索與現行的影像數位化,還是有很大區別的 07/15 10:20