作者medama ( )
看板C_Chat
標題Re: [閒聊] 赤松健:國圖全書籍光學字元建置和AI辨識
時間Thu Jul 14 22:07:30 2022
※ 引述《LABOYS (洛城浪子)》之銘言:
: https://twitter.com/KenAkamatsu/status/1547567317894463488
: https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
: 拜訪了(株)モルフォAIソリューションズ株式會社
: 我曾經闡述我的夢想是
: 「國會圖書館的全書籍都以光學字元辨認技術來建置,並且可以進行全文檢索為目標」
: 沒想到負責該技術的就是這間公司。
: 舊書籍的圖像→文本轉化,以現在的技術已經非常高水準,
: 以後期待能朝著利用人工智慧的領域,
: 利用到AI來判斷前後的文字脈絡或用字遣詞,這樣的目標邁進。
: 如果這個夢想成真,那麼其益處將是無法計量的。
他這裡的古文書指的是古代日本的手寫草書字體,
不是單純舊書籍的意思
以前都要人工辨認,非常費時,
現在技術已經可以用電腦辨認,
今後的目標是用電腦靠前後文來提升字體辨認率
例:
https://i.imgur.com/WURzdkp.png
https://i.imgur.com/gIfD3n9.png
一般人沒學過日文草書
大概只能辨識出20%漢字和假名
以往是靠專家學者辨認再轉寫
不過目前電腦的辨識率已經到能80%以上
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.25.50 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1657807652.A.B31.html
推 kaj1983: 第二張和我家附近的診所醫師在寫病歷時一樣筆跡耶XD 07/14 22:12
推 D2Diyus: 古日本很多大名親筆書信真的潦草到日本人也認不出來( 07/14 22:12
→ hinajian: 以後人機驗證變成 認得出來的是AI 認不出來的是人類了(X 07/14 22:25
推 yung80111: 古代人看得懂這在寫啥? 07/14 22:29
推 daidaidai02: 哇靠偉業 07/14 22:30
推 inte629l: 這些古文書主要用意是在哪啊? 契約之類的? 07/14 22:31
→ medama: 用在任何地方啊 這是古代的書寫體 07/14 22:34
→ chewie: 這篇可以看書寫體-古文-現代文體的翻譯 第一步的書寫體辨 07/14 22:41
→ chewie: 識若能用AI辨識協助會快很多 07/14 22:41
→ w11918: 一樓那個叫醫學速寫 07/14 22:52
推 mn435: 搞不懂寫這麼樣 收信人就算會草書也讀得很吃力吧 07/14 23:04
→ winglight: 虎鯨文也能辨識嗎? 07/14 23:16
→ bluejark: 以現在的深度學習來說是可以做到的 07/14 23:19
→ medama: 不會很吃力啊 草書是另一套字體 不是胡亂寫的 07/14 23:20
→ bluejark: 就是先把一些對照表做出來再讓AI去辨識 07/14 23:21
推 nilr: 推 07/15 07:49