看板 Programming 關於我們 聯絡資訊
各位好, 關於PDF格式比對的問題是這樣的: 假設系統要求PDF文件檔案的格式如下: 邊界設定N inch 字體需為 a, b, c 三種其中一種 字體大小介於10-12pt之間 頁數用阿拉伯數字編排 等等 然後這個系統可以上傳PDF,回傳此份PDF是否符合格式 更進一步的可以說明格式哪裡不符 我自己的想法有兩個 一個是轉成word,然後去抓word檔案的metadata來比對 可是轉成word似乎會有格式跑掉的風險 假設PDF中有表格或者圖片 轉換格式容易跑掉,這樣處理邊界問題可能就會有誤 不過轉成word的話 我覺得至少可以解決字體、字體大小以及頁數是否用阿拉伯數字編排的問題 另個想法是用影像處理的想法去做 所以需要先有一個標準的sample檔案 然後把pdf轉成圖檔以後用圖像的方式比對 我覺得這應該可以解決邊界及字體大小的問題 不曉得有沒有其他的方法或者想法呢? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 97.93.122.75 ※ 文章網址: https://www.ptt.cc/bbs/Programming/M.1449732983.A.333.html
haha02: 找可以直接解析PDF的lib吧?iText之類的 112.65.189.156 12/10 21:44