看板 book 關於我們 聯絡資訊
大家好,書版第一次發文請多指教。 最近剛入坑自炊電子書,成功用 Microtek DI 2125C 搭 Imagemagick 弄了一套自炊流程 出來。我搜「Imagemagick 自炊」好像中文資料不多都是日文資料,就把自己的流程拿來 分享了。文章改自自己網誌沒有盜文。 我買 Microtek DI 2125C 的理由: - 夠便宜(我買 2490 NTD) - 功能夠(有 ADF、彩色雙面掃描) 用到的軟體: - Imagemagick:後處理基本靠它 - ABBYY FineReader Sprint:掃描器附的,用來把圖檔批次 OCR 然後轉 PDF - k2pdfopt:幫 PDF 加目錄 - Powershell:Windows 10 內建,用來批次改檔名或檔案屬性 - PDF-Xchange editor(免費版):對目錄做細微編修 大約流程 找影印店裁書,掃描存圖檔 圖檔要檢視有沒有跳頁或是嚴重扭曲,有的話重掃並且設定好檔名,使檔名 lexicological order 和紙本頁面順序一致。 重排檔名,和依照檔名順序重設修改時間 避免檔名或修改時間的順序紊亂,導致匯入其他 App 後順序順序錯亂,以下 powershell 腳本「-whatif」要拿掉才會真正改檔名,否則只是預覽。 依原本檔名順序批次重新命名 (Dir *.jpg) | sort name | ForEach { $count=1 } { $scount=([string]$count).PadLeft(4,'0') rename-item $_ -NewName ngimg-$scount.jpg -whatif; $count++ } 依檔名重排修改時間 $dirs = (Dir *.jpg) | sort name ForEach($d in $dirs) { $file = Get-Item $d $file.LastWriteTime=(Get-Date) } 圖檔轉檔為 PNG 不用 jpg 是怕反覆修改存檔越來越失真。後面的步驟每次使用 mogrify 前都建議複製圖 檔目錄做備份,因為 mogrify 會原本修改原本圖檔造成不可逆變化。 magick mogrify -format png *.jpg 去背景 magick mogrify *.png -transparent white -fuzz 50% fuzz 網路教學設 90%,我保險一點設 50% Imagemagick 切黑邊,傾斜校正(deskew)然後再切黑邊 切除黑邊 magick mogrify -fuzz 30% -define trim:percent-background=10% -background black -trim +repage *.png 個人測試的結果,percent-background 不設成 0 可避免去黑邊的時候吃掉太多正常內容 ,切完後周圍會有很細微黑邊但個人可接受。書中有大量黑底的,可把 percent-background 拉高或把 fuzz 壓低,try and error 根據最終效果做調整 傾斜校正(deskew) magick mogrify -deskew 80% *.png 個人使用體驗,deskew 設 80% 會比網路上普遍的 40% 好些,至少對我的掃描器是如此 。如果先做傾斜校正,圖檔四周可能多出不同色,和原本黑邊混雜,造成後續去黑邊困難 。所以先去黑邊再傾斜校正,再去一次黑邊去除掉傾斜校正造成的額外黑邊。 影像銳化 magick mogrify *.png -sharpen 0x1.5 -modulate 100,130,100 modulate 三個參數分別代表亮度、對比和 hue。100 代表原值。個人選擇調高對比。 sharpen 0x1.5 是網路建議,測試後肉眼可接受。 圖片檔案批次匯入,做 OCR,存成 pdf 我用掃描器附的 Finereader 解決 建立 PDF 目錄(table of content) k2pdfopt -mode copy -n -toclist 目錄檔.txt 輸入pdf.pdf -o 輸出pdf.pdf 其中目錄檔的格式如下,前面的數字代表對應 pdf 的頁數,+ 號代表縮排 20 Chapter 1 大章節 +21 1.1 小章節1 +26 1.2 小章節2 弄好後可用免費的 PDF-Xchange editor 把目錄中不小心插入的空白項目等移掉, PDF-Xchange editor 若只是刪除現有目錄中的項目是不會加浮水印的。 https://tinyurl.com/9w5swu33 自炊的電腦叢書抓圖。PDF 有目錄,文字沒有歪斜且清楚。旁邊很醜的字是個人閱讀用鉛 筆做的筆記,300dpi 下(我自己)還是能看懂寫什麼。 我也試了不少其他 App,包含中國製 Camscanner 掃描全能王,Adobe scan、Microsoft Lens 等但各有各的問題。 Camscanner 最好用,但有浮水印,電腦版還要你把資料傳上雲端,之前好像還爆發過資 安疑慮,MS Lens 發現 Android App 不能一次匯入大於一百張就放棄了。 花了一兩天,發現其實以裁書後用掃描器掃描的圖片品質,用 Imagemagick 搭 pipeline 做後處理就很夠用了。影像來源才是決定電子書品質的關鍵,影像來源太差, 例如用手機搭自拍支架拍照片,照片還有手指,不管後續用什麼軟體,得到的結果都是歪 七扭八又模糊。 當然買好點的機器也是解法,例如網路推薦的自炊神器富士通 Scansnap ix1500 除了掃 描速度更快,機器軟硬體好像還附贈更好的校正功能,說不定就不用自己土炮後處理 pipeline 了?但那台機器對只想「試試看」自炊的我太貴了,後來就算了。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.127.72.143 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/book/M.1627357569.A.DC7.html
sivle: 感覺很利害 07/27 13:17
in09: 感謝,我也用ImageMagick,根據你的文改進了些 07/27 15:08
hoho8: 推心得 07/27 16:47
warrenchen: 感謝分享,操作流程很詳盡 07/27 18:03
widec: 感覺很屌 07/27 19:32
hedgehogs: 推 07/27 21:09
not5566: 推 07/27 22:44
liquidbox: 07/28 14:28
zucca: 推 07/28 16:12
※ 編輯: d8888 (59.127.72.143 臺灣), 07/29/2021 19:07:09 ※ 編輯: d8888 (59.127.72.143 臺灣), 07/29/2021 19:07:46
hans1478: 自炊好厲害!! 07/30 09:29
c8c8c8c8c8c8: 07/30 10:49
viaggiatore: 推一個 07/30 12:55