看板 Python 關於我們 聯絡資訊
因工作需求 需要用讀取pdf上的表格 雖然試用過tabula,但其顯現的效果不太好 所以想嘗試換用pdfplumber 但在pip install pdfplumber的過程中遇到ERROR 看起來是UniDecodeError的問題 'cp950' codec can't decode byte 0xe2 in position 4981: illegal multibyte sequence 不知道如何pip 的時候解決這個問題..... 另外我的PYTHON是3.8 雖然上網GOOGLE過相關辦法 sys.setdefaultencoding("utf-8") 但上述辦法似乎在好幾個版本前就被拿掉 所以還想請問版上大大有成功安裝過pdfplumber的經驗分享 或我該如何解決這個問題 或是面臨稍微有點複雜的pdf表格,該如何讀取 說是複雜,其實他就是沒有明確的表格 只用空格來區隔 所以導致我用tabula時候會某A欄的資料跑到隔壁欄去 先謝謝願意看到這邊了解我問題的版友們 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.228.220.91 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1605683838.A.9B2.html
AndCycle: pip install UnicodeDecodeError #304 11/18 16:30
AndCycle: pdfplumber 的 bug, 才剛修 11/18 16:31
我剛有看了一下你說的那篇,他看起來5天前修好這個 但我今天安裝時候還是有問題.. 還是我應該退到3.7去安裝才行? ※ 編輯: jasonhsu14 (220.135.101.201 臺灣), 11/18/2020 19:46:30
noworneverev: 我Python是3.7.4 pdfplumber是0.5.21裝的時候沒有問 11/18 21:14
noworneverev: 題 之前要轉表格寫了個小工具可以給你參考 11/18 21:16
noworneverev: https://github.com/noworneverev/PDF2Excel 11/18 21:16
先謝謝樓上兩位回答 我Python3.8.3,後來改安裝0.5.21的版本是OK的 至於最新版的....我還是會出現UnicodeError錯誤QQ ※ 編輯: jasonhsu14 (61.228.220.91 臺灣), 11/19/2020 09:06:09
annheilong: Windows? 試試這篇 https://bit.ly/32ZNPul 11/19 17:47
annheilong: 下載後修改 setup.py 再用 pip 安裝 11/19 17:47
froce: 嗯...以前我會叫你去改安裝源碼,現在我會叫你用docker或是 11/21 15:16
froce: wsl2 11/21 15:16
froce: 然後win10 20H1以上應該在語言選項有一個使用unicode的beta 11/21 15:18
froce: 功能可以試試 11/21 15:18
x246libra: cp950噩夢啊,讓我轉linux的關鍵 11/29 09:12
x246libra: 非常煩的編碼問題,但沒有簡單肯定解法,浪費時間解這 11/29 09:15
x246libra: 種問題,會很不爽,而且不同套件,可能都會遇到一次 11/29 09:15