看板 Python 關於我們 聯絡資訊
第一次來這裡問問題,請各位板友指教! 其實我猜這大概不是python本身的問題... 環境:Windows 8.1 64-bit,非unicode編碼是繁中 Python 3.4.1 (Anaconda 2.1.0 64-bit) 文字檔編輯器試過notepad和notepad++,都有記得指定utf-8編碼 如果我在interpreter下面直接打 s = '中文測試' 這樣一切都很好,python 3直接認得unicode,我要 s[0] 它就給我 '中',等等。 但是如果我另外存一個 test.txt,內容一樣只有 中文測試 四個字,然後做 f = open('test.txt') s = f.read() 只會吃到這個exception: UnicodeDecodeError: 'cp950' codec can't decode byte 0xe6 in position 6: illegal multibyte sequence 請大家開始隔空抓藥,謝謝! -- 你喜歡下列哪一個學妹? 1. 雖然吉他彈得比學姊好,在樂團裡卻甘願只當個副手 2. 擁有夏天一到必然黑化的體質,連同學好友都認不出來 3. 雖然嘴巴很嚴厲,但只要用甜點就可以收買,尤其喜歡鯛魚燒 4. 討厭學姊給她取的奇怪綽號,卻給小貓取了同一個名字 5. 極力維持自己嚴肅的形象,但是一戴上貓耳就會不自覺喵喵叫 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.110.141.102 ※ 文章網址: http://www.ptt.cc/bbs/Python/M.1412756706.A.390.html
uranusjr: 不是 Python 認不得, 是 command prompt 認不得 10/08 16:32
command line interpreter直接輸入中文沒問題,是讀檔才有問題
elleryq: 你需要codecs模組,請閱讀http://tinyurl.com/lsxfad3 10/08 16:33
※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:34:14 等下,我發現問題了...為什麼python會去用cp950(就是big5)解碼中文字? 然後我照樓上說的, r = codecs.getreader('utf8')(f) r.read() 照樣給我那個cp950不識字的exception。 ※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:52:16
os653: 要指定open的參數encoding呀... 10/08 16:43
f = open('test.txt', encoding = 'utf8') 這樣就好了。 書上說預設就是utf-8啊!跟說好的不一樣(大哭)(滾) ※ 編輯: wohtp (123.110.141.102), 10/08/2014 16:55:26
alibuda174: open的encoding會因平台不同而不同 10/08 17:00
現在變成讀得進去顯示不出來: s = f.read() 這個過去了 print(s) 同一個exception。為什麼這麼愛用cp950! ※ 編輯: wohtp (123.110.141.102), 10/08/2014 17:05:34
os653: 別打print(s),打s看結果,還有notepad存的是utf-8-sig 10/08 17:11
有讀進去了。直接打s會echo '\ufeff中文測試' 所以我終於懂了,一切還是源自Windows對big5病態的愛 orz 不能print()很麻煩耶,這樣要怎麼debug? ※ 編輯: wohtp (123.110.141.102), 10/08/2014 17:19:56
alibuda174: print會輸出到sys.stdout 而它的encoding可能是cp950 10/08 17:37
alibuda174: 可以把sys.stdout的encoding換掉 10/08 17:39
alibuda174: 或是把讀進來的字串 轉換它的encoding 10/08 17:39
alibuda174: 或是一開始就把檔案儲存成cp950的encoding 10/08 17:40
os653: 那個\ufeff就是叫你用utf-8-sig,還有這跟Windows沒啥關係 10/08 17:56
我整理一下現在的狀況: 1. 至少在我這台win8機器上面,open()需要encoding = 'utf8'才能正常 讀取/輸入unicode 2. 不管是cmd.exe還是windows powershell,用print()顯示unicode的問 題千錯萬錯都是windows的錯 http://bugs.python.org/issue1602 3. 有workaround,我還沒試 https://github.com/Drekin/win-unicode-console (我還不會在Anaconda上面裝東西呢 -_-) ※ 編輯: wohtp (123.110.141.102), 10/08/2014 19:01:42
os653: 那個...我意思是用encoding='utf-8-sig',你應該就能print 10/08 19:37
os653: 如果不用其他國家的語言(或混用coding),理論上都能print 10/08 19:39
感謝樓上 <(_ _)><(_ _)><(_ _)> notepad或notepad++的utf-8編碼文件: open('filename', encoding = 'utf-8-sig') 這樣讀寫顯示都可以 notepad++的utf-8 without BOM文件: open('filename', encoding = 'utf8') 一樣可以讀寫顯示 可是這BOM,果然千錯萬錯還是windows的錯! ※ 編輯: wohtp (123.110.141.102), 10/08/2014 20:18:42 ※ 編輯: wohtp (123.110.141.102), 10/08/2014 20:19:20
alibuda174: 推os653,thanks. 10/08 22:39
ccwang002: 補充一下,如果是英文系統應該是無法正確顯示字 10/08 23:54
ccwang002: 但它印出的 □ 在其他程式貼上能顯示 (powershell) 10/08 23:56
zerof: windows command 預設是 950 10/09 17:28