看板 Python 關於我們 聯絡資訊
想讓 python2 跟 python3 的程式交換資料,但在 unicode 這部分遇到點麻煩 請問有沒有 codec 能符合下列條件? 1. 能將字元範圍從 \u0000 ~ \uFFFF 的 unicode 字串轉成 bytes 再轉回 unicode 且不會出錯或遺失資料 2. 在 python2 和 python3 下,同樣的 unicode 字串編碼後得到的 bytes 結果相同 3. 在 python2 和 python3 下,同樣的 bytes 解碼後得到的 unicode 結果相同 4. 速度快且編碼後的 bytes 體積小 舉例來說,u'\ud800\udc00' 這段字串因為不是合法的 unicode 編解碼上就會出現各種奇怪的問題,不曉得有沒有解? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.46.145.28
AstralBrain:只想得到utf32 體積會變兩倍大就是了XD 09/26 00:27
utf32 不行耶... python2 >>> u'\ud800\udc00'.encode('utf32') '\xff\xfe\x00\x00\x00\x00\x01\x00' python3 >>> u'\ud800\udc00'.encode('utf32') b'\xff\xfe\x00\x00\x00\xd8\x00\x00\x00\xdc\x00\x00'
AstralBrain:咦 我的python 2.7.4和3.3.1都是出現下面那串 09/26 00:45
應該是字元寬度的關係,windows python2 預設 ucs2,python3 則是 ucs4
AstralBrain:是說不合法字元出現未定義行為也不意外.. 09/26 00:49
uranusjr:utf8 就可以了, 因為 Python 的 UTF-8 編碼無視保留區... 09/26 00:51
uranusjr:我在 OS X 上的結果和原 po 一樣, 應該是某個版本 fix 過 09/26 00:55
AstralBrain:我把u'\ud800\udc00'先encode('utf8')再decode回來 09/26 00:56
AstralBrain:結果變成u'\U00010000' 09/26 00:57
所以很難搞...基本上那轉換結果也不能說錯,可是就會出現 s.encode('utf-8').decode('utf-8') != s 這種不直覺的東西
uranusjr:喔我發現 3.3 的 utf8 把 surrogate 擋掉了, GG XD 09/26 00:58
uranusjr:這樣看來是不可能了, 自己土炮一個轉換表吧 09/26 01:00
土炮有效能問題,自從用了 python,就再也沒再裝過 c++ 了 XD 目前是 utf-7 頂著用,他們似乎不認為 utf-7 編的是文字所以沒擋 surrogate 不過遇到像上面舉的那個例子一樣會爆炸 orz...
AstralBrain:翻了文件發現有unicode_internal這怪東西可以用 09/26 01:12
AstralBrain:試試看u'\ud800\udc00'.encode('unicode_internal') 09/26 01:12
這個一樣有可能會出現不直覺的結果 python3 >>> s = u'\ud800\udc00' >>> s.encode('unicode_internal') b'\x00\xd8\x00\xdc' >>> s.encode('unicode_internal').decode('unicode_internal') '\U00010000\x27' >>> s.encode('unicode_internal').decode('unicode_internal') == s False
AstralBrain:又是OS的差異嗎orz 那我就沒辦法了XD 09/26 01:31
其實跟 OS 沒啥關係啦...
uranusjr:其實我突然有個疑問, 你是要拿來幹什麼用... 09/26 10:49
uranusjr:如果只是要存起來或傳輸的話, 直接把 Unicode string 09/26 10:50
uranusjr:pickle 起來不行嗎? 09/26 10:50
是要拿來傳輸沒錯,想要在 python3 使用一些只有 python2 才有的 module pickle 在 python2 跟 python3 本來就不通用啊
uranusjr:Python 官方文件有說 Python 3 可以用舊一點的 protocol 09/26 14:36
uranusjr:來 pickle 就會相容了啊... 09/26 14:36
雖然官方文件那樣寫,但實際上並沒那麼美好 像是 datetime.datetime 這種內建物件就不相容 上面舉例的 u'\ud800\udc00' 這種不合法字串也不相容 我問這個問題就是要用在自己寫的 pickle 裡面的 XD
uranusjr:原來如此, 這樣我真的沒招了 orz 09/26 18:04
s860134:用json.dumps和json.loads 能符合要求嗎?? 09/27 19:16
很遺憾,還是不行耶...
s860134:我還是不太懂 因為實際上我把 s=='\ud800\udc00' 是TRUE 09/28 09:09
在 python2 跟 python3 底下,這本來就都沒問題呀 >>> s = u'\ud800\udc00' >>> s == u'\ud800\udc00' True
s860134:而且我在Python3上 他不准我用 u'\ud800\udc00' 09/28 09:10
不准是指?如果是指不能 encode,那是因為某些編碼(如 utf-8)有檔 surrogates ※ 編輯: os653 來自: 114.46.115.224 (09/28 19:15)
uranusjr:Python 3.3 之前的 Python 3 版本無法使用 u'' literal 09/28 20:39
uranusjr:他應該是在說這個 (見 PEP 414) 09/28 20:39