推 AstralBrain:只想得到utf32 體積會變兩倍大就是了XD 09/26 00:27
utf32 不行耶...
python2
>>> u'\ud800\udc00'.encode('utf32')
'\xff\xfe\x00\x00\x00\x00\x01\x00'
python3
>>> u'\ud800\udc00'.encode('utf32')
b'\xff\xfe\x00\x00\x00\xd8\x00\x00\x00\xdc\x00\x00'
推 AstralBrain:咦 我的python 2.7.4和3.3.1都是出現下面那串 09/26 00:45
應該是字元寬度的關係,windows python2 預設 ucs2,python3 則是 ucs4
推 AstralBrain:是說不合法字元出現未定義行為也不意外.. 09/26 00:49
→ uranusjr:utf8 就可以了, 因為 Python 的 UTF-8 編碼無視保留區... 09/26 00:51
→ uranusjr:我在 OS X 上的結果和原 po 一樣, 應該是某個版本 fix 過 09/26 00:55
推 AstralBrain:我把u'\ud800\udc00'先encode('utf8')再decode回來 09/26 00:56
→ AstralBrain:結果變成u'\U00010000' 09/26 00:57
所以很難搞...基本上那轉換結果也不能說錯,可是就會出現
s.encode('utf-8').decode('utf-8') != s 這種不直覺的東西
→ uranusjr:喔我發現 3.3 的 utf8 把 surrogate 擋掉了, GG XD 09/26 00:58
→ uranusjr:這樣看來是不可能了, 自己土炮一個轉換表吧 09/26 01:00
土炮有效能問題,自從用了 python,就再也沒再裝過 c++ 了 XD
目前是 utf-7 頂著用,他們似乎不認為 utf-7 編的是文字所以沒擋 surrogate
不過遇到像上面舉的那個例子一樣會爆炸 orz...
推 AstralBrain:翻了文件發現有unicode_internal這怪東西可以用 09/26 01:12
→ AstralBrain:試試看u'\ud800\udc00'.encode('unicode_internal') 09/26 01:12
這個一樣有可能會出現不直覺的結果
python3
>>> s = u'\ud800\udc00'
>>> s.encode('unicode_internal')
b'\x00\xd8\x00\xdc'
>>> s.encode('unicode_internal').decode('unicode_internal')
'\U00010000\x27'
>>> s.encode('unicode_internal').decode('unicode_internal') == s
False
推 AstralBrain:又是OS的差異嗎orz 那我就沒辦法了XD 09/26 01:31
其實跟 OS 沒啥關係啦...
→ uranusjr:其實我突然有個疑問, 你是要拿來幹什麼用... 09/26 10:49
→ uranusjr:如果只是要存起來或傳輸的話, 直接把 Unicode string 09/26 10:50
→ uranusjr:pickle 起來不行嗎? 09/26 10:50
是要拿來傳輸沒錯,想要在 python3 使用一些只有 python2 才有的 module
pickle 在 python2 跟 python3 本來就不通用啊
→ uranusjr:Python 官方文件有說 Python 3 可以用舊一點的 protocol 09/26 14:36
→ uranusjr:來 pickle 就會相容了啊... 09/26 14:36
雖然官方文件那樣寫,但實際上並沒那麼美好
像是 datetime.datetime 這種內建物件就不相容
上面舉例的 u'\ud800\udc00' 這種不合法字串也不相容
我問這個問題就是要用在自己寫的 pickle 裡面的 XD
→ uranusjr:原來如此, 這樣我真的沒招了 orz 09/26 18:04
→ s860134:用json.dumps和json.loads 能符合要求嗎?? 09/27 19:16
很遺憾,還是不行耶...
→ s860134:我還是不太懂 因為實際上我把 s=='\ud800\udc00' 是TRUE 09/28 09:09
在 python2 跟 python3 底下,這本來就都沒問題呀
>>> s = u'\ud800\udc00'
>>> s == u'\ud800\udc00'
True
→ s860134:而且我在Python3上 他不准我用 u'\ud800\udc00' 09/28 09:10
不准是指?如果是指不能 encode,那是因為某些編碼(如 utf-8)有檔 surrogates
※ 編輯: os653 來自: 114.46.115.224 (09/28 19:15)
→ uranusjr:Python 3.3 之前的 Python 3 版本無法使用 u'' literal 09/28 20:39
→ uranusjr:他應該是在說這個 (見 PEP 414) 09/28 20:39