看板 Python 關於我們 聯絡資訊
前文吃光光 在cmd下看到的都是亂碼 無論用big5 utf-8 cp950去對number做decode或是encode都沒用 想請問怎麼會這樣呢? 是因為re無法處理中文嗎? 煩請大大們解惑 謝謝! cmd是指黑底的嗎?? 黑底的應該比較容易正常說 雖然都轉成unicode就沒事了 我測試直接urllib2抓網頁 有下面的結果 http://dl.dropbox.com/u/24628527/TEST.PNG
用unicode來看都還蠻正常的 ( 用str不正常就不提了... windows oooos) 然後我也用了re (想學一直沒空 我抄你的程式碼) 有以下的結果 http://dl.dropbox.com/u/24628527/test2.PNG
當然在黑底的cmd也是沒問題 上面是在 windows xp python 2.5.4 測試的 蠻好奇你怎麼抓不出來@_@a -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.231.27.129
suzuke:先說你是在哪個系統做吧? windows or linux 11/01 00:19
KSJ:推樓上XD 11/01 00:26
pm2002:應該是windows吧,cmd下unicode會是亂碼沒錯 11/01 02:21
不好意思忘記講 我是用windows XP python 2.5
cobrasgo:我猜是text editor的關係 11/01 03:47
我是用notepad++ 請問text editor如何影響這部份呢?
NolandTA:先encode成latin再decode成cp950試試看 11/01 10:40
不行耶 用latin去encode會失敗 ※ 編輯: poopoo888888 來自: 218.166.198.127 (11/01 19:24)
KSJ:我用WINDOW7 Python2.5.4 urllib2 在cmd下正常 idle下亂碼 11/01 21:57
KSJ:可是decode("big5","ignore") 就可以了 你要不要試試? 11/01 21:58
KSJ:再問一下 是只要是中文都亂碼?? 11/01 22:10
很謝謝你 但出來還是亂碼耶 只有抓這個網頁是亂碼 其他地方的中文都沒問題 ※ 編輯: poopoo888888 來自: 61.231.27.37 (11/02 19:10) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.63.202