作者tentenlee (天天)
看板Python
標題[問題] ptt發文的 uao encode
時間Sat Mar 11 04:17:52 2017
因為常駐在很常使用日文的板
想說寫個程式來自動發文
如果都是中文那當然沒問題,直接encode('big5')就好了
一些平假名也可以用encode('big5hkscs') 也可以處裡。
問題是現在用big5hkscs,全形符號無解,一些日本漢字(礼 恵 児)也無解。
找來找去 有找到uao_decode.py 但這只有decode
https://gist.github.com/andycjw/5617496
也有找到說有big5uao.py的程式,內有encode但是run下去,一堆文字都解不出來。
比big5hkscs還慘
https://github.com/yehnan/python_book_yehnan/blob/master/ch07/big5uao.py
找了好久都找不到... 有沒有人可以給我點提示呀... 感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.132.180.49
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1489177079.A.B9D.html
→ s860134: 你怎用 big5uao encode? 應該是可以成功 decode 喔 03/11 10:18
→ tentenlee: 這是抓文章吧? 我是指發文 03/11 16:33
→ s860134: 簡單來說就是要把原本的utf-8 轉回來 03/11 18:55
→ s860134: 把 uao_decode.py 中的 decoding_map 倒過來 03/11 18:56
→ s860134: 之後照著他的 decode 依樣畫葫蘆 03/11 18:56
→ tentenlee: 感謝樓上 成功了。 03/11 21:28
推 eight0: 我記得 unicode 轉 UAO 是多對一的 03/11 21:54
推 s860134: 至少我用的這份 mapping 確實有多對一,有 466 個重複 03/11 22:14
→ blc: ptt有utf8的界面… 03/14 15:10
→ tentenlee: 因為內文有色碼 utf8轉過去會失敗..所以放棄這方向 03/14 17:33