作者Ivudaisuki (イヴ大好き)
看板Python
標題[問題] 日文濁音問題
時間Wed Jul 21 19:07:45 2021
小弟是個剛接觸python不到一週的新手
前天心血來潮
我試著找網路上的影片寫了一個爬蟲程式
我想設計一個比較字串的程式來確認檔案有沒有重複下載
但當我用os.chdir()指令為資料夾的檔案建立一個list後
只要出現日文濁音都會變成兩個編碼
例如「が」在網頁上會是一個單字
但資料夾檔案的list卻會是「か」和「、、」
而在比較的時候就會把兩個字串視為不同
例如「パンが好き」就會因為「パ」跟「が」
導致電腦判斷錯誤
網路爬文都沒有找到相關的問題
只知道好像是不同系統對於濁音的處理方式不同
但編碼又都是utf-8
請問有辦法把分開的濁音轉換成一個字嗎?
謝謝
-----
Sent from JPTT on my iPad
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.43.250 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1626865667.A.7D7.html
推 Sylph: 半角的問題吧 07/21 23:13
推 ckc1ark: 可以參考 unicodedata.normalize('NFC', ...) 07/22 00:38
謝謝!我明天試試看
※ 編輯: Ivudaisuki (220.133.43.250 臺灣), 07/22/2021 00:50:28
推 wangfake: 有 07/26 14:22
推 tonyscat: 推 07/30 18:15