[問題] 日文濁音問題

作者Ivudaisuki (イヴ大好き)

看板Python

標題[問題] 日文濁音問題

時間Wed Jul 21 19:07:45 2021

小弟是個剛接觸python不到一週的新手前天心血來潮我試著找網路上的影片寫了一個爬蟲程式我想設計一個比較字串的程式來確認檔案有沒有重複下載但當我用os.chdir()指令為資料夾的檔案建立一個list後只要出現日文濁音都會變成兩個編碼例如「が」在網頁上會是一個單字但資料夾檔案的list卻會是「か」和「、、」而在比較的時候就會把兩個字串視為不同例如「パンが好き」就會因為「パ」跟「が」導致電腦判斷錯誤網路爬文都沒有找到相關的問題只知道好像是不同系統對於濁音的處理方式不同但編碼又都是utf-8 請問有辦法把分開的濁音轉換成一個字嗎？謝謝 ----- Sent from JPTT on my iPad -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.43.250 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1626865667.A.7D7.html

推 Sylph: 半角的問題吧 07/21 23:13

推 ckc1ark: 可以參考 unicodedata.normalize('NFC', ...) 07/22 00:38

謝謝！我明天試試看 ※ 編輯: Ivudaisuki (220.133.43.250 臺灣), 07/22/2021 00:50:28

推 wangfake: 有 07/26 14:22

推 tonyscat: 推 07/30 18:15