看板 Python 關於我們 聯絡資訊
小弟是個剛接觸python不到一週的新手 前天心血來潮 我試著找網路上的影片寫了一個爬蟲程式 我想設計一個比較字串的程式來確認檔案有沒有重複下載 但當我用os.chdir()指令為資料夾的檔案建立一個list後 只要出現日文濁音都會變成兩個編碼 例如「が」在網頁上會是一個單字 但資料夾檔案的list卻會是「か」和「、、」 而在比較的時候就會把兩個字串視為不同 例如「パンが好き」就會因為「パ」跟「が」 導致電腦判斷錯誤 網路爬文都沒有找到相關的問題 只知道好像是不同系統對於濁音的處理方式不同 但編碼又都是utf-8 請問有辦法把分開的濁音轉換成一個字嗎? 謝謝 ----- Sent from JPTT on my iPad -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.43.250 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1626865667.A.7D7.html
Sylph: 半角的問題吧 07/21 23:13
ckc1ark: 可以參考 unicodedata.normalize('NFC', ...) 07/22 00:38
謝謝!我明天試試看 ※ 編輯: Ivudaisuki (220.133.43.250 臺灣), 07/22/2021 00:50:28
wangfake: 有 07/26 14:22
tonyscat: 推 07/30 18:15