作者wanget ()
看板Python
標題[問題] 從資料庫讀取中文亂碼及空值如何進資料庫
時間Sat May 12 01:36:14 2018
最近想要把csv檔或是網路上的檔案連結直接寫進資料庫,感覺終於到了最後一步 卻翻遍
了google都解決不了問題
環境是pythob 3.6.1 ,anaconda 4.4.0
我在jupyter notebook下執行,使用pyodbc連接MySQL
資料來源是網址或是csv檔,我比較習慣用pandas來處理資料
這是我連接資料庫的方法
cn = pyodbc.connect("DRIVER={MySQL ODBC 8.0 ANSI Driver}; SERVER=localhost;
PORT=3306;DATABASE=db; UID=root; PASSWORD=0000;OPTION=3;CHARSET=UTF8;")
cn.setencoding(encoding='utf-8')
這行也不需要了
[解決方法]:
DRIVER 需選擇 Unicode 的版本,從Python連接資料庫取出資料才不會變成亂碼
我不太確定在.connect下放CHARSET=UTF8; 和設定.setencoding(encoding='utf-8')有什
麼不一樣,但是只要少放一個,在insert into時如果有中文,jupyter notebook就會卡
住,都要shutdown kernel再重開才能繼續
現在有個問題就是 我可以順利的新增含有中文的資料到資料庫了,而且在MySQL中select
出來是中文,但是到了python就會變成亂碼,請問我該怎麼解決?
https://imgur.com/a/1yL0qxW
還有個問題就是,我的資料裡面有空值,我寫了個迴圈 配合 .format,讓他逐行新增資
料,但是空值讀出來是nan,沒辦法新增
如果是數字欄位的話,我可以把nan轉成NULL,新增進MySQL就可以是空的,但是如果是文
字的欄位,新增的時候會變成'NULL'而不是空值了
因為我用這樣的形式新增資料
for i in df1.index:
cursor.execute("insert into taichung_201711 values('{}', {});" \
.format(df1.loc[i][6], df1.loc[i][7]))
如果是字串的欄位,一開始就給他''了,要是把NaN改成NULL,就會變成'NULL'進資料庫
有方法可以直接把空值存進MySQL嗎?
這裡我還是把空值都轉成 'NULL'進資料庫,之後調資料出來再轉回nan,
目前都用DataFrame處理資料 還沒發生問題
懇請各位大大指教了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.242.11.7
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1526060186.A.017.html
→ uranusjr: 聽起來你 MySQL 本身的編碼就沒設對 05/12 09:36
→ wanget: MySQL編碼是 utf8md4 應該沒有問題 05/12 13:54
→ wanget: 還是要改成utf8呢? 05/12 13:55
→ wanget: 今天發現了新問題,MySQL中只是看起來是中文,但要查詢時 05/13 15:52
→ wanget: 卻查不出來 05/13 15:52
→ wanget: 又來更新問題: MySQL可以正常查詢 我之前搞錯了 05/13 21:26
→ uranusjr: 實在不太熟 ODBC 不確定問題在哪, 不過直覺還是覺得和資 05/13 22:10
→ uranusjr: 料庫設定有關, 可能要確定你的 table 真的是用 UTF-8 建 05/13 22:10
→ uranusjr: 不過 utf8md4 是正確的沒錯, 千萬不要用 utf8 05/13 22:10
→ wanget: 開頭都是utf8但後面不太一樣,可是不管哪種 在python都是 05/13 23:02
→ wanget: 亂碼,我這次是在MySQL中建表 順便設定collation 05/13 23:02
→ uranusjr: 你查的是資料庫的預設編碼, 和表的不見得一樣, 不過聽你 05/14 16:25
→ uranusjr: 的測試法應該是有建新表, 那麼應該是用這些沒錯 (希望) 05/14 16:25
→ uranusjr: 這樣最可能的兩個問題就是 1. 進去的編碼不對 2. 讀出來 05/14 16:27
→ uranusjr: 後印到螢幕上的結果不對; 你需要想辦法用 binary 把資料 05/14 16:27
→ uranusjr: 庫裡的值印出來, 比對它是不是真的是正確的編碼結果 05/14 16:28
→ wanget: 應該是表的編碼嗎? 從MySQL新增資料查詢都沒問題,到了py 05/15 16:53
→ wanget: thon才有問題,問題會是出在連線嗎? 我換個套件測試看看 05/15 16:54
→ wanget: 進去的編碼不對,和用binary把值印出來 我google還是不會 05/15 16:55
→ wanget: 解決。 不過還是謝謝uranusjr大大的回覆 05/15 16:55
→ wanget: 我把中文欄位拿出來.encode('utf8') 發現他是bytes的形式 05/15 20:53
→ wanget: 我改用pymysql連接資料庫後,可以正常的顯示中文了! 我 05/16 00:01
→ wanget: 想可能是pyodbc的問題 05/16 00:01
※ 編輯: wanget (111.242.1.76), 05/23/2018 16:04:24