作者coeric ( )
看板Python
標題[問題] 爬蟲遇到不預期的錯誤
時間Thu Apr 13 10:55:01 2017
我大多是在爬很多店家的店名、地址、電話這三樣東西
(如果有經緯度最好,不然我還得靠地址去轉換)
但很常遇到地址很莫名其妙的.....
例如:台中市豐原市XX路XX號
因為我需要從地址去萃取出行政區,卻遇到這種鳥地址
雖然是少數...但狀況百百種
或是 台中市豐原區42060XX路XX號 =>硬是突然中間出現一個郵遞區號
不然就乾脆 連行政區直接整個不見.....
各位大大是如何處理的?當成個案,在code裡面處理掉?
有人遇過更莫名其妙的狀況嗎?
------------------------------
更新:
剛剛遇到的新問題
http://imgur.com/a/0qheG
都撈到完整的json資料,也給了座標
卻突然出現另一種座標格式.........在塞資料庫時,剛好眼睛瞄到....
是有沒有那麼雞婆,還幫忙轉換座標格式
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 106.105.74.70
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1492052105.A.462.html
→ uranusjr: 這要完美處理只能做 lexical analysis, 通俗講就是做個 04/13 11:14
→ uranusjr: compiler (的語法樹部分), 有興趣可以研究 compiler 是 04/13 11:14
→ uranusjr: 怎麼寫的, 但如果不是什麼大專案這有點太搞剛 XD 04/13 11:15
推 Yshuan: 地址這種有特定關鍵字的 建議不要把順序寫死 04/13 11:54
→ bibo9901: 簡單做法就是 PCFG, 04/13 12:25
※ 編輯: coeric (101.12.23.147), 04/13/2017 14:48:02
→ s860134: 你先把能處理、不能處理的 case 分離出來,再去不能分離 04/14 00:08
→ s860134: 的 case 裡面找共通,反正清理資料都嘛是這樣 04/14 00:09