→ ThxThx: 一行一行讀 05/14 01:43
→ ThxThx: 讀到close tag 就把累積的內容拿去parse 05/14 01:43
這樣聽起來,我需要自己用正規表達式判斷是不是close tag,不能用現成套件Q
不是很擅長正規表達式的說QAQ
→ s860134: 你的問題應該是在檔案太大,寫入 sql 很好阿 05/14 12:58
→ s860134: 後來網路上有人提示 etree.HTML 就可已爬沒 root 的 05/14 13:07
→ s860134: 你直接當作 html 爬應該是沒什麼差 05/14 13:08
其實我有看到下面寫html,但是我試著導入HTML之後,進行迭代依舊出錯,
所以在想是不是html版並無迭代功能,當然也可能是我自己用錯了>"<
待我研究一下此版本是否可以迭代運算,不然檔案太大會吃不下,要邊吃邊釋放
→ subi: 我覺得你應該搭配 generator 來寫,可以避免記憶體問題 05/14 21:11
好,我研究一下,html系列好像真的沒有iterparse函式,
有沒有其他相應函式我不清楚...
我研究一下generator,剛剛直接執行,電腦差點當掉,還好我即時喊停>"<
不太清楚generator要如何搭配QAQQQ
您給予的程式在我稍做修改,加入正式大量數據時就會造成電腦當機
當在執行soap = BeautifulSoup(file, "lxml")
我猜測再這一步運行時,就會需要將整個檔案導入,所以記憶體無法負荷,
而generator好像是在這步之後的步驟?
怪怪的剛剛想貼程式碼再測試時結果不一樣了,沒有當,但是只有輸出一筆
然後soap = BeautifulSoup(fn, "lxml") 這邊卡了很久
http://codepad.org/iLwM633k
#
阿阿,我崩潰了╯-____-)╯~═╩════╩═~
開了很久,手動加上root結果還是爆了,這不是那麼乾淨的xml
直接把檔案丟上來好了...
我發現BeautifulSoup在比較小那份可以跑,但是他默默的沒有跑完就停了...
之後可能考慮真的一行一行讀吧
https://drive.google.com/drive/folders/
1hWUIROmnJE-GuSxc2079JmRwMF-zbQ9g?usp=sharing
短網址:https://goo.gl/X2seS3
→ subi: 可以參考我上面貼的程式碼,檔案這麼大我覺得你用 lxml是對的 05/15 20:36
→ subi: 跑一會有 EntityRef: expecting ';', line 2603, column 60 05/15 20:37
→ subi: 這個你就自己解吧 XD 05/15 20:38
有大神遠端幫忙解好了,感謝您 <3
秉持互助原則把大神寫好的清理程式放上來
perl版 http://codepad.org/7BzB36yW
python版 http://codepad.org/FNZmO1pD
希望以後可以幫到更多需要的人^^
(大神如果您覺得不合適可以叫我撤下)
※ 編輯: st1009 (1.163.154.100), 05/16/2018 23:07:09