[問題] 大型xml沒有根如何處理？

作者st1009 (前端攻城師)

看板Python

標題[問題] 大型xml沒有根如何處理？

時間Sun May 13 23:44:02 2018

各位大大晚安，不才想請教兩個問題<(_ _)> 我目前希望可以處理一份很巨大的xml，但是我手上的xml檔沒有樹根！經過測試我發現會報錯QAQQQ 我看到別人的解法好像是先把檔案開啟來，然後寫入樹根？但是我目前需要動態迭代，因為檔案很大，無法一次存入記憶體，我試著引用查到的程式碼，我的程式目前長如下網址 http://codepad.org/bPqMyuly 感覺好像不適合用那種open然後加入樹根的方式，不知道版上大大有好建議嘛？譬如怎麼跟著迭代動態寫入樹根？我的XML格式如下: <doc id="13" url="https:XXX" title="XX"> content 1 </doc> <doc id="15" url="https:XXX" title="XX"> content 2 </doc> 另外想問我希望搜尋文檔中xml的content，然後如果我的keyword有出現在content中，就回報我content的id，讓我知道哪些content中有出現我的keyword，我操作如下先把xml分析出id和content之後，存入MySQL資料庫，再藉由SELECT id FROM table WHERE content = "%keyword%" 找出哪些文章出現我的關鍵字這樣子的操作會有問題嘛？譬如MySQL會搜很慢之類的？如果有問題，我怎樣做比較好？ p.s我的關鍵字都是中文 -- 半壁河山半攻守半爭成敗半悟道許銀川 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.141.34 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1526226246.A.D68.html

→ ThxThx: 一行一行讀 05/14 01:43

→ ThxThx: 讀到close tag 就把累積的內容拿去parse 05/14 01:43

這樣聽起來，我需要自己用正規表達式判斷是不是close tag，不能用現成套件Q 不是很擅長正規表達式的說QAQ

→ s860134: 你的問題應該是在檔案太大，寫入 sql 很好阿 05/14 12:58

→ s860134: 後來網路上有人提示 etree.HTML 就可已爬沒 root 的 05/14 13:07

→ s860134: https://stackoverflow.com/a/23891862 05/14 13:07

→ s860134: 你直接當作 html 爬應該是沒什麼差 05/14 13:08

其實我有看到下面寫html，但是我試著導入HTML之後，進行迭代依舊出錯，所以在想是不是html版並無迭代功能，當然也可能是我自己用錯了>"<

推 subi: http://codepad.org/qw3YwJsx 不知道這樣字是不是你要的 05/14 20:35

待我研究一下此版本是否可以迭代運算，不然檔案太大會吃不下，要邊吃邊釋放

→ subi: 我覺得你應該搭配 generator 來寫,可以避免記憶體問題 05/14 21:11

好，我研究一下，html系列好像真的沒有iterparse函式，有沒有其他相應函式我不清楚... 我研究一下generator，剛剛直接執行，電腦差點當掉，還好我即時喊停>"< 不太清楚generator要如何搭配QAQQQ 您給予的程式在我稍做修改，加入正式大量數據時就會造成電腦當機當在執行soap = BeautifulSoup(file, "lxml") 我猜測再這一步運行時，就會需要將整個檔案導入，所以記憶體無法負荷，而generator好像是在這步之後的步驟？怪怪的剛剛想貼程式碼再測試時結果不一樣了，沒有當,但是只有輸出一筆然後soap = BeautifulSoup(fn, "lxml") 這邊卡了很久 http://codepad.org/iLwM633k # 阿阿，我崩潰了╯-____-)╯~═╩════╩═~ 開了很久，手動加上root結果還是爆了，這不是那麼乾淨的xml 直接把檔案丟上來好了... 我發現BeautifulSoup在比較小那份可以跑，但是他默默的沒有跑完就停了... 之後可能考慮真的一行一行讀吧 https://drive.google.com/drive/folders/ 1hWUIROmnJE-GuSxc2079JmRwMF-zbQ9g?usp=sharing 短網址:https://goo.gl/X2seS3

推 subi: http://codepad.org/wFYpWu6s 05/15 20:35

→ subi: 可以參考我上面貼的程式碼,檔案這麼大我覺得你用 lxml是對的 05/15 20:36

→ subi: 跑一會有 EntityRef: expecting ';', line 2603, column 60 05/15 20:37

→ subi: 這個你就自己解吧 XD 05/15 20:38

有大神遠端幫忙解好了，感謝您 <3 秉持互助原則把大神寫好的清理程式放上來 perl版 http://codepad.org/7BzB36yW python版 http://codepad.org/FNZmO1pD 希望以後可以幫到更多需要的人^^ (大神如果您覺得不合適可以叫我撤下) ※ 編輯: st1009 (1.163.154.100), 05/16/2018 23:07:09