看板 Python 關於我們 聯絡資訊
各位大大晚安,不才想請教兩個問題<(_ _)> 我目前希望可以處理一份很巨大的xml,但是我手上的xml檔沒有樹根! 經過測試我發現會報錯QAQQQ 我看到別人的解法好像是先把檔案開啟來,然後寫入樹根? 但是我目前需要動態迭代,因為檔案很大,無法一次存入記憶體, 我試著引用查到的程式碼,我的程式目前長如下網址 http://codepad.org/bPqMyuly 感覺好像不適合用那種open然後加入樹根的方式,不知道版上大大有好建議嘛? 譬如怎麼跟著迭代動態寫入樹根? 我的XML格式如下: <doc id="13" url="https:XXX" title="XX"> content 1 </doc> <doc id="15" url="https:XXX" title="XX"> content 2 </doc> 另外想問我希望搜尋文檔中xml的content,然後如果我的keyword有出現在content中, 就回報我content的id,讓我知道哪些content中有出現我的keyword, 我操作如下 先把xml分析出id和content之後,存入MySQL資料庫, 再藉由SELECT id FROM table WHERE content = "%keyword%" 找出哪些文章出現我的關鍵字 這樣子的操作會有問題嘛?譬如MySQL會搜很慢之類的? 如果有問題,我怎樣做比較好? p.s我的關鍵字都是中文 -- 壁河山攻守 爭成敗悟道 許銀川 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.141.34 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1526226246.A.D68.html
ThxThx: 一行一行讀 05/14 01:43
ThxThx: 讀到close tag 就把累積的內容拿去parse 05/14 01:43
這樣聽起來,我需要自己用正規表達式判斷是不是close tag,不能用現成套件Q 不是很擅長正規表達式的說QAQ
s860134: 你的問題應該是在檔案太大,寫入 sql 很好阿 05/14 12:58
s860134: 後來網路上有人提示 etree.HTML 就可已爬沒 root 的 05/14 13:07
s860134: https://stackoverflow.com/a/23891862 05/14 13:07
s860134: 你直接當作 html 爬應該是沒什麼差 05/14 13:08
其實我有看到下面寫html,但是我試著導入HTML之後,進行迭代依舊出錯, 所以在想是不是html版並無迭代功能,當然也可能是我自己用錯了>"<
subi: http://codepad.org/qw3YwJsx 不知道這樣字是不是你要的 05/14 20:35
待我研究一下此版本是否可以迭代運算,不然檔案太大會吃不下,要邊吃邊釋放
subi: 我覺得你應該搭配 generator 來寫,可以避免記憶體問題 05/14 21:11
好,我研究一下,html系列好像真的沒有iterparse函式, 有沒有其他相應函式我不清楚... 我研究一下generator,剛剛直接執行,電腦差點當掉,還好我即時喊停>"< 不太清楚generator要如何搭配QAQQQ 您給予的程式在我稍做修改,加入正式大量數據時就會造成電腦當機 當在執行soap = BeautifulSoup(file, "lxml") 我猜測再這一步運行時,就會需要將整個檔案導入,所以記憶體無法負荷, 而generator好像是在這步之後的步驟? 怪怪的剛剛想貼程式碼再測試時結果不一樣了,沒有當,但是只有輸出一筆 然後soap = BeautifulSoup(fn, "lxml") 這邊卡了很久 http://codepad.org/iLwM633k # 阿阿,我崩潰了╯-____-)╯~═╩════╩═~ 開了很久,手動加上root結果還是爆了,這不是那麼乾淨的xml 直接把檔案丟上來好了... 我發現BeautifulSoup在比較小那份可以跑,但是他默默的沒有跑完就停了... 之後可能考慮真的一行一行讀吧 https://drive.google.com/drive/folders/ 1hWUIROmnJE-GuSxc2079JmRwMF-zbQ9g?usp=sharing 短網址:https://goo.gl/X2seS3
subi: http://codepad.org/wFYpWu6s 05/15 20:35
subi: 可以參考我上面貼的程式碼,檔案這麼大我覺得你用 lxml是對的 05/15 20:36
subi: 跑一會有 EntityRef: expecting ';', line 2603, column 60 05/15 20:37
subi: 這個你就自己解吧 XD 05/15 20:38
有大神遠端幫忙解好了,感謝您 <3 秉持互助原則把大神寫好的清理程式放上來 perl版 http://codepad.org/7BzB36yW python版 http://codepad.org/FNZmO1pD 希望以後可以幫到更多需要的人^^ (大神如果您覺得不合適可以叫我撤下) ※ 編輯: st1009 (1.163.154.100), 05/16/2018 23:07:09