作者ansi54 (笑笑生)
看板Python
標題[問題] 網路爬蟲後的資料分析
時間Wed Dec 2 14:35:50 2015
大家好
小弟近來自學python的網路爬蟲
抓取網頁的html檔後用beautifulsoup資料分析
我的目的在於要抓取關鍵字搜索後的資料(一頁有50筆)
目前發現一個問題無法解決(也google不到)
因為我要抓的網頁資料在原始碼上的編排有做手腳
我要抓的title它有些是編排為: "標題"
有些是:"標題
"
因為這個雙引號位置的關係,使得我抓出來的資料編排就不一致
請問各位先進 我要如何修改我的程式才能讓我抓出來的資料編排一致?
謝謝
小弟的程式如下:
for item in range (0, 50):
title = soup.findAll('a',{'class':'t'})[item].get_text().strip()
date_t = soup.findAll('span',{'class':'date'})[item].get_text()
print date_t,".",title
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.197.38
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1449038152.A.43F.html
推 Slimlife: Did you try regexp already? 12/02 20:14
→ ansi54: not yet, but I'll try it. THX. 12/03 09:12
→ Ziom: 有時某些空格用strip()也消不掉 可以試"".join(s.split()) 12/03 22:50
→ Ziom: 其中s是你要拆解的string 12/03 22:50
→ ansi54: 謝謝z大 我會試試看的 感謝 12/04 09:05