[問題] 網路爬蟲後的資料分析

作者ansi54 (笑笑生)

看板Python

標題[問題] 網路爬蟲後的資料分析

時間Wed Dec 2 14:35:50 2015

大家好小弟近來自學python的網路爬蟲抓取網頁的html檔後用beautifulsoup資料分析我的目的在於要抓取關鍵字搜索後的資料（一頁有50筆）目前發現一個問題無法解決（也google不到）因為我要抓的網頁資料在原始碼上的編排有做手腳我要抓的title它有些是編排為： "標題" 有些是："標題 " 因為這個雙引號位置的關係，使得我抓出來的資料編排就不一致請問各位先進我要如何修改我的程式才能讓我抓出來的資料編排一致？謝謝小弟的程式如下： for item in range (0, 50): title = soup.findAll('a',{'class':'t'})[item].get_text().strip() date_t = soup.findAll('span',{'class':'date'})[item].get_text() print date_t,"．",title -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.197.38 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1449038152.A.43F.html

推 Slimlife: Did you try regexp already? 12/02 20:14

→ ansi54: not yet, but I'll try it. THX. 12/03 09:12

→ Ziom: 有時某些空格用strip()也消不掉可以試"".join(s.split()) 12/03 22:50

→ Ziom: 其中s是你要拆解的string 12/03 22:50

→ ansi54: 謝謝z大我會試試看的感謝 12/04 09:05