看板 Python 關於我們 聯絡資訊
大家好 小弟近來自學python的網路爬蟲 抓取網頁的html檔後用beautifulsoup資料分析 我的目的在於要抓取關鍵字搜索後的資料(一頁有50筆) 目前發現一個問題無法解決(也google不到) 因為我要抓的網頁資料在原始碼上的編排有做手腳 我要抓的title它有些是編排為: "標題" 有些是:"標題 " 因為這個雙引號位置的關係,使得我抓出來的資料編排就不一致 請問各位先進 我要如何修改我的程式才能讓我抓出來的資料編排一致? 謝謝 小弟的程式如下: for item in range (0, 50): title = soup.findAll('a',{'class':'t'})[item].get_text().strip() date_t = soup.findAll('span',{'class':'date'})[item].get_text() print date_t,".",title -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.197.38 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1449038152.A.43F.html
Slimlife: Did you try regexp already? 12/02 20:14
ansi54: not yet, but I'll try it. THX. 12/03 09:12
Ziom: 有時某些空格用strip()也消不掉 可以試"".join(s.split()) 12/03 22:50
Ziom: 其中s是你要拆解的string 12/03 22:50
ansi54: 謝謝z大 我會試試看的 感謝 12/04 09:05