[問題] 台銀網頁爬蟲

作者fealing (fealing)

看板Python

標題[問題] 台銀網頁爬蟲

時間Fri Apr 14 17:55:10 2017

各位前輩大家好最近練習爬蟲寫BeautifulSoup 主要是只想要抓取台銀網頁，貨幣及現金匯率(本行賣出)就好目前是可以抓到資料，但是貨幣那欄的值一直都是置中但是我只想要單純的文字就好，不要置中QQ 以下是code，還請各位前輩幫忙指教 import requests from bs4 import BeautifulSoup res = requests.get('http://rate.bot.com.tw/xrt?Lang=zh-TW') soup = BeautifulSoup(res.text,'html.parser') Currency = soup.find_all(class_='hidden-phone print_show') Rate = soup.find_all(class_='rate-content-cash text-right print_hide') for x in range(0,18): print(Currency[x].text) print(Rate[x*2+1].text) 輸出結果: 美金 (USD) 30.572 港幣 (HKD) 3.953 英鎊 (GBP) 38.89 澳幣 (AUD) 23.35 加拿大幣 (CAD) 23.17 新加坡幣 (SGD) 22.01 瑞士法郎 (CHF) 30.61 (列出幾行參考結果....) 另外想請問大家一個問題抓取網頁時 .content / .string / .text有什麼不同呢? 目前還是新手，如果問題很爛，還請大家多多包涵謝謝大家 ※ 編輯: fealing (125.227.157.49), 04/14/2017 17:56:18

推 PttBot9527: strip()? 04/14 18:02

→ lambo: 因為他本來就有很多空白..... 04/14 23:06

→ jn8029: 同一樓 print(Currency[x].text.strip()) 04/14 23:10

→ fealing: 非常感謝樓上各位版友的幫忙,終於可以了,謝謝 04/15 13:02

推 ntumath: contents:把一階子標籤拆開整理成list 04/15 15:36

→ ntumath: string:只針對只有一個子標籤在用，取得裡面的string 04/15 15:37

→ ntumath: text:把所有子標籤內的string合併成一個string 04/15 15:38

推 tentenlee: 台銀網頁不是可以取CSV格式?? 04/16 16:25