作者fealing (fealing)
看板Python
標題[問題] 台銀網頁爬蟲
時間Fri Apr 14 17:55:10 2017
各位前輩大家好
最近練習爬蟲寫BeautifulSoup
主要是只想要抓取台銀網頁,貨幣及現金匯率(本行賣出)就好
目前是可以抓到資料,但是貨幣那欄的值一直都是置中
但是我只想要單純的文字就好,不要置中QQ
以下是code,還請各位前輩幫忙指教
import requests
from bs4 import BeautifulSoup
res = requests.get('
http://rate.bot.com.tw/xrt?Lang=zh-TW')
soup = BeautifulSoup(res.text,'html.parser')
Currency = soup.find_all(class_='hidden-phone print_show')
Rate = soup.find_all(class_='rate-content-cash text-right print_hide')
for x in range(0,18):
print(Currency[x].text)
print(Rate[x*2+1].text)
輸出結果:
美金 (USD)
30.572
港幣 (HKD)
3.953
英鎊 (GBP)
38.89
澳幣 (AUD)
23.35
加拿大幣 (CAD)
23.17
新加坡幣 (SGD)
22.01
瑞士法郎 (CHF)
30.61
(列出幾行參考結果....)
另外想請問大家一個問題
抓取網頁時 .content / .string / .text有什麼不同呢?
目前還是新手,如果問題很爛,還請大家多多包涵
謝謝大家
※ 編輯: fealing (125.227.157.49), 04/14/2017 17:56:18
推 PttBot9527: strip()? 04/14 18:02
→ lambo: 因為他本來就有很多空白..... 04/14 23:06
→ jn8029: 同一樓 print(Currency[x].text.strip()) 04/14 23:10
→ fealing: 非常感謝樓上各位版友的幫忙,終於可以了,謝謝 04/15 13:02
推 ntumath: contents:把一階子標籤拆開整理成list 04/15 15:36
→ ntumath: string:只針對只有一個子標籤在用,取得裡面的string 04/15 15:37
→ ntumath: text:把所有子標籤內的string合併成一個string 04/15 15:38
推 tentenlee: 台銀網頁不是可以取CSV格式?? 04/16 16:25