Re: [問題] 新手學python想抓網頁資料

作者alvinlin (艾爾文)

看板Python

標題Re: [問題] 新手學python想抓網頁資料

時間Fri Jul 26 10:25:46 2019

幫你實做了一下順便當練習。給你參考。 import sys import bs4 as bs from PyQt4.QtGui import QApplication from PyQt4.QtCore import QUrl from PyQt4.QtWebKit import QWebPage import urllib.request import pandas as pd class Client(QWebPage): def __init__(self, url): self.app = QApplication(sys.argv) QWebPage.__init__(self) self.loadFinished.connect(self.on_page_load) self.mainFrame().load(QUrl(url)) self.app.exec_() def on_page_load(self): self.app.quit() url = 'http://ww2.money-link.com.tw/etf/Ranking2.html' client_response = Client(url) source = client_response.mainFrame().toHtml() soup = bs.BeautifulSoup(source, 'lxml') js_test = soup.find('table', class_='ETF_table_2 sticky-enabled') print(js_test.text) https://i.imgur.com/IlD0trt.jpg 要下載PyQt4 https://i.imgur.com/FcPpN6C.jpg ※ 引述《yeeche (yeech)》之銘言： : 各位前輩好 : 小弟是python新手程度應該很low : 想請教一下用python抓網頁的功能 : http://ww2.money-link.com.tw/etf/Ranking2.html : 我想抓取這個網頁的 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.186.172 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1564107948.A.683.html

推 yeeche: 真是太感動了大感謝我先好好學習!! 07/26 12:34

推 HenryLiKing: 原來還可以這樣用 PyQT!!! 好厲害!! 07/26 13:39

→ HenryLiKing: 請問PyQT會像selenium一樣被偵測出是機器人嗎QQ? 07/26 13:40

→ alvinlin: ㄟ...我其實整個程式都是照原原po裡有篇YouTube連結裡的 07/26 15:02

→ alvinlin: 原封不動照抄。只有HTML的Tag和Class換掉而已。在這之前 07/26 15:02

→ alvinlin: 也沒看過。 07/26 15:02

推 brt: pyqt那個只是包裝的瀏覽核心 07/26 15:39

→ brt: 真正抓的還是BS 07/26 15:39

推 vi000246: 怕被偵測機器人可能要學如何偽裝表頭了 07/26 22:21

推 poem5566: 太感謝了感恩分享 07/30 16:23

→ salmon12706: 工研院人工智慧課程推薦https://reurl.cc/4RDRaK 06/29 16:26