[問題] 卷商資料爬蟲

作者sleepeye (sl N Ｉ

看板Python

標題[問題] 卷商資料爬蟲

時間Mon Jul 25 11:05:15 2022

爬蟲網址: https://fubon-ebrokerdj.fbs.com.tw/z/zg/zgb/zgb0.djhtm?a=1160&b=1163&c=E&d=1 使用下面語法爬蟲 (語法自己摸索可能寫的不是很好,也可以指正) def get_NBA(url): r = requests.get(url=url) r.encoding = 'big5' if r.status_code == requests.codes.ok: soup = BeautifulSoup(r.text, 'html.parser') for tr in soup.find_all('tr'): for td in tr.findAll('td'): text = '#'+td.getText() file.write(text) file.write('#EENNDD\n') #file.write('\n') 結果遇到他在主要股號股名那邊我就抓不到了 <tr> <td class="t4t1" nowrap id="oAddCheckbox"> <SCRIPT LANGUAGE=javascript>  </SCRIPT> </td> <td class="t3n1" nowrap>215</td> <td class="t3n1" nowrap>9</td> <td class="t3n1" nowrap>206</td> </tr>  這三行不會抓到不知是否有方法可以爬到謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.219.174.97 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1658718317.A.DF5.html

→ niceguy: 這三行被註解掉了，只能用re了吧？ 07/25 11:34

→ sleepeye: 可否多加指導一下 07/25 15:51

→ razer: regular expression，PTT有版 07/25 17:20

推 lycantrope: 可以用findall("script")抓吧？還是都複製貼上沒在想 07/25 17:25

→ razer: findall 就已經是re的函式了，他應該真的沒用過re 07/26 09:26