看板 Network 關於我們 聯絡資訊
最近在自學網路爬蟲,一開始用BeautifulSoup 抓一些簡單的靜態網頁沒有問題,抓下來一大串html 我可以用re去解開來一個一個看 但對於需要更進階操作的網站,就顯得有些吃力 我知道可以進一步去學習Selenium或Scrapy 但在那之前,我想先學習一些網站的基本原理 市面上的書通常只會教傻瓜式的架站 我想了解的是,我打開瀏覽器,F12開後台 Network頁面裡面的各種機制 像是瀏覽器式怎麼知道要怎麼下request 網站response的格式是從哪邊取得,怎麼知道要怎麼解 請問有推薦的詳細教學網站或書籍嗎? 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 124.218.11.106 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Network/M.1665997859.A.A0A.html
LeonH: 可以去認識一下 HTTP 10/17 22:31
CP64: 往下可以看 HTTP/HTTPS 跟再下去一點的 TCP/UDP 10/19 04:10
CP64: 往上可以看基本的 HTML5/JavaScript/CSS 以及 DOM 相關 10/19 04:11
CP64: 往上的部份 在 Mozilla 的 MDN 上可以找得到 10/19 04:13
judark: 感謝CP64的指引 10/20 08:41
pichubaby: 英文吃的動的話想打好基礎就去看RFC 我從2616看的 10/23 18:57
pichubaby: 然後現在都有HTTPS了,所以比十年前困難一些 10/23 18:58
pichubaby: 但是Wireshark還是很棒的工具 10/23 18:58