看板 Python 關於我們 聯絡資訊
大家好 小弟目前爬蟲初學者 在目前的專案中需要用到爬蟲 但是是不知道會去爬哪個網站 應該說目標是丟入任意網址都要可以丟出該網站的內文 有點像是google搜尋引擎中 搜尋完的網站下方會出現預覽內文一樣 不知道有沒有辦法可以做到 或是github上面有神人已經寫出相關的API可以使用 因為不知道用什麼關鍵字搜尋比較好 所以找到的大部分都是只能爬出特定網站 或是只能爬出網址中的網址 跟我所想要的不太一樣 拜託各位神人大大了 謝謝!!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 119.77.130.74 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1504276959.A.C92.html
ptt0720: beautifulsoup 你有點懶惰哦 09/01 23:18
vi000246: 首先你要定義內文 09/02 00:11
karta0910489: 請定義內文 09/02 03:20
tosakashiron: 謝謝樓上大大們的回應 09/02 14:11
tosakashiron: 我想要的內文就是網站的所有文字內容 09/02 14:11
tosakashiron: 只有會給使用者看得到的內容 09/02 14:11
tosakashiron: 小弟我會使用beautifulsoup 09/02 14:11
tosakashiron: 但是一定要定義tag才能find並解析 09/02 14:11
tosakashiron: 有沒有辦法是不需要定義tag就可以爬出來 09/02 14:11
tosakashiron: 因為每一個網址的tag都不一樣 09/02 14:11
tosakashiron: 不知道有沒有辦法 09/02 14:11
tosakashiron: 先在此謝謝大家!! 09/02 14:11
blc: urllib.open(url).read() 09/02 15:47
coeric: 網頁頁面是人寫的,沒人規定tag要怎麼用 頁面要怎麼排 09/03 11:28
coeric: 簡單一句話:case by case 09/03 11:29
zerof: search engine crawler 09/03 14:33
yulin0619: 上網查都是英文的,看不懂可以買中文書啊,又不是說沒 09/04 23:38
yulin0619: 書可買 09/04 23:38