[問題] 爬蟲出網站中所有的內文

作者tosakashiron (翰)

看板Python

標題[問題] 爬蟲出網站中所有的內文

時間Fri Sep 1 22:42:37 2017

大家好小弟目前爬蟲初學者在目前的專案中需要用到爬蟲但是是不知道會去爬哪個網站應該說目標是丟入任意網址都要可以丟出該網站的內文有點像是google搜尋引擎中搜尋完的網站下方會出現預覽內文一樣不知道有沒有辦法可以做到或是github上面有神人已經寫出相關的API可以使用因為不知道用什麼關鍵字搜尋比較好所以找到的大部分都是只能爬出特定網站或是只能爬出網址中的網址跟我所想要的不太一樣拜託各位神人大大了謝謝!!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 119.77.130.74 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1504276959.A.C92.html

噓 ptt0720: beautifulsoup 你有點懶惰哦 09/01 23:18

→ vi000246: 首先你要定義內文 09/02 00:11

噓 karta0910489: 請定義內文 09/02 03:20

→ tosakashiron: 謝謝樓上大大們的回應 09/02 14:11

→ tosakashiron: 我想要的內文就是網站的所有文字內容 09/02 14:11

→ tosakashiron: 只有會給使用者看得到的內容 09/02 14:11

→ tosakashiron: 小弟我會使用beautifulsoup 09/02 14:11

→ tosakashiron: 但是一定要定義tag才能find並解析 09/02 14:11

→ tosakashiron: 有沒有辦法是不需要定義tag就可以爬出來 09/02 14:11

→ tosakashiron: 因為每一個網址的tag都不一樣 09/02 14:11

→ tosakashiron: 不知道有沒有辦法 09/02 14:11

→ tosakashiron: 先在此謝謝大家!! 09/02 14:11

→ blc: urllib.open(url).read() 09/02 15:47

噓 coeric: 網頁頁面是人寫的，沒人規定tag要怎麼用頁面要怎麼排 09/03 11:28

→ coeric: 簡單一句話：case by case 09/03 11:29

→ zerof: search engine crawler 09/03 14:33

噓 yulin0619: 上網查都是英文的，看不懂可以買中文書啊，又不是說沒 09/04 23:38

→ yulin0619: 書可買 09/04 23:38