[問題] 如何抓取網頁原始碼中單引號的內容

作者liataian (T-PANY FOREVER)

看板RegExp

標題[問題] 如何抓取網頁原始碼中單引號的內容

時間Mon Dec 15 13:56:51 2014

各位好，想請教一下我想用python3的正則式抓取某個網頁原始碼中的某個單引號中的內容該內容長度非常長，可能長度大於100000 比起網頁原始碼中其他單引號中的內容還要長很多我想說先抓取原始碼中的所有單引號中的內容接著再用長度來判斷長度大於100000的內容才符合條件想問這樣的正則式應該怎麼下呢? 我目前是寫如下這樣 import urllib.parse,urllib.request html = urllib.request.urlopen("該網址") #html形態為物件 s_html = html.read().decode('utf-8') #s_html形態為字串將html物件轉成s_html字串後才可以用正則式去parse 不過這邊我就不知道怎麼寫正則式去抓出s_html裡面的所有單引號中的內容了@@ 還請各位指點一下，謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.118.155.39 ※ 文章網址: http://www.ptt.cc/bbs/RegExp/M.1418623015.A.3FB.html ※ 編輯: liataian (140.118.155.39), 12/15/2014 14:01:43

→ liataian: 已經解決，自己回自己問題@@ 12/15 14:44