看板 LoveLive_Sip 關於我們 聯絡資訊
先附上載點 https://drive.google.com/file/d/0B_q-Nt0Jg6CabUE3X3MxRDFwbTg/view?usp=sharing https://mega.co.nz/#!hhciiCRB!1y6nuWtnHhR0gFprC3b8TNNE8GdT5_s4SWDrWAmeQ2A 昨天一時興起 想說來研究一下怎麼爬網頁 於是把別人寫好的Crawler拿來改成爬Ameba的 意外的成功惹 但事實上我對Python不是很熟.......更不用說寫Crawler了 所以可能無意間造成了一些特別的feature(? 好像有些人稱它叫作bug 如果發現少哪張可以說一下 有空會debug看看 希望各位能鞭小力點 不過如果是咪摸或嗚咪 鞭大力點沒關係>///< http://i.imgur.com/6vcGly7.png 接下來簡單說一下方法來騙P幣 不然沒錢下賭盤就糟糕惹 首先 先看Blog有幾篇文章 舉例來說 咪摸有1194篇 因此要處理1194個網址 也就是下列網址的X = 1 ~ 1194 http://ameblo.jp/mimorisuzuko/page-X.html X = 1就是最新那篇 X = 1194就會是目前最後一篇 以下以http://ameblo.jp/mimorisuzuko/page-1.html的婚紗咪摸RSSSS當作例子 點下圖片後 可以看到image後面固定夾兩串數字並且用減號隔開 http://ameblo.jp/mimorisuzuko/image-12051138095-13367678437.html 然後查看此網頁的原始碼 Firefox:右鍵→檢視原始碼 Chrome:右鍵→檢視原始碼 IE:去下載Firefox或Chrome 之後參考上一行 http://i.imgur.com/CKwDMvW.png 粉紅色的地方就是圖片網址的後半部 只要找到這段粉紅色字串 前面再補上http://stat001.ameba.jp就可以 另外副檔名我是只有找jpg png和gif 應該沒有其他副檔名了......吧(? 附上六位聲優Blog連結 順便附一下文章數 可以清楚看出某人真的是..... Pile 3494篇 http://ameblo.jp/pile0502 三森すずこ 1194篇 http://ameblo.jp/mimorisuzuko 内田彩 975篇 http://ameblo.jp/ichigoshiroppu 飯田里穂 812篇 http://ameblo.jp/rippi-aloha 徳井青空 246篇 http://ameblo.jp/tokui-sora 楠田亜衣奈 143篇 http://ameblo.jp/aina-heart0201 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 115.43.76.210 ※ 文章網址: https://www.ptt.cc/bbs/LoveLive_Sip/M.1437958420.A.5E2.html
SoldierGame: 推 看來還是直接爬文章抓圖比較方便... 07/27 09:13
Camera8025: 推專業!! 07/27 09:18
Frozenmouse: 爬蟲都出現了 m(_ _)m 07/27 11:00
johnlin1591: 變態4 ni ? 07/27 12:55