→ IBIZA:1.本來就是有公開的 11/15 22:34
→ IBIZA:2.哪邊的流動花費增加了? 11/15 22:34
→ IBIZA:3.資料使用門檻的提升是因為有人去grab網站, 防礙正常使用 11/15 22:35
推 dryman:當初沒有任何人爬網站,單純使用量就把網站塞爆了 11/15 22:37
→ IBIZA:沒有任何人grab網站? 跟據地圖版實價登錄網站的facebook官網 11/15 22:42
→ IBIZA:他們是還沒開放前就已經準備要進去grab資料了吧? 11/15 22:42
→ IBIZA:然後內政部實價登錄網站一開放, 地圖版的官網就開始討論他們 11/15 22:43
→ IBIZA:連上去下載資料的經過 11/15 22:44
→ IBIZA:這叫「當初沒有任何人爬網站」? 11/15 22:44
→ ckaha:crab是正常網路會發生的事情 你要認為是攻擊就定法阻止 11/15 22:45
→ IBIZA:現在不就是設法阻止嗎? 11/15 22:46
→ IBIZA:你要資料去申請嘛 幹嘛用grab的? 11/15 22:46
→ ckaha:樓上根本沒搞懂時價登錄的意義 我已經說了 資料開放 11/15 22:49
→ IBIZA:資料本來就是開放的 但是要大量下載應該循途徑去申請光碟 11/15 22:50
→ IBIZA:不要從網站grab, 這樣很難懂嗎? 11/15 22:50
→ IBIZA:不是只有你一個網站想上去看價錢 11/15 22:51
→ IBIZA:如果你認為申請太慢 費用太貴, 你可以push政府去改變作法 11/15 22:54
→ IBIZA:但是 不要從網站grab, 這樣很難懂嗎? 11/15 22:54
推 Wush978:「不要從網站grab」... 我完全不認同這句話 11/15 23:00
推 mapleone:也對。並不是硬逼政府開放API, 讓我們grab才叫open data. 11/15 23:00
→ mapleone:資料是開放的,但請依照規定讀取。不要佔用真正使用者 11/15 23:01
→ mapleone:的頻寬。 11/15 23:01
推 dryman:開放API就不用用爬蟲去取了好嗎... 11/15 23:01
→ IBIZA:還是那句話 11/15 23:01
→ IBIZA:你希望政府開放甚麼 請請循途徑去push, 在沒有開放api或是 11/15 23:02
→ IBIZA:cvs下載等方式之前, 麻煩請用現有方式去申請資料 11/15 23:02
→ IBIZA:不要grab網站, 佔用一般使用者的頻寬 11/15 23:02
→ IBIZA:這樣很難懂嗎? 11/15 23:03
推 dryman:API很容易就可以跟一般使用者頻寬完全分開來 11/15 23:04
→ dryman:用頻寬來當作不要開放API的藉口真是一點道理也沒有 11/15 23:04
→ IBIZA:是, 有很多方法可以作 但是這些方法沒有建立前, 請不要用 11/15 23:04
→ IBIZA:grab的方式 11/15 23:04
→ IBIZA:見鬼了 我哪裡說不要開放了? 11/15 23:04
→ dryman:你要說現在一般使用者的頻寬。現在政府網站只能讓你看十分 11/15 23:04
→ dryman:鐘,就會把人踢走。這就是你所捍衛的頻寬!!笑死人了! 11/15 23:05
→ IBIZA:誰希望政府開放api或是cvs下載 請去push政府 11/15 23:05
→ IBIZA:不要現在沒得下載就用grab, 影響我們一般人正常使用 11/15 23:05
→ StubbornLin:什麼爛網站 才幾個人上線就炸了 政府還說要做雲端 11/15 23:05
→ IBIZA:另外 我使用上並沒有十分鐘就被踢的問題喔 11/15 23:05
→ StubbornLin:基本的scalability都做不到 還怕別人來用 11/15 23:06
→ dryman:我就是那個有在寄信push政府的人。 11/15 23:06
→ IBIZA:閒置八分鐘會踢的樣子 但是連續使用是不會被踢 11/15 23:06
推 Wush978:IBIZA的思維基本上就是把server端的責任推給使用者 11/15 23:06
→ dryman:在上面瀏覽如果不夠慢,也會被踢,還要停權五分鐘才能用 11/15 23:07
→ IBIZA:甚麼server端的責任推給使用者? 11/15 23:07
→ dryman:按按件太快,也是會被踢的ㄎㄎ 11/15 23:07
→ IBIZA:不夠慢這點我是沒遇過 我都是正常使用 沒因為操作太快被踢 11/15 23:08
→ IBIZA:過 11/15 23:08
→ StubbornLin:crawler是有多少隻? request頻率又有多少? 11/15 23:08
→ IBIZA:我剛剛連點滑鼠看起來是沒被踢.. 11/15 23:09
→ IBIZA:我用一秒大概兩三下的頻率按 會來不及顯示資料 但是沒被踢 11/15 23:12
→ IBIZA:你是一般操作嗎? 11/15 23:13
→ IBIZA:還是是用crawler? 11/15 23:13
→ dryman:就一般操作啊,我看字速度比較快不行嗎? 11/15 23:13
→ dryman:用crawler可以跑出chrome的文字窗,你做給我看XD 11/15 23:14
→ IBIZA:那也真的太快了 我一秒鐘點兩三次也沒跳那畫面@@ 11/15 23:14
→ dryman:你能用crawler弄出同樣的視窗,我給你兩萬批幣,絕不吝嗇 11/15 23:15
→ StubbornLin:沒見過這種笑話網站 防賊似的 這麼怕人用關掉算了 11/15 23:16
→ StubbornLin:開發精力居然不是花在改善承載能力 而做幹這種事 11/15 23:16
推 ledia:我想問一下, 第一天上線, 連網頁格式, 有哪些參數都不知道 11/15 23:20
→ ledia:是誰能神得出一隻 crawler 來? 囧 11/15 23:21
→ IBIZA:就是不知道 所以要第一時間連上去分析啊Xd 11/15 23:21
→ ledia:所以說被 crawler 打掛到底是什麼邏輯, 我真的搞不懂 11/15 23:22
→ chenlarry:我今天中午搜尋鍵連按五下就被踢了..跟dryman大一樣畫面 11/15 23:23
→ IBIZA:我也看到那個畫面了XD 11/15 23:24
→ IBIZA:ledia, 不過在網站開放第三天已經grab完資料 網站上線了 11/15 23:24
→ IBIZA:這也是事實啊 11/15 23:24
推 dryman:我想IBIZA的「正常使用」一定跟我們不一樣,他都沒問題的呢 11/15 23:24
→ ckaha:我真的很想說IBIZA你到底懂不懂怎麼爬... 分析那些根本不吃 11/15 23:24
→ StubbornLin:隨便簡單算一下 全台假設10家網站要爬他資料 11/15 23:25
→ ckaha:頻寬 11/15 23:25
→ StubbornLin:他那資料又不是隨時更新的 假設30分鐘更新一次好了 11/15 23:25
→ IBIZA:dryman 的確跟正常使用狀況差很多 我在地圖上各個點輪流 11/15 23:25
→ StubbornLin:已經太快 看情況可能一天一次就夠了 但算快一點 11/15 23:25
→ IBIZA:每秒鐘按兩三次 11/15 23:25
→ IBIZA:一般跟本不可能按這麼快啊 11/15 23:26
→ StubbornLin:這樣算下來 每分鐘也才多少request.... 11/15 23:26
→ ckaha:然後資料也才1萬多筆 假設如一開始只能撈28筆 最多七百 11/15 23:26
→ IBIZA:ckaha 分析當然不吃頻寬 但是第三天已經grab完資料 網站 11/15 23:27
→ ckaha:多次做完 是佔了你多少平官 11/15 23:27
→ StubbornLin:這樣都撐不了的話 早點關掉別丟人現眼 11/15 23:27
→ IBIZA:上線了 所以資料是兩天內grab完的 11/15 23:27
→ IBIZA:StubbornLin 又不是只有你十個網站 11/15 23:27
→ ckaha:你想講什麼....你講的案例根本就不適用實價登錄網站 11/15 23:28
→ StubbornLin:那又怎樣? 那其它網站怎辦? 像大盤指數 每15秒更新 11/15 23:28
→ StubbornLin:不知道有多少網站在爬 人家都好好的 11/15 23:28
→ IBIZA:大盤指數是用API在爬的吧 11/15 23:28
→ StubbornLin:為什麼只有那網站那麼破? 它是接撥接網路線嗎? 11/15 23:29
→ IBIZA:跟頻寬無關 是太頻繁連結資料庫造成的 11/15 23:30
推 dryman:喔?請問大盤指數API在哪?我怎麼只找到機器人呢? 11/15 23:30
→ IBIZA:剛上線的幾乎每個都動作都要連資料庫 11/15 23:31
推 ledia:IBIZA, 想要寫 crawler 的人並不會想要把網站抓掛, 否則自己 11/15 23:31
→ StubbornLin:那簡單講就是scalability能力太弱了 11/15 23:31
→ dryman:控制連接資料庫不要太頻繁,就是scalbility的一步啊 11/15 23:32
→ StubbornLin:資料庫太瀕繁是不會做replica嗎? 11/15 23:32
→ ledia:也抓不到資料, 人數超出對伺服器負載的預期比較有道理 11/15 23:32
→ IBIZA:dryman 寶來有提供啊 甚麼叫你只找得到機器人?@@ 11/15 23:32
→ StubbornLin:簡單的master slave架構就解決了 讀寫分離 多讀一寫 11/15 23:32
→ dryman:這就是大家想說的,這是政府網站應該做的事,但很明顯就沒 11/15 23:32
→ IBIZA:一開始的確是沒作好 事實上過了一個月 也不知道當初的 11/15 23:33
→ IBIZA:問題解決沒 11/15 23:33
→ dryman:做好...一小時內幾千人的流量就能操掛,完全就是不合格 11/15 23:33
→ IBIZA:再過半小時就之道撐不撐得住第二次尖峰流量了 11/15 23:33
→ IBIZA:網站不合格 跟該不該直接grab網站是兩回事 11/15 23:34
→ IBIZA:尤其是在大家已經很難查的情況下 你還要grab? 11/15 23:34
→ IBIZA:這不是雪上加霜是甚麼? 11/15 23:34
推 dryman:剛才兩位大大都算給你看了,grab本來就不佔多少頻寬! 11/15 23:35
推 ledia:沒有人會在不穩定的情況下 crawl 的, 不然抓到的資料不完整 11/15 23:35
→ IBIZA:有甚麼要求請去push 政府 不要妨礙一般使用者如我 正常使 11/15 23:35
→ ledia:也浪費時間 11/15 23:35
→ IBIZA:用網站 這樣很難懂嗎? 11/15 23:35
→ ledia:如果聽不懂的話我也沒辦法了 11/15 23:35
→ StubbornLin:請讀這本 用MySQL的replica把資料復製到多台上面 11/15 23:35
→ IBIZA:ledia, 地圖版實價網站上線前 官版一直都在不穩定狀態 11/15 23:36
→ dryman:在這裡用力推文的,大概都有去push過了ㄎㄎ 11/15 23:36
→ StubbornLin:那廠商沒錢買的話 給我amazon帳號 我送他一本電子版 11/15 23:36
→ IBIZA:push也一樣啊 push過就可以用力grab了嗎? 11/15 23:36
→ ledia:IBIZA, 那可能是你沒有 24hr 都在等他穩定喔 XD 11/15 23:36
→ StubbornLin:不是MySQL的話 其它資料庫也都有類似機制 11/15 23:36
→ IBIZA:ledia, 基本上那幾天我連半夜兩點跟四點都無法正常使用 11/15 23:37
→ IBIZA:你可以去home-sale版看看當時的慘況 11/15 23:37
→ ledia:我很清楚我處理的時候很正常啊 @@ 11/15 23:38
→ IBIZA:你處理的過程中都沒有遇到不正常的時後? 11/15 23:38
→ ledia:而且我是等到第三天才請了一天假去處理的 半夜太辛苦了 11/15 23:38
→ ledia:沒有耶 非常順 11/15 23:39
→ IBIZA:太神奇了@@ 11/15 23:39
→ ledia:看熱鬧的人把伺服器弄掛了, 倒霉的確是這些 crawler 11/15 23:40
→ IBIZA:是一起弄掛的吧 11/15 23:40
→ ledia:順便告訴你, 上班時間都是好的, 因為看熱鬧的人都在工作 11/15 23:40
→ IBIZA:不要講的好像crawler都沒參予 11/15 23:40
→ IBIZA:ledia 我那幾天上班時間一樣有連過...一樣不能正常查 11/15 23:41
→ ledia:crawler 有設好間隔, 跟一般使用網站不會有很大的差異啊 11/15 23:41
→ ckaha:樓上做過crawler? 不然你哪來自信一定是crawler的問題 11/15 23:42
→ ledia:那幾天是哪幾天 ? 10/19 ? 11/15 23:42
→ ckaha:抱歉我指的是I大 11/15 23:42
→ IBIZA:詳細的時間也不太記得了 我記得關站前完全不能查 11/15 23:43
→ IBIZA:關站重開後 原本想說應該會改善 但是還是很慘 11/15 23:43
→ IBIZA:後來把路名拿掉才改善 11/15 23:43
→ ledia:人的記憶啊 .... 我還是相信機器的 log XD 11/15 23:44
→ IBIZA:至於路名是哪一天從dropbox改成textbox 我也不太記得了.. 11/15 23:44
→ IBIZA:關站是10/17 10/18重開 11/15 23:44
→ IBIZA:ckaha 我沒有說問題只有crawler, 但是大家都有上去存取 11/15 23:45
→ IBIZA:說是大家一起搞掛的總是沒錯 11/15 23:45
→ IBIZA:而且一支crawler 起碼有幾百人戰力吧 11/15 23:46
推 dryman:我們不用管是crawler還是人,一個網站稱不了千人流量就是爛 11/15 23:46
推 ledia:crawler 大概就抵兩三個人吧 11/15 23:46
→ dryman:會把crawler當幾百人戰力,就說明你完全不懂crawler 11/15 23:47
→ IBIZA:如果兩三人的話 那豈不是要下載很久@@ 11/15 23:47
→ ledia:你以為是哈利波特, 揮個魔杖 data 就全部抓好囉 ? 11/15 23:48
→ IBIZA:以前用netant grab網站的確都是一開幾十連線在抓啊XD 11/15 23:48
→ IBIZA:不過那可以調整就是了.. 11/15 23:48
推 ledia:開幾十個大概抓個兩秒 就可以等廠商去重開機了 何苦呢 11/15 23:50
推 dryman:你把crawler當BT用嗎?ㄆㄆ 11/15 23:50
→ dryman:同時開幾十個連線,你要sync還有存入資料庫也很苦啊老大 11/15 23:51
→ IBIZA:netant都是整個檔案抓下來 不用存入資料庫^^ 11/15 23:52
推 dryman:所以才說你不懂crawler在幹嘛啊!!你以為是下載機器人喔 11/15 23:54
推 yoco315:講越多只會透漏自己無知的程度 :( 11/15 23:58
推 Wush978:難怪他會在那邊大聲要大家做一些莫名其妙的事情 11/16 00:00
→ IBIZA:dryman, 抱歉, 我的確不該用我砍站的經驗去看crawler.. 11/16 00:01
推 yoco315:真氣人 -_________-|| 本來是不想去砍... 11/16 00:01
→ yoco315:他現在這樣我就很去砍下來 ocr ... 這種手法根本就白痴嘛 11/16 00:02
→ yoco315:文字改圖這種智障事情也幹的出來... 唉.... 11/16 00:02
→ yoco315:有爬站能力的人,這種根本擋不住他,字以為聰明的白痴政府 11/16 00:03
推 ledia:別為這種事浪費自己的時間啊~~~ (咦XD) 11/16 00:04
→ yoco315:不管下這命令的市政府還是包商,都只充分顯示其智能的缺陷 11/16 00:04
→ ledia:包商應該是不能下令的, 不過這倒不是第一次看到就是了 11/16 00:05
→ ledia:政府官員在記者會上的說法是 "包商建議的" 11/16 00:05
→ IBIZA:正常流程應該是政府的人問包商怎麼擋 然後包商建議方法吧 11/16 00:06
推 yoco315:擋個屁,有那個閒功夫浪費那個CPU不如想辦法提昇QOS 智缺.. 11/16 00:07
→ IBIZA:沒有新資料 明天早上八點才有... 11/16 00:11
→ IBIZA:明天早上八點才會知道一個月的修補能不能承受得住尖峰流量了 11/16 00:11
推 No:整段看下來...有一個感覺,你先承認你就是... 11/16 00:12
→ IBIZA:我先承認啊 我對crawler的認知 是受之前砍站的影響 11/16 00:14
→ IBIZA:所以認為應該都是很多線在不斷的抓or try 11/16 00:14
→ IBIZA:如果是慢慢抓 那的確影響不大 11/16 00:16
→ shadowken:不要再造窯了啦 11/16 00:37
推 chrome:圖片真的很好笑 11/16 06:21
推 liujh:To IBIZA: 是公開,但不是開放。因為1. 一個月後才給資料, 11/16 13:04
→ liujh:市場變化很大的.. 2. 資料的授權也寫的不清不楚... 11/16 13:04
推 eterbless:不要再造謠啦 不提供資料乾脆把網站收掉算了 11/16 21:20
推 asoedarren:拜託外行的不要再誤導鄉民 說crawler會打掛網站根本是 11/17 23:27
→ asoedarren:外行的 居然一堆鄉民聞之起舞... 倒果為因 積非成是 11/17 23:28