看板 Soft_Job 關於我們 聯絡資訊
1. 我會說你根本不懂open data 2. 政府所有的資料都是本來就應該要公開給民眾的 除非有密字級以上或有特定法律規定 3. 我還真的不知道原來政府引進資訊系統後還會造成資料流通的花費增加 請問資訊科技的目的是什麼 4. 非官方網站各自喊價民眾有自主選擇的權力 實價登錄的初衷是資訊的透明化 其他人要拿去做什麼那都不重要 請不要倒果為因 5. 這件事情本來應該是某政務委員最愛推動的XX雲要做的 open government data 已經是世界潮流了 他的目的最簡單來說就是要讓所有人民能夠存取政府的資料 當然不可能要求人民人人都擁有資訊處理的能力 所以政府在開放資料的時候通常是必須以"降低使用資料的門檻"為目標 而非提升使用門檻 這個逆行倒施的做法居然還有人支持 實在難以理解這類思維 6. 資訊產業的未來之一將會是資料探勘(Data mining) 擁有資料探勘的技術將會是台灣有機會與國際對抗的一個領域 現在整天喊雲 你雲裡面沒東西 就算有東西好了 你根本不會用 或者東西通通都是一堆滿滿惡意雜訊 還要對你說Aren't you thankful? 今天你阻擋了資料的來源 就等於你阻擋了明日可能產出的相關技術與產業 給幾個連結大家有興趣的可以去看 http://www.opendata.tw/ http://creativecommons.tw/blog/02011226 這裡給台北市政府一個好評 我個人認為他們是全台灣跑最前面也最能掌握open data精髓的單位 (比起中央都好太多了) http://data.taipei.gov.tw/opendata/rule;jsessionid=21795FA463828F7F4D3E89E4820F218D ※ 引述《IBIZA (溫一壺月光作酒)》之銘言: : 1.其實實價登錄資料可以直接向政府要raw data : 填好申請單付工本費幾千元, 就可以拿到資料 : 根本不需要自己去grab整個網站的資料, 還拖累想要上網站查詢的民眾 : 詳情請參考 政府資訊公開法 : 不動產成交案件實際資訊申報登錄及查詢收費辦法 : 內政部檔案申請閱覽須知 : 內政部及所屬機關提供政府資訊收費標準 : http://www.land.moi.gov.tw/chhtml/landfaq1.asp?fqid=774&cid=2 : 2.非官方網站提供區段均價, 又不公開區段劃分原則 : 只會淪為各自喊價, 徒增爭議, 失去實價登錄的初衷 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.163.165.221
IBIZA:1.本來就是有公開的 11/15 22:34
IBIZA:2.哪邊的流動花費增加了? 11/15 22:34
IBIZA:3.資料使用門檻的提升是因為有人去grab網站, 防礙正常使用 11/15 22:35
dryman:當初沒有任何人爬網站,單純使用量就把網站塞爆了 11/15 22:37
IBIZA:沒有任何人grab網站? 跟據地圖版實價登錄網站的facebook官網 11/15 22:42
IBIZA:他們是還沒開放前就已經準備要進去grab資料了吧? 11/15 22:42
IBIZA:然後內政部實價登錄網站一開放, 地圖版的官網就開始討論他們 11/15 22:43
IBIZA:連上去下載資料的經過 11/15 22:44
IBIZA:這叫「當初沒有任何人爬網站」? 11/15 22:44
ckaha:crab是正常網路會發生的事情 你要認為是攻擊就定法阻止 11/15 22:45
IBIZA:現在不就是設法阻止嗎? 11/15 22:46
IBIZA:你要資料去申請嘛 幹嘛用grab的? 11/15 22:46
ckaha:樓上根本沒搞懂時價登錄的意義 我已經說了 資料開放 11/15 22:49
IBIZA:資料本來就是開放的 但是要大量下載應該循途徑去申請光碟 11/15 22:50
IBIZA:不要從網站grab, 這樣很難懂嗎? 11/15 22:50
IBIZA:不是只有你一個網站想上去看價錢 11/15 22:51
IBIZA:如果你認為申請太慢 費用太貴, 你可以push政府去改變作法 11/15 22:54
IBIZA:但是 不要從網站grab, 這樣很難懂嗎? 11/15 22:54
Wush978:「不要從網站grab」... 我完全不認同這句話 11/15 23:00
mapleone:也對。並不是硬逼政府開放API, 讓我們grab才叫open data. 11/15 23:00
mapleone:資料是開放的,但請依照規定讀取。不要佔用真正使用者 11/15 23:01
mapleone:的頻寬。 11/15 23:01
dryman:開放API就不用用爬蟲去取了好嗎... 11/15 23:01
IBIZA:還是那句話 11/15 23:01
IBIZA:你希望政府開放甚麼 請請循途徑去push, 在沒有開放api或是 11/15 23:02
IBIZA:cvs下載等方式之前, 麻煩請用現有方式去申請資料 11/15 23:02
IBIZA:不要grab網站, 佔用一般使用者的頻寬 11/15 23:02
IBIZA:這樣很難懂嗎? 11/15 23:03
dryman:API很容易就可以跟一般使用者頻寬完全分開來 11/15 23:04
dryman:用頻寬來當作不要開放API的藉口真是一點道理也沒有 11/15 23:04
IBIZA:是, 有很多方法可以作 但是這些方法沒有建立前, 請不要用 11/15 23:04
IBIZA:grab的方式 11/15 23:04
IBIZA:見鬼了 我哪裡說不要開放了? 11/15 23:04
dryman:你要說現在一般使用者的頻寬。現在政府網站只能讓你看十分 11/15 23:04
dryman:鐘,就會把人踢走。這就是你所捍衛的頻寬!!笑死人了! 11/15 23:05
IBIZA:誰希望政府開放api或是cvs下載 請去push政府 11/15 23:05
IBIZA:不要現在沒得下載就用grab, 影響我們一般人正常使用 11/15 23:05
StubbornLin:什麼爛網站 才幾個人上線就炸了 政府還說要做雲端 11/15 23:05
IBIZA:另外 我使用上並沒有十分鐘就被踢的問題喔 11/15 23:05
StubbornLin:基本的scalability都做不到 還怕別人來用 11/15 23:06
dryman:我就是那個有在寄信push政府的人。 11/15 23:06
IBIZA:閒置八分鐘會踢的樣子 但是連續使用是不會被踢 11/15 23:06
Wush978:IBIZA的思維基本上就是把server端的責任推給使用者 11/15 23:06
dryman:在上面瀏覽如果不夠慢,也會被踢,還要停權五分鐘才能用 11/15 23:07
IBIZA:甚麼server端的責任推給使用者? 11/15 23:07
dryman:按按件太快,也是會被踢的ㄎㄎ 11/15 23:07
IBIZA:不夠慢這點我是沒遇過 我都是正常使用 沒因為操作太快被踢 11/15 23:08
IBIZA:過 11/15 23:08
StubbornLin:crawler是有多少隻? request頻率又有多少? 11/15 23:08
IBIZA:我剛剛連點滑鼠看起來是沒被踢.. 11/15 23:09
IBIZA:我用一秒大概兩三下的頻率按 會來不及顯示資料 但是沒被踢 11/15 23:12
dryman:送你截圖一張 http://d.pr/i/NEtL 11/15 23:12
IBIZA:你是一般操作嗎? 11/15 23:13
IBIZA:還是是用crawler? 11/15 23:13
dryman:就一般操作啊,我看字速度比較快不行嗎? 11/15 23:13
dryman:用crawler可以跑出chrome的文字窗,你做給我看XD 11/15 23:14
IBIZA:那也真的太快了 我一秒鐘點兩三次也沒跳那畫面@@ 11/15 23:14
dryman:你能用crawler弄出同樣的視窗,我給你兩萬批幣,絕不吝嗇 11/15 23:15
StubbornLin:沒見過這種笑話網站 防賊似的 這麼怕人用關掉算了 11/15 23:16
StubbornLin:開發精力居然不是花在改善承載能力 而做幹這種事 11/15 23:16
ledia:我想問一下, 第一天上線, 連網頁格式, 有哪些參數都不知道 11/15 23:20
ledia:是誰能神得出一隻 crawler 來? 囧 11/15 23:21
IBIZA:就是不知道 所以要第一時間連上去分析啊Xd 11/15 23:21
ledia:所以說被 crawler 打掛到底是什麼邏輯, 我真的搞不懂 11/15 23:22
chenlarry:我今天中午搜尋鍵連按五下就被踢了..跟dryman大一樣畫面 11/15 23:23
IBIZA:我也看到那個畫面了XD 11/15 23:24
IBIZA:ledia, 不過在網站開放第三天已經grab完資料 網站上線了 11/15 23:24
IBIZA:這也是事實啊 11/15 23:24
dryman:我想IBIZA的「正常使用」一定跟我們不一樣,他都沒問題的呢 11/15 23:24
ckaha:我真的很想說IBIZA你到底懂不懂怎麼爬... 分析那些根本不吃 11/15 23:24
StubbornLin:隨便簡單算一下 全台假設10家網站要爬他資料 11/15 23:25
ckaha:頻寬 11/15 23:25
StubbornLin:他那資料又不是隨時更新的 假設30分鐘更新一次好了 11/15 23:25
IBIZA:dryman 的確跟正常使用狀況差很多 我在地圖上各個點輪流 11/15 23:25
StubbornLin:已經太快 看情況可能一天一次就夠了 但算快一點 11/15 23:25
IBIZA:每秒鐘按兩三次 11/15 23:25
IBIZA:一般跟本不可能按這麼快啊 11/15 23:26
StubbornLin:這樣算下來 每分鐘也才多少request.... 11/15 23:26
ckaha:然後資料也才1萬多筆 假設如一開始只能撈28筆 最多七百 11/15 23:26
IBIZA:ckaha 分析當然不吃頻寬 但是第三天已經grab完資料 網站 11/15 23:27
ckaha:多次做完 是佔了你多少平官 11/15 23:27
StubbornLin:這樣都撐不了的話 早點關掉別丟人現眼 11/15 23:27
IBIZA:上線了 所以資料是兩天內grab完的 11/15 23:27
IBIZA:StubbornLin 又不是只有你十個網站 11/15 23:27
ckaha:你想講什麼....你講的案例根本就不適用實價登錄網站 11/15 23:28
StubbornLin:那又怎樣? 那其它網站怎辦? 像大盤指數 每15秒更新 11/15 23:28
StubbornLin:不知道有多少網站在爬 人家都好好的 11/15 23:28
IBIZA:大盤指數是用API在爬的吧 11/15 23:28
StubbornLin:為什麼只有那網站那麼破? 它是接撥接網路線嗎? 11/15 23:29
IBIZA:跟頻寬無關 是太頻繁連結資料庫造成的 11/15 23:30
dryman:喔?請問大盤指數API在哪?我怎麼只找到機器人呢? 11/15 23:30
IBIZA:剛上線的幾乎每個都動作都要連資料庫 11/15 23:31
ledia:IBIZA, 想要寫 crawler 的人並不會想要把網站抓掛, 否則自己 11/15 23:31
StubbornLin:那簡單講就是scalability能力太弱了 11/15 23:31
dryman:控制連接資料庫不要太頻繁,就是scalbility的一步啊 11/15 23:32
StubbornLin:資料庫太瀕繁是不會做replica嗎? 11/15 23:32
ledia:也抓不到資料, 人數超出對伺服器負載的預期比較有道理 11/15 23:32
IBIZA:dryman 寶來有提供啊 甚麼叫你只找得到機器人?@@ 11/15 23:32
StubbornLin:簡單的master slave架構就解決了 讀寫分離 多讀一寫 11/15 23:32
dryman:這就是大家想說的,這是政府網站應該做的事,但很明顯就沒 11/15 23:32
IBIZA:一開始的確是沒作好  事實上過了一個月 也不知道當初的 11/15 23:33
IBIZA:問題解決沒 11/15 23:33
dryman:做好...一小時內幾千人的流量就能操掛,完全就是不合格 11/15 23:33
IBIZA:再過半小時就之道撐不撐得住第二次尖峰流量了 11/15 23:33
IBIZA:網站不合格 跟該不該直接grab網站是兩回事 11/15 23:34
IBIZA:尤其是在大家已經很難查的情況下 你還要grab? 11/15 23:34
IBIZA:這不是雪上加霜是甚麼? 11/15 23:34
StubbornLin:http://0rz.tw/TDrtO High Performance MySQL 11/15 23:35
dryman:剛才兩位大大都算給你看了,grab本來就不佔多少頻寬! 11/15 23:35
ledia:沒有人會在不穩定的情況下 crawl 的, 不然抓到的資料不完整 11/15 23:35
IBIZA:有甚麼要求請去push 政府 不要妨礙一般使用者如我 正常使 11/15 23:35
ledia:也浪費時間 11/15 23:35
IBIZA:用網站 這樣很難懂嗎? 11/15 23:35
ledia:如果聽不懂的話我也沒辦法了 11/15 23:35
StubbornLin:請讀這本 用MySQL的replica把資料復製到多台上面 11/15 23:35
IBIZA:ledia, 地圖版實價網站上線前 官版一直都在不穩定狀態 11/15 23:36
dryman:在這裡用力推文的,大概都有去push過了ㄎㄎ 11/15 23:36
StubbornLin:那廠商沒錢買的話 給我amazon帳號 我送他一本電子版 11/15 23:36
IBIZA:push也一樣啊 push過就可以用力grab了嗎? 11/15 23:36
ledia:IBIZA, 那可能是你沒有 24hr 都在等他穩定喔 XD 11/15 23:36
StubbornLin:不是MySQL的話 其它資料庫也都有類似機制 11/15 23:36
IBIZA:ledia, 基本上那幾天我連半夜兩點跟四點都無法正常使用 11/15 23:37
IBIZA:你可以去home-sale版看看當時的慘況 11/15 23:37
ledia:我很清楚我處理的時候很正常啊 @@ 11/15 23:38
IBIZA:你處理的過程中都沒有遇到不正常的時後? 11/15 23:38
ledia:而且我是等到第三天才請了一天假去處理的 半夜太辛苦了 11/15 23:38
ledia:沒有耶 非常順 11/15 23:39
IBIZA:太神奇了@@ 11/15 23:39
ledia:看熱鬧的人把伺服器弄掛了, 倒霉的確是這些 crawler 11/15 23:40
IBIZA:是一起弄掛的吧 11/15 23:40
ledia:順便告訴你, 上班時間都是好的, 因為看熱鬧的人都在工作 11/15 23:40
IBIZA:不要講的好像crawler都沒參予 11/15 23:40
IBIZA:ledia 我那幾天上班時間一樣有連過...一樣不能正常查 11/15 23:41
ledia:crawler 有設好間隔, 跟一般使用網站不會有很大的差異啊 11/15 23:41
ckaha:樓上做過crawler? 不然你哪來自信一定是crawler的問題 11/15 23:42
ledia:那幾天是哪幾天 ? 10/19 ? 11/15 23:42
ckaha:抱歉我指的是I大 11/15 23:42
IBIZA:詳細的時間也不太記得了 我記得關站前完全不能查 11/15 23:43
IBIZA:關站重開後 原本想說應該會改善 但是還是很慘 11/15 23:43
IBIZA:後來把路名拿掉才改善 11/15 23:43
ledia:人的記憶啊 .... 我還是相信機器的 log XD 11/15 23:44
IBIZA:至於路名是哪一天從dropbox改成textbox 我也不太記得了.. 11/15 23:44
IBIZA:關站是10/17 10/18重開 11/15 23:44
IBIZA:ckaha 我沒有說問題只有crawler, 但是大家都有上去存取  11/15 23:45
IBIZA:說是大家一起搞掛的總是沒錯 11/15 23:45
IBIZA:而且一支crawler 起碼有幾百人戰力吧 11/15 23:46
dryman:我們不用管是crawler還是人,一個網站稱不了千人流量就是爛 11/15 23:46
ledia:crawler 大概就抵兩三個人吧 11/15 23:46
dryman:會把crawler當幾百人戰力,就說明你完全不懂crawler 11/15 23:47
IBIZA:如果兩三人的話 那豈不是要下載很久@@ 11/15 23:47
ledia:你以為是哈利波特, 揮個魔杖 data 就全部抓好囉 ? 11/15 23:48
IBIZA:以前用netant grab網站的確都是一開幾十連線在抓啊XD 11/15 23:48
IBIZA:不過那可以調整就是了.. 11/15 23:48
ledia:開幾十個大概抓個兩秒 就可以等廠商去重開機了 何苦呢 11/15 23:50
dryman:你把crawler當BT用嗎?ㄆㄆ 11/15 23:50
dryman:同時開幾十個連線,你要sync還有存入資料庫也很苦啊老大 11/15 23:51
IBIZA:netant都是整個檔案抓下來 不用存入資料庫^^ 11/15 23:52
dryman:所以才說你不懂crawler在幹嘛啊!!你以為是下載機器人喔 11/15 23:54
yoco315:講越多只會透漏自己無知的程度 :( 11/15 23:58
Wush978:難怪他會在那邊大聲要大家做一些莫名其妙的事情 11/16 00:00
IBIZA:dryman, 抱歉, 我的確不該用我砍站的經驗去看crawler.. 11/16 00:01
yoco315:真氣人 -_________-|| 本來是不想去砍... 11/16 00:01
yoco315:他現在這樣我就很去砍下來 ocr ... 這種手法根本就白痴嘛 11/16 00:02
yoco315:文字改圖這種智障事情也幹的出來... 唉.... 11/16 00:02
yoco315:有爬站能力的人,這種根本擋不住他,字以為聰明的白痴政府 11/16 00:03
ledia:別為這種事浪費自己的時間啊~~~ (咦XD) 11/16 00:04
yoco315:不管下這命令的市政府還是包商,都只充分顯示其智能的缺陷 11/16 00:04
ledia:包商應該是不能下令的, 不過這倒不是第一次看到就是了 11/16 00:05
ledia:政府官員在記者會上的說法是 "包商建議的" 11/16 00:05
IBIZA:正常流程應該是政府的人問包商怎麼擋 然後包商建議方法吧 11/16 00:06
yoco315:擋個屁,有那個閒功夫浪費那個CPU不如想辦法提昇QOS 智缺.. 11/16 00:07
IBIZA:沒有新資料 明天早上八點才有... 11/16 00:11
IBIZA:明天早上八點才會知道一個月的修補能不能承受得住尖峰流量了 11/16 00:11
No:整段看下來...有一個感覺,你先承認你就是... 11/16 00:12
IBIZA:我先承認啊 我對crawler的認知 是受之前砍站的影響 11/16 00:14
IBIZA:所以認為應該都是很多線在不斷的抓or try 11/16 00:14
IBIZA:如果是慢慢抓 那的確影響不大 11/16 00:16
shadowken:不要再造窯了啦 11/16 00:37
chrome:圖片真的很好笑 11/16 06:21
liujh:To IBIZA: 是公開,但不是開放。因為1. 一個月後才給資料, 11/16 13:04
liujh:市場變化很大的.. 2. 資料的授權也寫的不清不楚... 11/16 13:04
eterbless:不要再造謠啦 不提供資料乾脆把網站收掉算了 11/16 21:20
asoedarren:拜託外行的不要再誤導鄉民 說crawler會打掛網站根本是 11/17 23:27
asoedarren:外行的 居然一堆鄉民聞之起舞... 倒果為因 積非成是 11/17 23:28