看板 SYSOP 關於我們 聯絡資訊
前幾天站上使用者(嗯,我自己有個小BBS)問我對於這個搜尋引擎的看法, 原本還沒搞懂他是怎麼抓資料的,隨便的回應了一下, 今天花了些時間把這兒的文都爬完,看來比想像中的嚴重啊… 這個引擎比我想像中的暴力,而且不是透過正常程序來取得文章, 可能是註冊一個 robot 帳號,或是透過 guest, 加上一個改裝過的 telnet client, 到站上一個一個的看板去作砍站的動作… 先設定好進入看板列表以及每個板文章列表的按鍵, 然後進入各板後一篇一篇文章往下掃, 遇到新的 header 就算下一篇, 像 Ptt 這種大站,可能同時開好幾個分身在掃吧? 如果取得索引的作法真的是這樣,那就沒什麼好談的了… 我的態度會跟 Ptt 這邊鄉民的態度一樣。 接著,以下言論可能會讓我搬石頭砸自己的腳, 跟我之前寫關於部落格觀察黑名單的角度不太相同… 應該說,blog 跟 BBS 對我而言,是兩種不同的媒介, 而會讓我用不同的態度去面對吧(這也是台灣BBS的獨特生態吧)。 而且,讓人自己來輸入,跟站方主動去砍資料,本來就有很大的差異… 要去取得一個 BBS 站台內的文章資料,正確的方式應該是先知會站長, 或是至少像正常的搜尋引擎,有個 robot.txt 可以設定, 之後不管透過什麼方式,再一一去取得資料。 (甚至應該讓各板有可以自行設定是否要被搜尋到的權限) 不然,講難聽一點,這跟鎖匠自己拿著開鎖的工具去行竊有何兩樣? 打了一把神兵利器,就殺幾個人看看好不好用? 再者,其實不論 Google 或是 Yahoo,對於數字的辨識都會自動略過, 除了數字很難模糊比對之外,數字通常也涉及到個人隱私的部份, 例如 ip、電話號碼、身份證… 試想一下,如果不把這些東西加以過濾, 我今天寫個程式暴力的去砍 Google 的搜尋引擎, 從身份證字號 A100000000 跑到 Z999999999,可以掃出多少對應的姓名? 或是手機號碼去找出個人資料? 而 BBS 的文章大多有紀錄 ip,這也是目前使用者最介意的一項吧… 要判斷 key 是不是數字很簡單,YouSee 要快改掉。 再來是 id 的部份… 我覺得會被用 id 去搜尋在所難免啦, 連我自己都做過一個板一個板去掃某個 id 的事情啊 :p 只是不要成為有心人士可以加以利用的工具, 亦即不要把 id 變成獨立的欄位… 例如找 wildcat,會把整篇文章裡面有 wildcat 的都列出來… 增加要找到特定人士的困難度。 之前部落格觀察,有些人的部落格被加入就哇哇叫了, 這種玩意抗議的聲浪會更大也很正常 XD 不過,能把 Ptt 整個砍進去,這演算法(或是硬體)相當夠力啊 XD 講了這麼多,還是請 YouSee 站方慎重的考慮一下使用的方式吧。 (拿走了也要不回來了,就算不開放使用, 其實 Ptt 現在所有的內容已經被複製一份到 YouSee 的 Index 去, 至少站方想找什麼都方便的很了吧… Orz ) 本文同步發表於 WD 個人板跟我自己的 Blog… 參考閱讀: * 給我不被加入黑名單的名單! http://blog.wildcat.tw/p_382.php * 部落格觀察 http://look.urs.tw -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 219.84.164.139
wildcat:對了,附上當初光碟事件判決書 219.84.164.139 07/24 14:28
wildcat:http://myurl.tw/wildcat/HopeNet 219.84.164.139 07/24 14:29
wildcat:更正,光碟月刊事件… 219.84.164.139 07/24 14:29
whie:很久以前咕狗也可以用IP查來歷,後來拿掉了吧 122.124.109.22 07/24 17:55
whie:我承認我查過IP。XD 不是做不到,而是不能做 122.124.109.22 07/24 17:56
bestpika:沒人說做不到啊.... 203.73.17.236 07/24 18:37