作者wildcat (歪的貓)
看板SYSOP
標題Re: [問題] 關於 BBS 搜尋引擎問題
時間Tue Jul 24 13:35:01 2007
前幾天站上使用者(嗯,我自己有個小BBS)問我對於這個搜尋引擎的看法,
原本還沒搞懂他是怎麼抓資料的,隨便的回應了一下,
今天花了些時間把這兒的文都爬完,看來比想像中的嚴重啊…
這個引擎比我想像中的暴力,而且不是透過正常程序來取得文章,
可能是註冊一個 robot 帳號,或是透過 guest,
加上一個改裝過的 telnet client,
到站上一個一個的看板去作砍站的動作…
先設定好進入看板列表以及每個板文章列表的按鍵,
然後進入各板後一篇一篇文章往下掃,
遇到新的 header 就算下一篇,
像 Ptt 這種大站,可能同時開好幾個分身在掃吧?
如果取得索引的作法真的是這樣,那就沒什麼好談的了…
我的態度會跟 Ptt 這邊鄉民的態度一樣。
接著,以下言論可能會讓我搬石頭砸自己的腳,
跟我之前寫關於部落格觀察黑名單的角度不太相同…
應該說,blog 跟 BBS 對我而言,是兩種不同的媒介,
而會讓我用不同的態度去面對吧(這也是台灣BBS的獨特生態吧)。
而且,讓人自己來輸入,跟站方主動去砍資料,本來就有很大的差異…
要去取得一個 BBS 站台內的文章資料,正確的方式應該是先知會站長,
或是至少像正常的搜尋引擎,有個 robot.txt 可以設定,
之後不管透過什麼方式,再一一去取得資料。
(甚至應該讓各板有可以自行設定是否要被搜尋到的權限)
不然,講難聽一點,這跟鎖匠自己拿著開鎖的工具去行竊有何兩樣?
打了一把神兵利器,就殺幾個人看看好不好用?
再者,其實不論 Google 或是 Yahoo,對於數字的辨識都會自動略過,
除了數字很難模糊比對之外,數字通常也涉及到個人隱私的部份,
例如 ip、電話號碼、身份證…
試想一下,如果不把這些東西加以過濾,
我今天寫個程式暴力的去砍 Google 的搜尋引擎,
從身份證字號 A100000000 跑到 Z999999999,可以掃出多少對應的姓名?
或是手機號碼去找出個人資料?
而 BBS 的文章大多有紀錄 ip,這也是目前使用者最介意的一項吧…
要判斷 key 是不是數字很簡單,YouSee 要快改掉。
再來是 id 的部份… 我覺得會被用 id 去搜尋在所難免啦,
連我自己都做過一個板一個板去掃某個 id 的事情啊 :p
只是不要成為有心人士可以加以利用的工具,
亦即不要把 id 變成獨立的欄位…
例如找 wildcat,會把整篇文章裡面有 wildcat 的都列出來…
增加要找到特定人士的困難度。
之前部落格觀察,有些人的部落格被加入就哇哇叫了,
這種玩意抗議的聲浪會更大也很正常 XD
不過,能把 Ptt 整個砍進去,這演算法(或是硬體)相當夠力啊 XD
講了這麼多,還是請 YouSee 站方慎重的考慮一下使用的方式吧。
(拿走了也要不回來了,就算不開放使用,
其實 Ptt 現在所有的內容已經被複製一份到 YouSee 的 Index 去,
至少站方想找什麼都方便的很了吧… Orz )
本文同步發表於 WD 個人板跟我自己的 Blog…
參考閱讀:
* 給我不被加入黑名單的名單!
http://blog.wildcat.tw/p_382.php
* 部落格觀察
http://look.urs.tw
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 219.84.164.139
→ wildcat:對了,附上當初光碟事件判決書 219.84.164.139 07/24 14:28
→ wildcat:更正,光碟月刊事件… 219.84.164.139 07/24 14:29
推 whie:很久以前咕狗也可以用IP查來歷,後來拿掉了吧 122.124.109.22 07/24 17:55
→ whie:我承認我查過IP。XD 不是做不到,而是不能做 122.124.109.22 07/24 17:56
推 bestpika:沒人說做不到啊.... 203.73.17.236 07/24 18:37