精華區beta Wikipedia 關於我們 聯絡資訊
※ 引述《jnlyu (Alan)》之銘言: : 關鍵字以"台灣"為例 : http://nutch.taipedia.info/ : 搜尋結果沒有亂碼,但右上角的三個選項(簡介 常見問題...)再搜尋後會變亂碼 那部分是... nutch 的 i18n 沒做好,因為對功能影響比較小,所以會晚點再修。 : http://holo.nutch.taipedia.info/ : 已經沒有亂碼問題(之前有碰到),右上角的選項同上有亂碼情況,且似乎比較不穩 : 某些圖片讀不出來(搜尋後) : 資料庫還沒跑完吧? 搜尋結果還不多 圖片讀不出來是因為 holo 這個放在另一台機器上,那台機器前面有 firewall 擋著, 而我暫時用某種 reverse proxy 轉出來,但有些地方會失敗。 轉不出 firewall 的部分就會那樣永遠讀不出東西, 同樣的情況也會發生在 "show all hits" 上。 holo 的資料庫跑完了,結果不多是因為 nutch 預設一次只會顯示最前面兩筆, 要按 show all hits 才會全部展開。但因為那 firewall... 我還在想辦法找別的比較沒問題的機器放。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.105.131.104
jnlyu:嗯,辛苦了 04/04 01:00
b6s:還好 :) 對了,zhwiki 才抓了 28000 頁,看來要想別的方法... 04/04 01:10
b6s:因為今天跳電停機了一陣子,就乾脆把 40000 頁 index 上線了 04/05 00:41
b6s:現在大約有 69000 頁上線,應該夠了。接下去來試別家 engines 04/05 17:40