推 smi1e:看你要質量多好 搜尋要做到好非常難 絕不是外包可解決 03/21 15:04
→ smi1e:你又要filter又要sort, 還有一堆打分數的stage(算字數等) 03/21 15:05
→ smi1e:要寫到夠快(使用者不會覺得lag)又要好 超難 放棄吧 03/21 15:05
→ smi1e:用google API兜一兜就算了 03/21 15:06
看樣子是自己來辦不到了
推 ericinttu:不同意樓上. 有錢好辦事 XD 03/21 16:12
推 didiOGC:搜尋你自己站內的東西?? 03/21 16:22
站外的東西 網站本身有點像是整合入口
→ a2350:你有看過google的說明嗎?採用83項因素加入矩陣計算排序 03/21 16:55
→ a2350:你自己用 sql like '%kw%'的方式去搜就知道多吃資源了 03/21 16:55
推 blackie1019:上網找凌網 他們有賣搜尋引擎 國家圖書館就是用它們的 03/21 17:01
好像很多錢QQ
可是我的東西可能沒有這麼複雜咧 沒到國家圖書館這種程度
※ 編輯: DrJoke 來自: 220.140.35.101 (03/21 18:29)
→ remmurds:當你在google輸入"花博" "臺北國際花卉博覽會"就出現在第 03/21 19:07
→ remmurds:一頁的第一筆 光要自動化地做到這點就足以寫很多篇論文了 03/21 19:08
推 Daren0220:google一下關鍵字"lucene",或許對你有幫助 03/21 19:31
推 appleboy46:由此可見 Google 產生的論文數量 Good 03/21 19:39
推 Vick753:既然第一行說自己在做,可以先看國外PAPER... 03/21 19:43
→ francej:重點可能還是有多少用戶,在幫你training 03/21 21:45
→ francej:MS裡面多的是搞search演算法的專家. 不過bing還是不敵 03/21 21:46
→ francej:google 03/21 21:47
推 PRAM:你放棄吧, 只是想寫個小玩具就算了,若真的要商業化,不用做. 03/21 21:59
→ PRAM:原因樓上一堆人講過了,甚至你去google "Page Rank" 這個詞, 03/21 21:59
→ PRAM:看到的paper數量會嚇死你,而這只不過是google搜尋引擎的其中 03/21 22:00
→ PRAM:一小項計算因素,你說你要不要放棄? 03/21 22:00
推 didiOGC:站外的話你只能靠google,頂多自動加入一些你說的特定領域 03/21 22:36
→ didiOGC:的關鍵字,那些演算法你應該用不到,因為你又沒有資料內容 03/21 22:37
→ didiOGC:你資料來源還是得依靠別人提供 03/21 22:38
→ howshou:沒推文說得那麼誇張吧, 知識管理(KM)廠商都做得到原PO說的 03/21 23:08
→ howshou:功能阿。 03/21 23:08
→ yangyr:看來只能用Meta search吧,哈 03/21 23:10
→ howshou:肯花錢台灣廠商絕對做得到, 例如龍捲風科技這類的。 03/21 23:11
→ Ageis:如果只是要玩玩的話 google "sphinx" 03/22 00:21
推 walking:如果只針對單一領域,因為資料量,user都較少,難度自然較低. 03/22 07:27
推 smi1e:KM那些廠商只搜自己的資料庫跟要crawl internet差很多很多 03/22 09:58
推 StubbornLin:另一個open source solution - xapian 03/22 11:41
→ StubbornLin:他們也有在做客製化的樣子 只是中文搜尋的話.. 03/22 11:41
→ StubbornLin:他們是外國廠商 03/22 11:41
→ remmurds:龍捲風喔 只能科科了 03/22 12:52
推 edward13:後端用什麼資料庫? 市面上主流的db幾乎都有全文檢索了 03/22 15:39
推 didiOGC:不要再跳針了啦,我都已經有問了,他是要搜尋internet的資料 03/22 17:11
→ didiOGC:除非他自己寫機器人去爬,但是你怎麼爬也爬不贏google 03/22 17:12
→ howshou:喔, 如果是搜尋Internet, 我收回我的話。 03/22 17:14
→ hilorrk:nutch這玩具如何XD 03/22 17:26
→ zwai:直接用google的服務最快啦~~ 03/22 21:44
推 KASUGAOSAKA:Nutch我研究過,優化演算法還是得靠自己 03/23 00:09
→ KASUGAOSAKA:客製化,Google也是從lucene那邊持續改進 03/23 00:10
→ KASUGAOSAKA:你應該是要做垂直式搜尋引擎...但know how要很大 03/23 00:12
→ edward13:我也以為他只是要搞KM 結果發現是就可博士 03/23 10:42
推 mingtai1:要做個可以"動"的不難,k一下IR的書就會寫了 03/26 12:14
→ mingtai1:Crawler+斷詞字典+html parser+反索引+SQL就可以動了. 03/26 12:18
→ mingtai1:但就跟樓上推文說的一樣 效能才是難的地方 XD 03/26 12:19