看板 Soft_Job 關於我們 聯絡資訊
小弟目前再做一個網站 和朋友一起合作努力 而我們的網站是有一個搜尋系統 這個搜尋系統搜尋的範圍 希望是能夠在一個特定部份的領域內搜尋 不像google的是是全方位無限空間的搜尋 而這特定領域 可能也是要經過搜尋引擎去搜尋這個領域 再進入這領域搜尋 要是不行這樣分層式的搜尋 就單純限制範圍也無妨 而其中跑出來的資料 也希望不是完全像google一樣是比對相符程度 也有一些其他因素希望能讓我們找到的資料能更符合期望 比如說幾天內的資料優先 流量多大的資料優先 或是同樣都是沒有流量 網頁上顯示的內容再以某種方式判斷優先 所以其中的參數或是什麼 可能和google的有些一樣 我是不懂 或許也是一樣 只是要修改 我想請問的是 我如果外包 徵求人才幫我製作搜尋引擎 做到好 大致符合我的需求的話 大約多少錢 多少時間 因為我非這資工軟體的專業 發的內容可能有些地方大家看了覺得很外行請別見怪 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.140.35.101
smi1e:看你要質量多好 搜尋要做到好非常難 絕不是外包可解決 03/21 15:04
smi1e:你又要filter又要sort, 還有一堆打分數的stage(算字數等) 03/21 15:05
smi1e:要寫到夠快(使用者不會覺得lag)又要好 超難 放棄吧 03/21 15:05
smi1e:用google API兜一兜就算了 03/21 15:06
看樣子是自己來辦不到了
ericinttu:不同意樓上. 有錢好辦事 XD 03/21 16:12
didiOGC:搜尋你自己站內的東西?? 03/21 16:22
站外的東西 網站本身有點像是整合入口
a2350:你有看過google的說明嗎?採用83項因素加入矩陣計算排序 03/21 16:55
a2350:你自己用 sql like '%kw%'的方式去搜就知道多吃資源了 03/21 16:55
blackie1019:上網找凌網 他們有賣搜尋引擎 國家圖書館就是用它們的 03/21 17:01
好像很多錢QQ 可是我的東西可能沒有這麼複雜咧 沒到國家圖書館這種程度 ※ 編輯: DrJoke 來自: 220.140.35.101 (03/21 18:29)
remmurds:當你在google輸入"花博" "臺北國際花卉博覽會"就出現在第 03/21 19:07
remmurds:一頁的第一筆 光要自動化地做到這點就足以寫很多篇論文了 03/21 19:08
Daren0220:google一下關鍵字"lucene",或許對你有幫助 03/21 19:31
appleboy46:由此可見 Google 產生的論文數量 Good 03/21 19:39
Vick753:既然第一行說自己在做,可以先看國外PAPER... 03/21 19:43
francej:重點可能還是有多少用戶,在幫你training 03/21 21:45
francej:MS裡面多的是搞search演算法的專家. 不過bing還是不敵 03/21 21:46
francej:google 03/21 21:47
PRAM:你放棄吧, 只是想寫個小玩具就算了,若真的要商業化,不用做. 03/21 21:59
PRAM:原因樓上一堆人講過了,甚至你去google "Page Rank" 這個詞, 03/21 21:59
PRAM:看到的paper數量會嚇死你,而這只不過是google搜尋引擎的其中 03/21 22:00
PRAM:一小項計算因素,你說你要不要放棄? 03/21 22:00
didiOGC:站外的話你只能靠google,頂多自動加入一些你說的特定領域 03/21 22:36
didiOGC:的關鍵字,那些演算法你應該用不到,因為你又沒有資料內容 03/21 22:37
didiOGC:你資料來源還是得依靠別人提供 03/21 22:38
howshou:沒推文說得那麼誇張吧, 知識管理(KM)廠商都做得到原PO說的 03/21 23:08
howshou:功能阿。 03/21 23:08
yangyr:看來只能用Meta search吧,哈 03/21 23:10
howshou:肯花錢台灣廠商絕對做得到, 例如龍捲風科技這類的。 03/21 23:11
Ageis:如果只是要玩玩的話 google "sphinx" 03/22 00:21
walking:如果只針對單一領域,因為資料量,user都較少,難度自然較低. 03/22 07:27
smi1e:KM那些廠商只搜自己的資料庫跟要crawl internet差很多很多 03/22 09:58
StubbornLin:另一個open source solution - xapian 03/22 11:41
StubbornLin:他們也有在做客製化的樣子 只是中文搜尋的話.. 03/22 11:41
StubbornLin:他們是外國廠商 03/22 11:41
remmurds:龍捲風喔 只能科科了 03/22 12:52
edward13:後端用什麼資料庫? 市面上主流的db幾乎都有全文檢索了 03/22 15:39
didiOGC:不要再跳針了啦,我都已經有問了,他是要搜尋internet的資料 03/22 17:11
didiOGC:除非他自己寫機器人去爬,但是你怎麼爬也爬不贏google 03/22 17:12
howshou:喔, 如果是搜尋Internet, 我收回我的話。 03/22 17:14
hilorrk:nutch這玩具如何XD 03/22 17:26
zwai:直接用google的服務最快啦~~ 03/22 21:44
KASUGAOSAKA:Nutch我研究過,優化演算法還是得靠自己 03/23 00:09
KASUGAOSAKA:客製化,Google也是從lucene那邊持續改進 03/23 00:10
KASUGAOSAKA:你應該是要做垂直式搜尋引擎...但know how要很大 03/23 00:12
edward13:我也以為他只是要搞KM 結果發現是就可博士 03/23 10:42
mingtai1:要做個可以"動"的不難,k一下IR的書就會寫了 03/26 12:14
mingtai1:Crawler+斷詞字典+html parser+反索引+SQL就可以動了. 03/26 12:18
mingtai1:但就跟樓上推文說的一樣 效能才是難的地方 XD 03/26 12:19