Re: [請益] google的原理...???

作者Seki (莫名其妙…)

看板ask-why

標題Re: [請益] google的原理...???

時間Sat May 21 07:48:38 2005

※ 引述《rainley (利挽狂瀾)》之銘言： : 為什麼他可以這麼快阿...????? : 找資料不花到一秒鐘 o_O : 很不可思議阿他怎麼搜尋的搜尋哪裡？？？簡單的講一下Google的搜尋原理當我們想要搜尋某件資料時，會連結到Google的首頁，然後輸入相關的字詞然後搜尋引擎便會開始進行搜尋資料的動作當然Google不可能等到我們輸入關鍵字之後，才要開始一一比對所有的網頁這樣子太慢了沒有效率所以在平常的時候Google就已經開始做一些關鍵性的動作了。（應該說是無時無刻，在你準備搜尋動作之前就已經一直持續運作著以下內容） 1.首先Google的系統會不斷尋找收集可能會被使用到的內容然後經由特殊的程式碼（crawler）去偵測網路上所有的網頁針對這些網頁以及網頁裡面超連結的其他網頁進行檢索的動作只要符合系統要找的內容，系統就會把該網頁儲存起來放在Google的某個位置。 2.系統會在使用者不斷的搜尋當中去做統計並且建立各字詞的重要性。（簡單來說就是統計並紀錄哪些字詞常常會被查詢） 3.系統會根據相關字詞建立高效率的資料樹把字詞和有關的網頁全部連結起來成為一棵棵的資料樹（其實就是「索引」）並且儲存起來成為一個龐大又有效率的資料庫以供查詢需要。當我們輸入某個字詞要準備查詢資料時，其實系統並不是亂槍打鳥搜尋每個網頁而是搜尋比對事先建立好的資料樹只要與輸入的關鍵字相關的資料樹都有可能被搜尋到系統的搜尋過程會從資料樹的根部開始，然後慢慢往上搜尋每遇到一個分支時（分支代表多個字詞與相關網頁）系統都會去評估取捨該分支網頁是否符合使用者所輸入的字詞一直到這棵樹全部找完為止然後系統會開始針對這些符合搜尋內容的網頁做排序，把精確度高的排在前面最後一一列出連結，然後搜尋工作完成，我們可以得到資料搜尋的結果。所以，在我們從輸入到出現搜尋結果的短短不到一秒內 Google實際上只做了搜尋相關的幾個資料樹以及搜尋結果排序的工作資料庫的部分都是事先就已經建立起來的。 3月號的科學人雜誌有個單元很詳細的介紹了Google的種種以及搜尋引擎的發展有興趣深入瞭解的話不妨找來看看 :) : 另想要讓特定網頁在google被估到要怎麼做？？？不太懂你的意思？一般只要該網頁是公開的話，只要輸入與該網頁相關的字詞不是應該都會被搜尋到的嗎....？ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 203.73.234.169

推 rainley:謝謝:) 不過140.114.222.152 05/21

→ rainley:好難想像會有偵測網路上的網頁的程式碼阿 @@140.114.222.152 05/21

→ rainley:關於後面那個問題140.114.222.152 05/21

→ rainley:我用學校工作站架網頁放很久了怎麼樣都估不到140.114.222.152 05/21

→ rainley:是社團的應該被點次數不少但還是估不到~"~140.114.222.152 05/21

> -------------------------------------------------------------------------- < 作者: flytzeng (~翔~) 看板: ask-why 標題: Re: [請益] google的原理...??? 時間: Sat May 21 12:39:49 2005 ※ 引述《Seki (莫名其妙…)》之銘言： : ※ 引述《rainley (利挽狂瀾)》之銘言： : : 為什麼他可以這麼快阿...????? : : 找資料不花到一秒鐘 o_O : : 很不可思議阿他怎麼搜尋的搜尋哪裡？？？ : 簡單的講一下Google的搜尋原理 : 當我們想要搜尋某件資料時，會連結到Google的首頁，然後輸入相關的字詞 : 然後搜尋引擎便會開始進行搜尋資料的動作 : 當然Google不可能等到我們輸入關鍵字之後，才要開始一一比對所有的網頁 : 這樣子太慢了沒有效率 : 所以在平常的時候Google就已經開始做一些關鍵性的動作了。 : （應該說是無時無刻，在你準備搜尋動作之前就已經一直持續運作著以下內容） : 1.首先Google的系統會不斷尋找收集可能會被使用到的內容 : 然後經由特殊的程式碼（crawler）去偵測網路上所有的網頁 : 針對這些網頁以及網頁裡面超連結的其他網頁進行檢索的動作 : 只要符合系統要找的內容，系統就會把該網頁儲存起來放在Google的某個位置。 : 2.系統會在使用者不斷的搜尋當中去做統計 : 並且建立各字詞的重要性。（簡單來說就是統計並紀錄哪些字詞常常會被查詢） : 3.系統會根據相關字詞建立高效率的資料樹 : 把字詞和有關的網頁全部連結起來 : 成為一棵棵的資料樹（其實就是「索引」） : 並且儲存起來成為一個龐大又有效率的資料庫以供查詢需要。 : 當我們輸入某個字詞要準備查詢資料時，其實系統並不是亂槍打鳥搜尋每個網頁 : 而是搜尋比對事先建立好的資料樹 : 只要與輸入的關鍵字相關的資料樹都有可能被搜尋到 : 系統的搜尋過程會從資料樹的根部開始，然後慢慢往上搜尋 : 每遇到一個分支時（分支代表多個字詞與相關網頁） : 系統都會去評估取捨該分支網頁是否符合使用者所輸入的字詞 : 一直到這棵樹全部找完為止 : 然後系統會開始針對這些符合搜尋內容的網頁做排序，把精確度高的排在前面 : 最後一一列出連結，然後搜尋工作完成，我們可以得到資料搜尋的結果。 : 所以，在我們從輸入到出現搜尋結果的短短不到一秒內 : Google實際上只做了搜尋相關的幾個資料樹以及搜尋結果排序的工作 : 資料庫的部分都是事先就已經建立起來的。 : 3月號的科學人雜誌有個單元很詳細的介紹了Google的種種以及搜尋引擎的發展 : 有興趣深入瞭解的話不妨找來看看 :) : : 另想要讓特定網頁在google被估到要怎麼做？？？ : 不太懂你的意思？ : 一般只要該網頁是公開的話，只要輸入與該網頁相關的字詞 : 不是應該都會被搜尋到的嗎....？ http://www.google.com.tw/addurl/?hl=zh-TW&continue=/addurl 上面這個網址可以登陸特定的網頁到google上登錄或更新您的網址為避免遺珠之憾，每次 Google 漫遊時都會將新網站加到索引內，也歡迎您提供您的網址。但也不是所有的網址都會被收錄喔，Google 需要一些時間查核網頁資訊以決定使用與否。請輸入包含 http:// 的完整網址。例如：http://www.google.com/。另外也可以加上描述網頁內容的說明或關鍵字。這些說明將只供內部參考使用，不會影響您的網頁在索引內的定位。請注意：您只要登錄網站的首頁就夠了，不必登錄網站的每一頁。Google 的漫遊器 Googlebot 只要掌握一頁的資料，就會將網站的其他網頁都找出來。重要：Google 會定期檢查索引內的所有網站，所以您不必提供更新或過時的連結。一旦我們更新整個索引後，下次漫遊時不通的連結都會以「淡化」處理。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.240.204

推 rainley:@o@ 馬上就試試看～～～ THX~~140.114.222.152 05/21