下面我們說說大家最感興趣的排序問題吧。用戶輸入關鍵詞進行檢索,百度搜索引擎在排序環節要做兩方面的事情,第一是把相關的網頁從索引庫中提取出來,第二是把提取出來的網頁按照不同維度的得分進行綜合排序?!安煌S度”包括:
1,相關性:網頁內容與用戶檢索需求的匹配程度,比如網頁包含的用戶檢查關鍵詞的個數,以及這些關鍵詞出現的位置;外部網頁指向該頁面所用的錨文本等
2,權威性:用戶喜歡有一定權威性網站提供的內容,相應的,百度搜索引擎也更相信優質權威站點提供的內容。
3,時效性:時效性結果指的是新出現的網頁,且網頁內承載了新鮮的內容。目前時效性結果在搜索引擎中日趨重要。
4,重要性:網頁內容與用戶檢查需求匹配的重要程度或受歡迎程度
5,豐富度:豐富度看似簡單卻是一個覆蓋范圍非常廣的命題??梢岳斫鉃榫W頁內容豐富,可以完全滿足用戶需求;不僅可以滿足用戶單一需求,還可以滿足用戶的延展需求。
6,受歡迎程度:指該網頁是不是受歡迎。
以上便是百度搜索引擎決定搜索結果排序時考慮的六大原則,那么六大原則的側重點是怎樣的呢?哪個原則在實際應用時占比最大呢?其實在這里沒有一個確切的答案。在百度搜索引擎早期,這些閾值的確是相對固定的,比如“相關性”在整體排序中的重量可以占到七成。但隨著互聯網的不斷發展,檢索技術的進步,網頁數量的爆發式增長,相關性已經不是難題。于是百度搜索引擎引入了機器學習機制,讓程序自動產出計算公式,推進排序策略更加合理。