搜索引擎質量的高低很大程度上是取決于搜索結果的網(wǎng)頁內容與用戶體驗。搜索引擎在查找能滿足用戶需求的網(wǎng)頁時,主要考慮兩方面:網(wǎng)頁和查詢的相關性與網(wǎng)頁的重要性。網(wǎng)頁和查詢的相關性是指用戶搜索查詢與網(wǎng)頁內容的內容相似性得分,而網(wǎng)頁的重要性通常以鏈接分析計算方法評定;本文主要簡述搜索引擎如何判斷網(wǎng)頁和查詢的相關性?
判斷網(wǎng)頁內容是否與用戶查詢的關鍵詞相關,這得看搜索引擎所采用的檢索模型。幾種常用的檢索模型:布爾模型、向量空間模型、概率模型、語言模型及機器學習排序算法。
1.布爾模型
布爾模型簡單來說就是在一個網(wǎng)頁中是否出現(xiàn)用戶所查詢的詞,是與非,包含于未包含。比如用戶搜索的關鍵詞是SEO,希望得到SEO相關的信息,那么當網(wǎng)頁內容中出現(xiàn)SEO這個詞,就說明該網(wǎng)頁與用戶查詢詞相關。布爾模型也是檢索模型中最簡單的一種,優(yōu)缺點也很直觀。
2.向量空間模型
向量空間模型將查詢詞和文檔中關鍵詞轉為特性向量,然后使用余弦公式來計算文檔與查詢的相似性并排序輸出結果。其中主要闡述TF-IDF算法,TF詞頻和IDF逆文檔頻率。
TF詞頻,即一個單詞在內容中出現(xiàn)的次數(shù),出現(xiàn)次數(shù)較多的詞往往能說明該篇內容的主題信息。IDF逆文檔頻率是一個單詞普遍重要性的度量,突顯特征詞。如果某個網(wǎng)頁內容中某個關鍵詞的詞頻很高,而且這個單詞在網(wǎng)頁搜索結果中與其他網(wǎng)頁內容中很少出現(xiàn),那么這個關鍵詞的權值會很高。
SEO普遍運用就是關鍵詞密度,但無統(tǒng)一衡量標準,勿拿2%~8%為關鍵詞密度標準。
3.概率模型
概率模型中目前最成功的便是BM25模型,目前大部分商業(yè)搜索引擎都采用它作為相關性排序模型。在TF-IDF算法基礎上延伸了相關概率后續(xù)詞一說,比如搜索SEO一詞,很大部分可能會搜SEO培訓、SEO服務等等。在海量大數(shù)據(jù)中推導用戶查詢詞與用戶后續(xù)需求的概率,多維度滿足用戶需求。目前百度官方可供參考的便是百度指數(shù)的相關需求圖譜,有些后續(xù)詞依據(jù),但僅供參考;也不局限于查詢詞的百度下拉框、相關搜索等后續(xù)。
網(wǎng)頁是指整體,一個網(wǎng)頁中可以劃分為不同區(qū)域。比如網(wǎng)頁標題、描述、網(wǎng)頁內容、網(wǎng)頁頭部底部等等,不同的區(qū)域所對應權值不同,常說的網(wǎng)頁標題肯定權值不低,標題中包含相關關鍵詞很大程度上就以說明了網(wǎng)頁內容的中心思想。基本了解了搜索引擎判斷網(wǎng)頁和查詢的相關性,不用一個勁的堆砌關鍵詞與琢磨關鍵詞密度了。