搜索引擎原理大致分為網頁收集、預處理、用戶查詢三步。預處理簡單點說就是把抓取到的網頁分成一個一個關鍵詞與網頁進行對應,所以一個網頁就會被分成非常多的關鍵詞。詞怎么分,對標詞是怎么搜索。這樣在排序展現的過程中,同樣起到了十分重要的作用。
基于詞典進行的分詞
·何為詞典:搜索引擎自己的詞庫,注意是詞并不是字!搜索引擎會有自身的詞庫集合稱為詞典,假設一篇文章內容中800個字被拆分了350個詞,那么對標詞典該篇文章分詞為350個詞。
·正向最大匹配:由左到右,匹配最長的那個詞;舉例:
SEO優化公司,使用正向最大匹配,優先匹配到的是SEO優化。
·逆向最大匹配:由右到左,匹配最長的那個詞;使用逆向最大匹配,優先匹配到為優化公司。
·最小匹配:通過詞典本身,匹配最小粒度的詞組。最小匹配,優先匹配到SEO。
基于統計進行的分詞
·何為統計:分析網頁內容,將相鄰且出現次數最多的詞列為目標分詞;
·統計后計入詞典:通過統計發現新詞,并寫入到詞典;
·詞頻計算:利用TFDF等算法,計算當前網頁與哪些詞更相關。
那中文分詞對我們SEO有何幫助呢?
大家都知道網站百分之八十的流量源于長尾關鍵詞,很多長尾關鍵詞都是包含我們的業務詞,一個長尾詞通過中文分詞后可匹配到我們所要優化的目標關鍵詞,可同時優化幾個關鍵詞,間接提升核心
關鍵詞排名。