所謂內容處理,指搜索引擎針對爬蟲抓取后的內容進行處理。爬蟲爬取到網頁信息采集到數據庫,然后進行網頁處理,再存儲到索引庫。了解了搜索引擎是如何處理內容的,對后續網頁參與排名有著十分重要的意義。
一、判斷網頁的類型
·網頁類型:是網頁,還是PDF、Word、Excel等其他特殊文件文檔;
·網頁屬性:是首頁,還是專題頁、文章、聚合列表頁等等;
·網頁主體:是文本內容、視頻內容、圖片內容還是其他內容等。
二、提取網頁的文本信息
·主體識別:識別網頁的主體部分,并進行提取;
·標簽提取:根據TDK、Strong、H標簽、a鏈接內容;
·提取難度:JavaScript、Flash、圖片.視頻等內容提取。
三、去重頁面噪音
·廣告剔除:將網頁本身的廣告、導航、鏈接、圖片、版權信息等進行過濾;
·相關內容:除了主題內容外,相關的一些推薦版位大概率上是不會易除的;
·鏈接保留:部分鏈接錨文本在一定概率上也會被保留,取決于相關性.質量程度;
·去停止詞:關聯到分詞,將停止詞:的、得、地、啊、呀、呵、哈等無意義詞進行剔除;需要注意的是,這個并非嚴格道守,中間涉及語意理解。
上述就是搜索引擎處理網頁信息的流程原理,
搜索引擎優化一直再幫用戶更好的理解這些信息內容,尤其是今后的語義方面分析至關重要。