湖北網頁設計www.juchi.cc 分段簽吅名算fǎ
這種算fǎ是按照一定的規則把網頁切成N段,對每一段進行簽吅名,形成每一段的信息指紋。如果這N個信息指紋里面有M個相同時(m是系統定義的闕值),則認為兩者是復制網頁。
這種算fǎ對于小規模的判斷復制網頁是很好的一種算fǎ,但是對于像Gооgle這樣海量的搜索引擎來說,算fǎ的復雜度相當高。把網站里面共同的部分如導航條、logo、版泉等信息(這些稱之為網頁的“噪音”)過濾掉后剩下的文本。
基于關鍵詞的復制網頁算fǎ
像Gооgle這類搜索引擎,他在抓取網頁的時候都會記下以下網頁信息:
1、網頁中吅出現的關鍵詞(中文分詞技術)以及每個關鍵詞的泉重(關鍵詞密度)。
2、提取meta
descrīption或者每個網頁的512個字節的有效文吅字。
關于第2點,baidu和Gооgle有所不同,Gооgle是提取你的meta
descrīption,如果沒有查詢關鍵字相關的512個字節,而百度是直接提取后者。湖北網頁設計www.juchi.cc提醒這一點大家使用過的都有所體會。