1. 主页 > SEO算法 >

装饰公司seo优化教程_预处理_去重(五)

  同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”。

  去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大了,

  典型的指纹计算方法如MD5算法(信息摘要算法第五版)。这类指纹算法的特点是,输入(特征关键词)有任何微小的变化,都会导致计算出的指纹有很大差距。

本文由夜岛黑帽SEO整理发布,欢迎转载:http://www.mctpro.cn/a/SEOsuanfa/3053.html

联系我们

在线咨询:点击这里给我发消息

微信号:夜岛SEO

工作日:9:30-18:30,节假日休息