搜索引擎本身不应存在更多重复网页。对于用户而言,偶尔阅读到些优质重要文章便会有分享转载等现象,这点无疑提升了用户体验;但对搜索引擎而重复的网页意味着还要至少多处理一遍,有耗效率。搜索引擎去重对标着我们针对网页内布局的去重工作,过于重复不仅仅不利于
SEO,对用户体验上也是不好的。
网页去重原理
为何去重:互联网重复网页过多、不应存在太多重复的内容;在有限的查询结果页中出现相同重复的网页内容,无论对搜索引擎还是用户来说都是不友好的。
重要词区分:根据两个网页内关键词的特征进行区分;在一篇文章内容中抽取些高频词与低频词作为特征重要词,重要词往往能说明内容主题,根据重要词对比两篇文章的相似度。比如原创与伪原创,伪原创的特性是主关键词不变,替换其他同语义词汇,导致与原文重复度还是较高,质量较低。
段落区分:实际上,通过一句话、一段话进行的去重标记。也就是飘红,复制文字内容的一段话在搜索引擎上查询,在搜索结果中飘红了就说明是复制粘贴人家的信息,飘红率低的话没事,市面上基本的原创检测就是利用这一点,而非语义鉴别。
重复网页对搜索引擎的不利影响:
正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索会消耗大量的服务器资源。
重复网页对搜索引擎的好处:
如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。
网页去重时,两个相似度较高的网页搜索引擎会保留哪个?哪个又该去重过滤呢?保留先被搜索引擎索引的网页,爬虫率先发现的网页能很大程度上保证优先原创的原则。