搜索引擎页面去重算法剖析之I-Match算法

互联网中存在了大量的重复页面,据统计阐明近似重复页面的人数居于网站总人数的29%,而完全重复页面霸占了22%。这些重复的页面对搜索引擎来说霸占了这些的资源,因此搜索引擎对页面的去重只是搜索引擎中很重要的一个算法。因此现在就和你们剖析下搜索引擎页面去重算法-I-Match算法。

对于I-Match算法来说主要是依据大规模的文本集合进行统计,对于文本中出现的所有词汇,按照词组的IDF(逆文本词频因子)来进行由高至低的排序,除去得分最高跟得分最低的词汇,保留剩下的词汇最为特性辞典。这一方法主要是删掉文本中无关的关键词,保留重要关键词。下面是I-Match步骤示意图:

I-Match步骤示意图

获得全局特性字典以后,对还要去重的页面,扫描下才能荣获该页面上出现的所有词汇,对于某些词汇按照特性字典过滤:保留在特性字典上出现的词汇,用来抒发文档的主要内容,删除没有在特性字典中出现的内容。提取出对应的特性词后来在运用哈希函数对特性单词进行哈希估算,获得的数值就是该文档的文本指纹。

所有文档都统计完以后假如想查看两篇文档是否重复只须要查看文档的文本指纹是否近似,如果近似则表示两篇文档重复。这样的比对方法太直观并且效率也很高,去重疗效比较显著。

我们seo在做文章伪原创的时侯常常会把文章的成语跟词句对换位置,以此想哄骗搜索引擎觉得这是一篇原创的文章,但是I-Match对文档之间的词汇次序并不。如果两篇文章中包含的词汇一样只是是对换了词汇的位置,那么I-Match算法还是将两篇文章觉得是重复文章。

但是这个算法还是有很多问题存在。1,容易出现错判。尤其是面对短文本的时侯,短文本原本词汇比较少,经过特性字典过滤以后只保留极少的特笔录,这样容易把两篇本身不重复的文档误觉得重复,这个对短文档来说状况比较严重。2.稳定性不好,对文档更改。假如对文档A作出一点小更改后生成文档B,那么这个算法太或许分辨出两篇文档为不重复文档。例如:我们在文档A中加入一个词汇H,生成文档B。I-Match算法在进行估算的时侯,两篇文章只是相差一个词汇H,如果词汇H不再特性字典中这么两篇文章的特笔录相似即判断为重复文档,但是会出现此类状况,单词H出现在特性字典中搜索引擎优化(seo)知识完全手册,那么文本B比文档A多出一个特性,该算法太或许还会判断两篇文档不重复。这就是I-Match最大的一个问题。

基于I-Match出现的那种问题,有人对该算法进行了改进。原算法对文档的改变十分,主要是因为对单一特性辞典的过于依赖,改进后的I-Match就是对特性字典的依赖性。可以选用多个特性辞典,只要每位特性辞典大体相似就可以忽视的差异。

改变后的I-Match算法主要是:类似I-Match原始算法,形成一个特性辞典,为了跟其他字典相差别可以成为主特点辞典;然后按照主特点辞典衍生出若干小的辅助特性辞典。为了保证特性辞典的主体相似,可以从主特点辞典中随机删掉若干词典项之后生成一个新的特性辞典,这个特点辞典就叫做辅助特性辞典,重复若干次数后就可以获得若干辅助特性辞典。当两篇文档进行对比的时侯可以对主特点辞典跟辅助特性辞典一起比对,只要保证每位特性字典的大体内容相似,忽略差别能够判断文档是否重复。下图是I-Match改进后的示意图:

I-Match算法改进

上图演示中有两个辅助特性辞典,主特点字典舍弃了特性5跟特点6产生辅助特性辞典1,主特点辞典舍弃了特性2跟特点3产生了辅助特性辞典2。并且依照三个特性辞典分别产生了文本指纹。如果两篇文档有两个指纹信息相似这么即可判断两篇文档重复。

改进后的I-Match算法大大增加了文档去重的成功率,增加了算法的稳定性。

对SEO启发:传统的伪原创文章,对一篇文章进行简略的更改,首尾做一些小的变动,然后把后边词句调整次序,这个对搜索引擎来说都是没有意义的,还是可以分辨出两篇文章是否重复。因为我们对于文章的建设还是要原创,或者对原文章进行比较大的改动搜索引擎优化(seo)知识完全手册,使两篇文章的特点字典发生改变。

词语解释:

IDF 逆文档词频因子:衡量一个词普遍重要度的考量因子,某一特定字词的IDF,可用总文件数量乘以富含该字词文档数量,将得到的商取对数得到。

表示文档数量 n表示富含词条k的文档总数。

© 版权声明
THE END
喜欢就支持以下吧
点赞0
分享
评论 抢沙发

请登录后发表评论