什么样的网页才算是有价值?

搜索引擎每次处理着数以亿计的查询恳求,每个查询恳求都代表了一个用户对于某些资源的特定需求。多数时侯,通过查询返回的网页结果,这些需求被满足了,我 们可以觉得结果中的这些页面对特定用户的特定需求形成了价值。那么对于搜索引擎而言,页面的价值是指哪些,我们为何要研究页面价值,技术上如何判定页面的价值呢?

1. 什么页面价值

前面我们说了,某个页面满足了某一用户的特定需求,就展现了这个页面对用户的价值。那么对搜索引擎而言,价值展现在这些方面呢?一个简略的结论,所有可能会对用户形成价值的页面都是对搜索引擎有价值的,将某些页面建入搜索引擎的索引中才能满足最终检索至他们用户的需求,我们称这些价值为检索价值。只要是能解决某个用户信息需求的搜索引擎优化(seo)知识完全手册,并且是可以通过这些正常检索需求抵达的,那么就是有检索价值的。

小学生张三喜欢在qzone上写杂记,写他前天喝了哪些,今天玩了哪些。这些内容,是有价值的。它们对张三的父母、同学、老师,以及其他小学生,和对小学生杂记感兴趣的人来说,都是有价值的。对于这个信息体来说,“张三”这个昵称是检索的“key”。

有一些信息单元,只有“浏览”价值,而没有抵达该信息的检索途径,那么该资源或许是有价值的,但检索价值就太低。比如一张百度大厦附近的地图,从浏览视角,是有价值的;但是若果没有任何周边文字说明(或者link的anchor text),只有一张光秃秃的地图,就没有检索价值。当然,如果图片的内容辨识技术,有朝一日能手动辨识出这个是“百度大厦附近地图”,或者才能手动剖析出地图内的各类广场、街道、餐馆等的名称,那么这张图一样显得有检索价值了。所以一个页面是否有检索价值,应该取决于两点:

是否能解决某个特定的需求(价值)是否可以通过某个常规的搜索方法荣获该信息(检索)

那么,没有检索价值的页面,是否对搜索引擎就没有价值了呢?仔细想想,答案是否定的。索引也是搜索引擎的一个环节,对于其他环节而言,没有检索价值的页面有或许对我们更好的收录这些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言,有一些页面,本身没有检索价值,但通过这种页面 的抓取跟剖析,能够更快的帮助我们把握这一类页面没有检索价值这一重要信息,从而节约更多的流量进行格外有效的抓取。

考虑到这些价值可以算作一种“间接的”检索价值,最终还是立足于索引价值的,在本文中就不再展开阐述,我们只关注“检索价值”这一根本问题。下文中提及的“页面价值”特指页面的“检索价值”。

二.为什么要研究页面价值

首先,互联网上的页面是无穷尽的,而搜索引擎的软件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就须要对页面价值作出判定,不收录这些无检索价值的页面,少收录这些检索价值低的页面。这是页面价值在收录控制方面的应用。

第二,搜索引擎spider的抓取能力是有限的,出于访问友好性的考虑,对于一个网站或一个IP抓取速度还要有一个抓取速度的上限。在这一限制下, 抓取或页面更新就须要有一个先后顺序,而这一排序的主要参考根据就是页面价值,或者说对页面价值的预测(未抓取时)。这是页面价值在spider调度方面 的应用。

第三,对于这些页面,页面内容发生变化,导致它的检索价值从有至无,典型的就是变为“死链”,或者“被黑”。对于某些页面,好的搜索引擎会在第一时 间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是更多检索价值高的“好页面”。对于另一些页面,它除了具备很高的检索价值,而且有太 强的“时效性”,能够第一时间使用户检索至某些页面对搜索感受有巨大的提高。对搜索引擎而言,越快的收录跟索引页面意味着越多的额外资源开支,以多快的速 度收录跟以多短的周期更新索引,需要通过页面价值的剖析来指导。这两方面是页面价值在死链率跟时效性两大搜索引擎指标提高上的应用。

最后,普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想状况下搜索引擎的结果是根据与查询恳求的相关性进行排序的,在相关性大体相当的状况下,用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在ranking方面的应用。

可以说,页面检索价值的研究是搜索引擎中的一项较为基础的工作,对页面价值的认识跟判定的精确程度直接影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。

三.怎样判定页面价值

前文中提及过一个小学生张三qzone杂记的反例。我们觉得这个页面是有价值的,对张三的朋友,朋友,家人都有价值。与此类似的,李彦宏在i贴吧上发表一条十几个字的i帖,也是有价值的,对李彦宏的上千万粉丝都有价值。虽然李彦宏的i贴宽度或许远大于张三的杂记,但就这两个页面的价值来说,我们就会有一个共同的认识,即从普遍意义上讲,李彦宏的i贴价值远小于张三的杂记。(当然,对于张三的父亲来说太或许这个价值的关系是相反的)

再举个实例,搜索某个人的相机号码,搜索引擎返回了一个结果,是这个人在某个峰会上的一个回复。虽然这个相机号码关心的人不多,但由于资源是绝对稀缺的,对于关心这个相机号码的查询需求,这个页面是完全不可取代的,因此具备极高的价值。

另外,页面检索价值,还遭到页面品质的影响。相似的页面,对于满足用户需求来说,往往会有巨大差别,比如资源下载速率,页面的布局,广告的多寡。这类差别,姑且称之为页面品质。

最后,有些页面具备显著的公众话题性质,且这种资源常常在昨天形成时有十分高的关注度,随着时间的推移热度明显下滑,有着“新闻”的特点。典型的象各类“门”事件,地震、火灾等小型的自然灾害。我们觉得这类资源具备“时效性”特征。

所以,一个页面的检索价值,大致受以下四个要素的影响:

这四种要素,简称受众,稀缺,质量跟时效性。

1.受众

受众群体的大小,即代表了用户检索需求的大小。评价受众的大小主要根据信息发布源的受众跟信息内容原本受众两大方面。具体诱因包括且不限于:

2.稀缺

稀缺主要是描述页面在互联网中的独特性。说到稀缺常常会想起重复,稀缺是否等同于无重复,我们应当如何探讨这一概念呢?可以看一个举例:

某人发表了一篇针对某新闻风波的原创博客,随后被新浪转载至了新闻频道。从描述的内容上讲,这是一种重复。但这些重复只是是主体内容上的重复,一方面它的转载带给了访问速率、稳定性等方面的增益,并且后来的检索用户也有或许用“新闻风波+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在 转载过程中可能会改变页面的标题,而且借助其受众,在转载页面上,还有或许出现更多的有价值评论跟回复等,还有或许存在对准其它相关丑闻的新闻链接。这些可以被称之为内容增益。因此虽然主题内容没有任何变化,新浪的此次转载只是有价值的,其稀缺度只是较高的。

同样,反过来说,如果转载的网站相当不知名,则其难以带给站点名/稳定性/速度的增益。更有甚者,转载后来在页面上加入大量广告阻碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。

综上所述,对于主体内容重复的页面,我们应当评价其是否存在站点增益跟内容增益,只有对于大量完全无增益的重复页面,我们才应当觉得其稀缺度较低。

3.品质

页面的品质是它对需求的满足程度的一种展现。判断页面品质的高低,应该是从最基础的需求依次递进的。

首先,不能是挂马、网站要有一定的稳定性、访问速率要令人满意。

其次搜索引擎优化(seo)知识完全手册,主体内容是否完整、版式跟图标是否易读、各类广告会不会很多。

最后,信息是否丰富、延伸出的次级需求是否满足。

典型的低品质页面存在以下一些特点:

典型的高质量页面存在以下一些特点:

访问速率快(页面读取快/资源下载速度快)

4. 时效性

“时效性”是页面价值的一个属性,它通常展现在两个方面:一是页面所描述的事物原本有着较强的公众话题性,容易被传播。这显然是受众的一个展现。二 是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度明显升高。这是一种“新闻”性。对于具备上述两种属性的页面,如果搜索引擎spider发觉 页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们觉得该页面具备时效性。

需要说明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的及时收录提供检索,而所有的有价值新资源中,有一大部分其收录速率的增强对用户的 搜索感受缓解意义是不大的,比如介绍怎样减肥的知识性文章,张三的杂记。页面价值中的“时效性”指得是一种突发时效性,也就是所有有价值页面中最须要及时收录的某些。对页面时效性的判定是为了指导我们将搜索引擎有限的资源投入至最关键的地方,产生最好的性价比。

判断页面的时效性价值,主要通过下边一些途径:

四.页面价值的研究重点

前文早已介绍了页面价值的含意,研究的意义与价值判定的方式。最后我们再看一下,从技术视角上,这一方向的研究中的重点方向。对页面价值的研究工作主要致力于三方面:

对页面价值机制的认识。我们现在对页面价值的认识是来源于前文所述的四个维度,这个认识是否全面,对于不断变化的互联网环境与用户需求,这些维度应当怎样扩充与变化能够更好的服务于整体的搜索感受提高,是一个很重要问题。对于反映页面价值的页面特性提取。巧妇难为无米之炊,挖掘更多的页面特性,更准确合理的特性提取是页面价值判断准确率提高的基础。对各类页面特性的组合策略(机器学习)。针对不用的应用方向,需要借助相应的特性通过合理且高效的策略拟合出页面价值的最终评价结果。

© 版权声明
THE END
喜欢就支持以下吧
点赞0
分享
评论 抢沙发

请登录后发表评论