常见顾客SEO问题解惑:搜索引擎的优化规则是何种

1、搜索引擎的详细优化规则是哪些?

此类问题实际上太笼统,相当于问“SEO怎样做?”这边用图片大约讲解一下抓取规则

搜索引擎从用户搜索至最终搜索结果呈现的方法是(以百度为例):

抓取,百度都不知道你的网站,如何使你有排行呢?所以要使百度知道你,就要先通过抓取这个方法;

过滤,过滤掉低品质的页面内容;

索引,只有合格的页面就会被储存;

处理,对搜索词进行处理,如英文特有的动词处理搜索引擎优化seo知识完全手册,去除停止词,判断是否还要启动整合搜索,判断是否有拼写错误或错别字等状况。

排名,将高质量的页面呈现给用户;

蜘蛛(Spider):

被搜索引擎抽调能在网上发觉新网页并抓取的程序称为蜘蛛,其从已知的数据库出发,像正常用户的浏览器一样访问某些网页,并跟踪网页中的链接,访问更多的网页,这个过程就叫爬行;

蜘蛛对一个站点的递归抓取策略分深度优先跟广度优先两种。

spider抓取的基本过程:

根据爬取目标跟范围,可分为

批量性爬虫:明确的抓取目标跟范围,达到即停止;

增量型爬虫:应对网页不断更新的状态,爬虫须要及时反应,通用商业引擎通常都是这类;

垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤;

百度官方 spider抓取过程中的策略

1、抓取友好性,同一个站点在一段时间内的抓取速率跟一段时间内的抓取流量都不同,即错开正常用户访问高峰不断的调整,避免程度过大影响被抓网站的正常用户访问行为。

2、常用抓取返回码,如503,404,403,301等;

3、多种url重定向的辨识,如http 30x、meta refresh重定向跟js重定向搜索引擎优化seo知识完全手册,Canonical标签也可看做变相的重定向;

4、抓取优先级调配,如深度优先遍历策略、宽度优先递归策略、pr优先策略、反链策略、大站优先策略等;

5、重复url的过滤,包括url归一化辨识,例如一个url中包含大量无效参数而实际是同一个页面;

6、暗网数据的获取,搜索引擎暂时未能抓取至的数据,如存在于网路数据库中,或因为网路环境、网站原本不符合规范、孤岛等问题而导致的难以被抓取,如百度的“阿拉丁”计划;

7、抓取反作弊,抓取过程中常常会碰到何谓抓取虫洞或则面临大量低品质页面的困惑,这就要求抓取系统中同样须要设计一套建立的抓取反作弊系统。如剖析url特性、分析页面大小及内容、分析站点规模对应抓取规模等;

spider感兴趣的页面有3类:

1.从未抓取过的新页面。

2.抓取过但内容有改动的页面。

3.抓取过但如今已删掉的页面。

蜘蛛不能/不喜欢抓取的内容:

1.被robot屏蔽的页面;

2.图片、视频跟flash里的内容;

3.Js、iframe框架、table嵌套;

4.蜘蛛被服务器端屏蔽;

5.荒岛页面(无任何导出链接);

6.登录后才会获取的内容;

四种近似重复网页类别:

1.完全重复页面:在内容跟布局格式上颇有差别;

2.内容重复页面:内容相似,但布局格式不同;

3.布局重复页面:有部份重要的内容相似,并且布局格式相似;

4.部分重复页面有部份重要内容相似,但布局格式不同;

典型的网页去重算法:特征抽取、文档指纹生成、相似性估算

低品质的内容页面:

1.多个URL地址对准同一网页以及镜像站点,如带www跟不带www的同时解读至一个网站;

2.网页内容重复或近似重复,如采集内容,文不对题或垃圾信息;

没有丰富的内容,如纯图片页面或页面内容搜索引擎辨识不了;

过滤-重复文档的处理方法:

1.低品质内容给予删掉

2.高质量重复文档分组并优先展示(重复性高表示受欢迎)

关注我的头条(常州姜东),了解我的其他文章:

常见顾客SEO问题解惑:搜索引擎的优化规则是何种

常见顾客SEO问题解惑:网站的标题究竟如何写

常见顾客SEO问题解惑:网站关键词布局到底是什么?

常见顾客SEO问题解惑:网站关键词优化究竟如何做?

常见顾客SEO问题解惑:网站降权了应当如何处理?

© 版权声明
THE END
喜欢就支持以下吧
点赞0
分享
评论 抢沙发

请登录后发表评论