个人博客 SEO 优化(1):搜索引擎原理介绍

文章首发于我的博客:个人博客 SEO 优化(1):搜索引擎原理介绍

写在文章后面:

前段时间接到一个 SEO 优化的杂活。为了完成这个活,只能撵乌龟上架,从零开始系统地去学习 SEO 知识。经过几天的学习后,也算是入了门。才意识到 SEO 它的意义与重要性,觉得 SEO 对于做个人站点(博客也算是个人站点)的意义与重要性不言而喻。可能有人会指责在现今自媒体、微信公众号及知乎、掘金、sf等各类平行网站兴起的年代,再去研究 SEO,对博客做 SEO 是否有必要。我的想法是,如果你想常年坚持维护自己的博客,那么学习必要的 SEO 知识的回报是一件半衰期太长的事情,是一件坚持都会事半功倍的事情。

因为你只需耗费不多的精力对博客进行站内优化,然后保持一定的文章更新速率(如果有须要的话,还可以进行站外优化)。就能增加你的博客在搜索引擎排名,为自己的博客带给更多的访问量。无论你是想增加知名度还是想使你的文章才能帮助至更多的人搜索引擎优化(seo)知识完全手册,访问量多了能够抵达你的目的。

接下来的内容完全是一个 SEO 初学者的学习小结,如果 SEO 大神听到,请轻喷,还望强调不足之处。

搜索引擎

可能有些人还不了解哪些是 SEO。所谓 SEO 指 Search Engine Optimization(搜索引擎优化)。通过对网站进行优化,来增加网站在搜索引擎中的排行,为网站带给更多的访问。

在介绍 SEO 优化要素及方法之前,我们还要先对搜索引擎的工作原理有个了解。才能更好的理解 SEO 具体操作的意义。

基本原理简介

搜索引擎过程十分复杂,我们这儿只好以最简略的步骤来介绍搜索引擎是如何实现网页排行的。

搜索引擎的工作过程大体可以分为三个阶段:

爬行跟抓取:搜索引擎通过跟踪链接访问网页、获得页面 HTML 代码并存入数据库。预处理:索引程序对抓取来的页面数据进行文字提取、中文数词、索引等处理,以备排行程序读取。排名:用户键入关键词后,排名程序读取索引数据库,计算相关性,然后根据一个的格式生成搜索结果页面。第一步:爬行跟抓取

爬行跟抓取是搜索引擎工作的第一步,完成数据搜集的任务。

spider

搜索引擎拿来爬行跟抓取页面的程序称作也就是我们熟知的蜘蛛(spider),也称为机器人(bot)。spider访问网站页面类似于普通用户使用的浏览器。spider 发出页面访问恳求后,服务器返回 HTML 代码,spider 把收到的程序存入原始页面数据库。为了增加爬行跟抓取速率,搜索引擎一般或多个spider并行爬行。

spider 访问任何一个网站时,都会先访问该网站根目录下的 rotbots.txt 文件。该文件可以告诉 spider 哪些文件或目录可以抓取或则严禁抓取。

和不同的浏览器 UA 不同一样,不同厂家的 spider 也带有特定代理的名称。

跟踪链接

为了抓取网上尽可能多的页面,spider 会跟踪网页上的链接,从一个页面爬至下一个页面,就好似蜘蛛在蜘蛛网上爬行一样。

爬行递归有两种策略:

程序猿肯定对这两个递归算法太熟悉啦。

理论上无论是深度优先还是广度优先,只要给 spider 足够的时间,总是能把互联网上所有的页面链接都爬取完。但实际状况并不是那样,由于各类资源的限制,搜索引擎也仅仅爬行跟收录互联网的一部分。

所以一般 spider 都是深度优先跟广度优先混和使用。

吸引蜘蛛

通过前面的介绍可以晓得,spider 不或许将所有的页面都收录,因此 SEO 就是要通过各类方式,吸引 spider 爬行收录自己网站更多的页面。既然不能所有页面都收录,那么 spider 肯定是尽量抓取重要页面。那么 spider 是怎样判定这些页面重要?有几个影响诱因:

地址库

为了防止重复爬行跟抓取网址,搜索引擎会推行一个地址库,记录早已被发觉还没有抓取的页面,以及早已被抓取的页面。通过地址库会有几个来源:

文件存储

spider 抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的 HTML 是完全一样。

爬行时的复制内容检查

检测并删掉复制内容是在预处理的方法处理掉。不过 spider 在爬行的时侯也会进行一定程度的复制内容检查。权重低,而大量剽窃复制内容的网站,spider 可能就不再继续爬行了。这只是为何说一个网站还要原创内容的诱因。

第二步:预处理

预处理有时候也称为索引。因为索引是预处理中最主要的方法。预处理有几个方法:

提取文字。搜索引擎会提取页面的可见文字以及特殊的包含文字信息的代码,如 Meta 标签、图片Alt属性、超链接锚文字等。分词,不同的语言有不同的动词如英文动词,英文动词。对第一步提取的文字进行时态。不同的搜索引擎使用的动词算法不同,会有差别。去停止词。无论英文还是德语,都会有一些速率高,对内容没有影响的词。如语气词、感叹词,介词、副词等。搜索引擎会在索引页面之前清除某些词。消除噪音。绝大部分页面也有一部分内容对页面主题也没有贡献。比如版权申明文字,导航条等。以博客为例,每个页面几乎就会有的文章分类,历史导航等信息,都是与页面主题无关的。这些都是属于噪声,需要清除掉。去重。同一篇文章常常会重复出现在不同的网站及同一个网站的不同网址,搜索引擎并不喜欢这些重复的内容,所以搜索引擎会对这部份内容进行去重。正向索引。也称索引。经过上面文字提取、分词、消噪、去重后,搜索引擎得到的就是奇特的,能反映页面主体内容,以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照时态程序界定好的词,把页面转化为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频度、出现次数、格式、位置。然后把这种页面及关键词产生的结构储存进索引库。倒排索引。正向索引还不能直接适于关键词排行。搜索引擎还须要把正向索引数据库再次构造为倒排索引,把文件对应至关键词的映射转化为关键词至文件映射。这样在搜索关键词的时侯,排序程序就在倒排索引中定位至这个关键词,就可以立马找出这个关键词所有的文件。链接关系估算。链接关系估算只是预处理重要的一部分。搜索引擎在抓取页面内容后,必须事前估算出:页面上有什么链接对准什么其他页面,每个页面都有什么导出链接,链接使用了何种锚文字。这些复杂的链接对准关系产生了网站跟页面的链接权重。Google PR 值就是这些链接关系的最主要展现之一。其他搜索引擎也都进行类似技术,虽然并不称为 PR。特殊文件估算。除了 HTML 文件此外,搜索引擎能够爬取抓取跟索引以文字为基础的多种文件类别,如 PDF,Word,PPT,TXT等。第三步:排名

到了这一步就是处理用户键入,然后按照用户键入的关键词,排名程序读取索引程序,计算排行,显示给用户。

这个过程也分为下边几个方法:

搜索词处理

对用户键入的关键词进行时态、去停止词、指令处理等处理。

文件匹配

根据关键词找出所有匹配关键字的文件。

初始子集选择

由于文件匹配阶段下来的文件数目很大,不或许全部显示。因此须要依照页面权重估算出一个子集。

相关性估算

选完子集后搜索引擎优化(seo)知识完全手册,就须要对子集中的页面进行相关性介绍。计算相关性是排行过程最重要的一步。

影响相关性主要诱因有几点:

关键词常用程度。越常用的词对搜索词的意义贡献越小。越不常用则越大。词频与密度。在没有堆积关键词的状况下,页面的关键词出现次数越多,密度越高,则相关性也越大。不过该诱因的重要程序越来越低了。关键词的位置与方式。在上面索引提及的,页面的标题标签,黑体,H1都是比较重要的位置。关键词的距离。切分后的关键词完整匹配地出现,说明与搜索匹配最相关。比如你搜索 hexo博客SEO,如果在页面上连续完整出现 hexo博客SEO,说明相关性最高。链接分析与页面权重。除了页面原本的诱因,页面之间的链接跟权重关系也影响关键词的相关性,其中最重要的就是锚文字。页面有越多以搜索词为锚文字的导出链接,说明页面的相关性越强。排名过滤及调整

经过前面的方法以后,已经得到大体的排行。之后搜索引擎或许就会有一些过滤算法,对排序进行轻度调整,其中最重要的过滤就是施加惩罚。一些有作弊的页面会被减少权重。

排名显示

所有排行确定后,排名程序就读取原始页面的标题、Description Meta 等信息显示在页面上。

搜索缓存

用户搜索巨大一部分是由重复的。所以有一部分的搜索是会被缓存下去的。

查询及点击日志

搜用用户的 IP 地址,搜索的关键词、搜索时间,以及点击了这些结果页面,搜索引擎都记录产生日志,形成搜索统计日志。这些日志信息对搜索引擎判定搜索结果品质、调整搜索算法、预期搜索趋势等都有重要意义。

通过前面的三个方法,你能够对搜索引擎的工作原理有了更深的理解。这对接出来要写的站内优化内容及博客优化实践能更好的理解。

© 版权声明
THE END
喜欢就支持以下吧
点赞0
分享
评论 抢沙发

请登录后发表评论