百度360必应搜狗淘宝本站头条
当前位置:网站首页 > SEO教程 > 正文

搜索引擎原理系列教程:大神总结的教程,”实用易懂“是不可能的

gaoyangw 2024-11-25 11:42 12 浏览 0 评论

《搜索引擎原理系列教程》这个虽然称不上书籍,但由于里面信息量以及内容比较实用,也弥补了百度白皮书的一些短板——话语浮于表面,另外值得鼓励的是,这个教程完全是由一个民间的SEO爱好者总结,这份精神值得称赞。

由于这本书总共8大章节,内容太多,我就不一一介绍了,但我这里仍然想讲三个方面,也是我们SEOER比较关心的三个方面:收录、索引、排名。

一、收录

收录其实是个复杂的过程,他简单的分为这四个步骤:

搜索引擎搜集网页过程

1、 调度器是整个搜集过程的核心,它内部保存有一个已访问URL库和未访问URL库,统称URL库。一开始调度器会从未访问URL库中取出一条URL,分配给蜘蛛,让蜘蛛去抓取未抓取过的URL。

2、 当一个蜘蛛得到URL的时候,它会向返个URL发出请求抓取,流程是:对该URL对应的域名进行DNS解析->得到IP进行Socket连接->连接成功发出http请求->接收网页信息。

3、 蜘蛛得到网页信息后,会返回源代码给调度器,调度器会将源代码保存到网页数据库中。

4、 调度器会对抓取到网页迕行链接提取,将未抓取过的URL存放到未访问URL库中,并将刚刚抓取完的URL更新到已抓取URL库中。

这其中会涉及到去重

调度器的工作流程

1、从未访问URL表中依次取出URL,分配给各个蜘蛛。

2、蜘蛛得到URL,进行抓取,得到网页的源代码,对该源代码进行URL的提取,获得该网页包含的所有URL。

3、调度器依次查看得到的URL是否在已访问URL库中存在。如果存在,则说明已经被抓取过,那么将该URL丢弃;如果不存在,说明这个URL没有被抓取过,则顺序添加到未访问URL表中,等待之后抓取。

4、重复步骤1,直到未访问表为空。

二、索引

网页预处理

1、给原始网页建立索引。

2、针对搜索有网页库进行网页切分,将每一个页面转化为一组词的集合。(正向索引)

3、将网页到索引词的映射转换为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表)
总的来说,搜索引擎从网页数据库获取网页然后进行代码过滤,然后提取正文信息后进行切词,之后的步骤就是对关键词集合进行筛选,得到网页关键词正向索引,最后才将搜索引擎将正向索引转换未关键词到网页的倒排索引,正是这个技术,搜索引擎才有可能在1S内给用户呈现搜索结果。

另外,这其中搜索引擎做的动作就是网页净化和消重,除了去除网页内噪音内容(如广告、版权等),提取网页主题和相关内容外,去除网页集合中内容重复内容。

有同学可能会问,搜索引擎如何识别主体内容的呢?事实上,算法是靠建立HTML标签树和投票方法识别正文文本。

比如,我们定一下规则,

1、如果文本块文本长度少于10个字,0分。介于10~50个字得5分。介于50~250个字,得8分。超过250个字,得10分。

2、文本块文本位置在右侧,得0分。在顶部,得3分。在左侧,得5分。在中部,得10分。

那我们就得出,页面TITLE得分9,正文加粗H1标签得分8等等,DIV部分的AD部分得分0,丢弃。
(以上举例只为了参考,跟实际算法没有关联)

搜索引擎进行网页消重都要经过3个步骤,首先是特征抽取(这其中涉及到I-Match算法、Shingle算法),然后相似度计算、评价是否相似,最后才是消重。

事实上,搜索引擎算法和用户交互的过程就是一个查询的流程,比如用户搜索“搜索引擎原理”,算法分词后得到“搜索引擎”,“原理”,在倒排索引表中找到包含这两个文档列表,求交,然后将用户查询以及上一步找到文档列表中被一条记录进行向量化后,求查询向量和文档向量的相似度,然后从高到底排序,最后就是我们看到的最终搜索结果。

最后就举个例子作为结尾:

搜索引擎网页权重=网页中词项基本权重+链接权重+用户评价权重

网页中词项基本权重

1、例如某个关键词”搜索引擎”在

搜索引擎

的环境下,权重应该为:WBT=W+W, (h1)+W,(b)=10+12+4=26

2、关键词“搜索引擎”可能还在文档中其他地方出现n次,每次出现都可以计算一个WBT1、WBT2、WBT3…WBTn,那么可以计算出整个文档“搜索引擎”这个关键词的权重为︰

wBT(关键词,网页)=WBT,+ WBT,+…+WBTT=>wBT

相关排序–链接权值的计算

相关排序–用户评价权值的计算

….
最终权值的计算

搜索引擎可以通过配置KWB、KWL、KWU来设置侧重哪些因素影响权重,比如如果搜索引擎设置了KWL为0.8,KWB、KWU均为0.1,那么说明该搜索引擎更侧重链接对权重的影响,通过这样的算法,可以很轻松的算法上的调整。

以上只是举例,实际算法并不止以上三种,这些已经触及到我的知识盲区了,在大神面前,我们是真的是菜逼(形容自己明明很菜又喜欢瞎BB的)。

相关推荐

义乌推广营销公司seo,霸屏推广多少?

推广营销公司SEO是指通过优化网站内容、结构和关键词,提高网站在搜索引擎中的排名,以吸引更多的潜在客户和流量,从而实现营销目标。...

搜索效果差,试试这几个办法

搜索质量差,找不到所需内容时,可以尝试以下几种方法:换搜索工具;优化关键词;使用搜索指令;多看一些结果。1、换搜索工具搜索效果差,那就换个搜索工具,看看其它搜索引擎的结果。...

铲除网站死链接详细操作指南

死链接会危机网站的安全,死链接的存在意味着网站存在毛病。首先要认识HTTP状态码含义:不能访问的链接称为死链接。当我们访问我们网站页面的时候,它会返回一个三位数的信号给我们的浏览器。比如我打电话给你,...

想要网站快速地被收录,你试过这些方法了没?

做网站优化的,都有一个共同的梦想那就是想要网站可以快速地被搜索引擎收录,而且收录量还要大。然而现实总是残酷的,在现在这搜索引擎算法中不使用作弊的手法情况下,想要网站达到秒收录绝不是网上那些随便说的一些...

百度收录URL无标题泛目录站群系统

尽量使用满年备案米或者历史备案米,白板备案米需要强引蜘蛛,历史米可以保留主站直接开目录本地先操作(服务器操作也是可以)1:本地先配置关键字,其它不用管,一行一个。2:data/url这个文件夹设置自己...

网站快速收录工具大公开!用对方法流量轻松翻倍

大家都知道,搜索引擎可是网站流量的关键入口。要是网站的URL不能及时被收录,哪怕内容再好,也很难获得满意的曝光量。不过别担心,147seo新推出了一款超实用的URL批量推送收录工具,而且它支持...

利用专题页打造关键词排名绿色通道

很多朋友在做SEO的时候,经常会遇到大量长尾词没有排名,针对性的做了大量的工作,但是作用不大,关键词仍旧难以上来,非常纠结。今天悟道SEO跟大家分享一下利用专题页面,为你的大量长尾关键词开通排名绿色通...

如何解决关键词排名急剧下降的方法

1、搜索引擎自身的原因搜索引擎的算法时常都会有细微的改变,这样或多或少的会影响到网站排名,这种情况有的时候过几天就恢复了,有的一直不会恢复。解决办法:对于这种原因,你先要分析下原因,并且到大型的seo...

网站关键词排名:网站排名上不去怎么办?

多数企业都知道,网站优化很重要,网站关键词排名也是。咱们都希望站点收录更多更快,但是很多企业网站建成后,只被收录,排名却上不去,一点流量都没有。而且网站关键词排名老是出现较大波动,时高时低,让人琢磨不...

郑州企业网站关键词排名最专业的公司

网站的关键词排名在当今时代,却受到了人们更高的关注率。因为网站的关键词排名,会直接影响到网站曝光率、点击率和访问量,尤其是企业网站,会直接决定该企业网站的潜在意向客户资源的积累量。现在上网的人几乎都...

关键词如何快速排名

关键词如何快速排名关键词排名是指在搜索引擎中,某个关键词对应的网页在搜索结果中的位置。在互联网时代,关键词排名对于网站的流量和曝光度至关重要。然而,随着搜索引擎算法的不断升级和优化,关键词排名变得越来...

网站关键词排名会被哪些操作影响?

  相信各位做网站优化的朋友们都知道一件事是,内容为王,很多朋友为了达到这一目的,埋头苦干,但是还是没有排名,这是为什么呢?网站关键词排名会被哪些操作影响?那么,接下来小编就跟大家分享下影响网站关键词...

核心关键词排名一夜消失?未被惩罚的网站如何应对幽灵降权!

深夜的流量监控面板上,原本稳定的核心关键词排名突然集体下滑。没有警告邮件,GoogleSearchConsole后台也没有任何人工处罚记录——这正是让众多网站管理者困惑的"幽灵更新"...

SEO关键词优化全攻略,从选词到排名的实战技巧

做SEO的小伙伴们肯定都有个头疼的问题:到底怎么优化关键词才最有效呢?别急,当你弄清楚目标关键词和长尾关键词的区别,学会挖掘长尾词之后,就该正式开启关键词优化之旅啦!...

SE排名与Moz:找到正确的搜索引擎优化工具,用于2025

厌倦了搜索引擎优化工具,没有真正帮助你发展?如你计划2025年的战略,找到正确的平台,可以改变一切。两个名字你可能遇到:SE排名与Moz.两者都提供的功能等级跟踪关键的研究,并建立链接,但他们适...

取消回复欢迎 发表评论: