百度360必应搜狗淘宝本站头条
当前位置:网站首页 > SEO教程 > 正文

搜索引擎收录页面的工作原理(搜索引擎按照收录内容分为什么类型)

gaoyangw 2025-04-07 14:08 11 浏览 0 评论

想要在搜索引擎中有好的排名表现,网站的收入是基础。另一方面,收录的页面数量也代表了网站的整体质量。我觉得想要百度网站被收录,首先要了解搜索引擎的工作原理,这样才能有针对性的迎合搜索规律,让网站被收录处于理想状态。搜索引擎的工作原理非常复杂。接下来简单说一下搜索引擎是如何收录和实现网页排名的。

  搜索引擎的工作过程大致可以分成三个阶段:

1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

3、排名:用户输入查询词(关键词)后,排名程序调用索引数据,计算相关性,然后按一定格式生成搜索结果页面。

一、爬行和抓取

1) 蜘蛛访问:相信大家都知道它了,蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果robots.如果robots文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

2)跟随链接:了在互联网上抓取尽可能多的页面,搜索引擎蜘蛛会沿着页面上的链接,从一个页面爬到下一个页面。最简单的抓取策略分为两种:一种是深度优先,一种是广度优先。

深度优先是指蜘蛛沿着发现的网络营销链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。

3) 吸引蜘蛛:SEO人员想要百度网站收录,就要想办法吸引蜘蛛来抓取,蜘蛛只会抓取有价值的页面,以下是五个影响因素:网站和页面权重、页面更新度、导入链接、与首页的距离、URL结构。

4.地址库:调度系统为了避免重复爬行和抓取网址,搜索引擎会建立地址库,记录已经被发现但还有没有抓取的页面,以及已经被抓取的页面。蜘蛛在页面上找到链接后并不立即访问,而是将网址存储在地址库中,然后统一安排抓取。

地址库中URL有几个来源:

1.人工录入的种子网站;

2. 蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL 与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

3.站长通过接口提交进来的网址;

4.站长通过XML网站地图、站长平台提交的网址。

5.文件储存,搜索引擎蜘蛛抓取的数据存入原始页面数据库。

6.爬行时进行复制内容检测。

二、预处理

在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。

1、提取文字

我们存入原始页面数据库中的是HTML代码,而HTML代码中,不仅有用户在页面上直接可以看到的文字内容,还有其他例如JS,AJAX等这类搜索引擎无法用于排名的内容。首先要做的是从HTML文件中移除这些无法解决的内容提取出可以排序的文本内容。

2、中文分词

分词是中文信息搜索引擎公司特有的步骤,搜索引擎进行存储/处理系统页面/用户可以搜索时都是以词为基础的。中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。

3、去停止词

无论是英文还是中文,页面都会有一些很高的频率,内容对词语没有影响,比如: 的,啊哈,这些词语叫做停止词。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

4、去噪声词

大部分学生页面里有这么一部分研究内容对页面设计主题没什么发展贡献,比如A页面的内容是一篇关于百度公司网站收录的文章,关键词是百度网站收录,但是我们除了教师讲解网站收录这个工作内容的主体内容外,共同组成社会这个问题页面的还有一些例如页眉,页脚,广告等区域。

这些部分出现的词可能与页面内容本身的关键词没有关系。搜索引擎的排名程序在对数据进行排名时无法参考这些噪音内容,因此需要在预处理阶段将这些噪音分离出来并消除。消除噪声的方法是根据HTML的标签对页面进行分块,如页眉是header标签,页脚是footer标签等等,去除掉这些区域后,剩下的才是页面主体内容。

5、内容去重

也就是我们去掉重复的网页,同一篇文章经常会出现重复在不同企业网站/同一个公司网站的不同网址上。对于用户的体验来说,去重复是必要的。搜索引擎识别并删除页面中的重复内容。这个过程被称为去重复,是影响百度网站内容的关键因素之一。

6、正向索引

索引经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。

接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。

7、倒排索引

假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。

这样的计算量无法满足实时返回排名结果的要求,搜索引擎会提前对所有关键词进行分类,将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,在倒排索引中关键词是主键,每个关键词都对应着一系列文件,比如下图第一排右侧显示出来的文件,都是包含了关键词1的文件。这样,当用户搜索某个关键词的时候,排名程序在倒排索引中定位这个关键词,就可以马上找到所有包含这个关键词的页面。

三、搜索结果排名

经过搜索引擎蜘蛛抓取页面,索引程序计算得到的倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框中输入想要查询的内容后,排名程序调用索引库中的数据,计算排名并在搜索结果页面中显示内容。

1、搜索词处理

搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理过程包括:中文分词、去停止词、指令处理。

完成上述步骤后,搜索引擎处理其余内容的默认方法是使用关键字之间的和逻辑。

比如用户在搜索框中输入“减肥的方法”,经过分词和去停止词后,剩下的关键词为“减肥”、“方法”,搜索引擎排序时默认认为,用户想要查询的内容既包含“减肥”,也包含“方法”。

2、文件匹配

搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。进入的下一个发展阶段:文件进行匹配不同阶段,就是学生找出含有所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,假设用户搜索“关键词1 关键词2”,排名程序只要在倒排索引中找到“关键词1”和“关键词2”这两个词,就能找到分别含有这两个词的所有页面文件。

3、初始子集的选择

找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是比较长的。百度搜索引擎,最多只会返回760条结果,所以只需要计算前760个结果的相关性,就能满足要求。

由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含所有查询关键词),搜索引擎会先筛选出1000个页面权重较高的一个文件,通过对权重的筛选初始化一个子集,再对这个子集中的页面进行相关性计算。

4、相关性计算

选出初始子集后,对子集中的页面计算关键词相关性。计算相关性是排名过程中最具有重要的一步,影响相关性的主要经济因素分析包括如下几个问题方面:

① 关键词常用程度

分词后,多个关键词对整个搜索字符串的意义贡献不同。越常用的词对搜索词的意义贡献越小,越不常用的词对意义贡献越大。因此,搜索引擎不会对搜索词串中的关键字一视同仁,而是根据权重的大小来进行处理。不常见词的加权系数较高,不常见词的加权系数较低,排序算法对不常见词的关注度较高。

② 词频及密度

一般认为,在没有关键词积累的情况下,搜索词在页面中出现的频率越高,密度越高,页面与搜索词的相关性越强。当然,这只是一般规律,实际情况未必如此,所以相关性计算还有其他因素。频率和密度只是等式的一部分,它们变得越来越不重要。

③ 关键词位置及形式

如索引部分所述,页面关键字的格式和位置记录在索引库中。关键词出现比较重要的位置,如标题标签、黑体等,说明页面与关键词越相关,这一部分就是页面SEO所要解决的。

④ 关键词距离

分段后关键词完全匹配的出现表明,它与搜索关键词的相关性最强。例如,在搜索“减肥方法”时,页面上出现的一整套“减肥方法”四个字是最相关的。如果“网站”和“建设”两个词没有连续匹配出现,或者出现的距离近一些,也被搜索引擎认为有一定的相关性。

⑤ 链接分析及页面权重

除了页面本身之外,页面之间的链接和权重的关系也会影响关键字的相关性,其中最重要的是锚文本。页面上以搜索词为锚文本的导入链接越多,页面的相关性就越强。链接分析还包括了链接源页面本身的主题和锚文字周边的文字等。

总结: 本文解释了搜索引擎是如何工作的。了解他们在百度是如何工作的很重要。例如,标题应该包括用户可能搜索的词,正确表示关键词或文本中的分割词有助于判断内容和用户的搜索词之间的相关性。

作者:道一

来源:微信公众号【燃灯SEO课堂】

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

相关推荐

工业品短视频推广/工业品短视频推广,搞懂2点让客户主动找上门

工业品短视频推广/工业品短视频推广,搞懂2点让客户主动找上门。为什么你拍了那么多短视频都没有效果,我们陪跑了几百家客户,发现没效果的账号基本就这3种情况,一种是把短视频当成朋友圈,晒日常生活,账号标签...

流程优化,其实是一场管理变革(流程优化的三个原则)

“信息化”一词,相信大家都不会感到陌生,但什么是信息化?企业信息化要做些什么?对此的理解真是仁者见仁智者见智。...

引爆中小卖家免费流量入口关键词梯形架构

“在我从代运营做天猫转到自己去经营自己的C店的时候,我终于知道,原来这个世界上做淘宝的,并非每一个人多那么有钱可以去砸直通车,也不是每一个人多可以请得起薪酬十来万的设计的,近两年我一直在摸索一种适合小...

百度搜索2015移动大事记:优化、流量追查等

站长之家(Chinaz.com)注:纵观2015这一年,百度搜索的关键词不外乎“移动”二字。为了响应移动互联网的大势,百度不遗余力的在移动搜索上下足了功夫。从搜索引擎算法、到站长平台工具都做出了许多改...

百度站搜带你玩转站内流量(百度站长app)

先给大家看几张效果图:图1图2图3这3种激发用户搜索需求的牛B武器你的站点“武装”了么?使用效果如何?现在让我们来看看一下网站使用后的心得以及效果:比特网:由于比特之前有自己的站内搜索工具,所以百度刚...

继PC端后 百度移动搜索也将取消refer关键词显示

站长之家(Chinaz.com)12月4日消息今年6月25日,百度搜索正式取消了referer中关于关键词的显示。近日,百度站长平台在公告中表示“百度移动搜索中也将逐步取消referer关键词的显示”...

知己知彼,百战不殆--六个方法帮你分析对手网站

好的推广专员对竞争对手的网站进行分析是必不可少的,根据竞争对手每个阶段及时做好SEO的调整。做好知彼知己才能对后期的优化有所帮助。下面小编就分享分析竞争对手网站的六大SEO方法。1、网站年龄网站时间...

百度站点属性功能升级 全面取消referer关键词显示

站长之家(Chinaz.com)6月30日消息近日,百度站长平台发布公告称已对“站点属性”功能进行升级,此功能已作为独立工具展示于工具导航栏中。站长可通过“站点属性”功能对站点中文名、站点类型、以及站...

大连关键词优化推广公司(大连seo推广优化)

关键词挖掘与关键词分析提高网站权重的方法最重要的一步就是挖掘有质量的关键词。然后根据关键词的情况进行标题创作和内容的创作。关键词分析分类:1.有指数的关键词2.没有指数的关键词关键词挖掘分类:品牌关...

如何实现AI文章免费优化,轻松提升网站排名?

你是否觉得,尽管文章内容已经写得很棒,网站的流量却始终无法突破瓶颈?是不是常常觉得自己做了很多优化工作,却依旧难以提高文章的搜索排名?其实,很多人忽略了一个关键问题,那就是“如何优化AI文章”。尤其是...

AI搜索SEO优化排名公司推荐(seo搜索引擎优化排名)

AI搜索SEO优化排名公司推荐,随着AI的平民化,越来越多的人开始通过AI寻找自己的需求,例如通过问AI助手,广州哪家火锅好吃?深圳家政服务哪家公司好?北京全屋定制哪家靠谱?如果这时候AI推荐了你的...

构建可以查找相似图像的图像搜索引擎的深度学习技术详解

在本文中将介绍如何查找相似图像的理论基础并且使用一个用于查找商标的系统为例介绍相关的技术实现,本文提供有关在图像检索任务中使用的推荐方法的背景信息。阅读本文后你将有能够从头开始创建类似图像的搜索引擎...

搜索引擎语法,教你高格逼利用搜索引擎!

百度语法1.site把搜索范围规定在特定的站点中。但是有时候你需要找一些特殊的文档,特别是针对于专业性比较强的网站合理使用site可以让你取得事半功倍的效果。举例说明:site:sina.com(不...

Off-eBay搜索引擎下,listing和店铺 SEO技巧

雨果网从外媒近日报道中了解到,eBay正在举行一系列促进销售增长的专家网络研讨会(ExpertAdviceGrowthWebinars),第一场在3月3日举行。外媒为未参加网络研讨会的卖家,挑出...

搜索引擎原理系列教程:收录、索引、排名

《搜索引擎原理系列教程》这个虽然称不上书籍,但由于里面信息量以及内容比较实用,也弥补了百度白皮书的一些短板——话语浮于表面,另外值得鼓励的是,这个教程完全是由一个民间的SEO爱好者总结,这份精神值得称...

取消回复欢迎 发表评论: