robots.txt文件详细教程,每个SEO优化师和网站开发人员都得会
gaoyangw 2024-12-20 14:38 13 浏览 0 评论
robots文件是网站和各大搜索引擎建立良好沟通的桥梁,也是网站从搜索引擎获得流量的开端第一步,因为robots的设置不当,很有可能会失去很大一部分的流量。对于SEO优化的从业者或者是爱好者,必须要知道其中的原理和设置方法,对于网站管理员及相关的开发技术人员,了解robots.txt文件的设置方法是一项额外加分的工作技能。网上也有很多的相关教程,但总是残缺不全或难以理解,所以决定详细的梳理一遍。
robots.txt的作用是什么?
robots.txt文件只有一个作用:用于屏蔽一个或多个搜索引擎禁止收录你网站上的内容。默认情况下网站都是允许任何搜索引擎抓取和收录页面的,但出于某种目的,你可以屏蔽某个或多个搜索引擎收录你网站上的页面,为了达成这一共识,于是robots协议就顺利诞生了,所有的搜索引擎都遵循robots协议。
每个搜索引擎都一个被称为蜘蛛(spider)或机器人(bot)的程序,我们习惯上称之为“蜘蛛”,在决定是否抓取你的网站页面时,蜘蛛会首先检查你网站的根目录里面是否存在robots.txt文件,如果没有robots.txt则说明是允许全部抓取的;如果存在robots.txt文件,蜘蛛会识别里面有没有自己的名称在被拒绝之列,然后再判断你设置的那些内容是不允许抓取的,再进行网页的抓取和收录。
robots.txt文件的写法
基本语法
默认情况下是整个网站全部允许被任何搜索引擎抓取收录的,robots.txt只用于禁止搜索引擎收录,所以只需要添加搜索引擎蜘蛛的名称(User-agent)和disallow(禁止收录的内容)即可,特殊情况下也可以使用allow语法。
- User-agent: *
- Disallow: /
- Allow: *.html$
- #seo
需要注意首字母大写,冒号后面是英文状态下的一个空格,用“井号”来表示注释说明,支持 "*" 匹配0或多个任意字符,"#34; 匹配行结束符,对大小写敏感,所以要注意文件或文件夹的名称精确匹配,为了搜索引擎能更好地识别robots.txt文件,建议保存编码设置为ANSI编码,下面举例说明各种用法及设置。
robots.txt各种写作方法
1、屏蔽所有的搜索引擎收录任何页面
屏蔽搜索引擎的搜索引擎只需要把user-agent设置为*即可,如下所示,而disallow后面的斜杠则表示根目录,自根目录以下的任何内容均不允许收录,两行代码即可。
- User-agent: *
- Disallow: /
2、允许所有的搜索引擎收录所有页面
所有的搜索引擎均允许,可以把robots.txt文件里面的内容全部删除,即保留一个空文件就行,还可以使用下面的代码来说明。
- User-agent: *
- Allow: /
3、仅允许指定的搜索引擎收录
需要把搜索引擎蜘蛛的名称写在前面,最后使用*来匹配全部,代码如下。仅允许百度和谷歌收录,其他搜索引擎全部禁止。
- User-agent: baiduspider
- Allow: /
- User-agent: googelebot
- Allow: /
- User-agent: *
- Disallow: /
第5、6两句是禁止所有的,前面允许了指定的蜘蛛名称,所以除了被允许的百度和谷歌蜘蛛,其他的搜索引擎都不能收录的网站页面了。
4、禁止指定的搜索引擎收录
如果只是想有针对性的屏蔽某个或多个搜索引擎,比如禁止百度和谷歌蜘蛛,写法如下。
- User-agent: baiduspider
- Disallow: /
- User-agent: googelebot
- Disallow: /
- User-agent: *
- Allow: /
由于默认是allow状态的,所以第5句、6句一般不写。只写disallow的部分。你可能已经发现了,user-agent后面只能是具体的蜘蛛名称或星号,而disallow和allow后面的内容是全站时均使用斜杠而不是其他符合,因为他们后面的是指网站的目录,所以在指向目录时就不能使用别的符合,比如“disallow:*”这个写法就错了。
禁止抓取和收录目录及文件的写作语法,下面分别举例说明。
1、禁止搜索引擎收录指定的目录
- User-agent: *
- Disallow: /asf/
- Disallow: /2020/
上的意思是对于所有的搜索引擎,均禁止收录asf和2020文件夹里面的任何内容。在屏蔽文件夹时最后要加斜杠结束,如果这样写“Disallow: /2020”,结尾没有加斜杠,则表示根目录下以2020开头的网址均被禁止,如/2020.html、/2020abc.html、/2020/df.html均被禁止收录,所以在写作disallow屏蔽目录时千万不要弄错了。
2、允许搜索引擎收录禁止目录中的特定URL
如果屏蔽了某个目录“df”,但是又希望df这个目录中指定的网页被收录怎么办,使用下面的语法即可。
- User-agent: *
- Allow: /df/111.html
- Allow: /df/*22c.php
- Disallow: /df/
allow要写在前面,后面再紧跟着写屏蔽的目录名称。这种写法比较少用,一般都是直接屏蔽目录就没有必要再允许其中的某几个或某一类url还要被收录了,上面代码第2句指允许收录根目录df文件夹里面的111.html这个页面,第3句指允许收录根目录df目录下包含“22c.php”的所有url均允许收录,第4句是禁止收录df目录下的全部url,允许收录的写在前面。
3、使用星号来匹配某一类网址
星号可以匹配一种类型的网址,极大地提高了设置的方便性,在使用过程中要熟练掌握,SEO优化的设置中如果经常会遇到屏蔽某一类型的网址,使用*就非常常见。
- User-agent: *
- Disallow: /abc/
- Disallow: /*?*
- Disallow: /rt/jc*
- Disallow: /*.php
- Disallow: /*ps*
第3句禁止收录动态网址,第4句禁止收录rt目录下以jc开头的url,第5句禁止收录包含“.php”的url(包含以.php结尾的url在内,如h.php、as.php?id=2、dd.php23.html均被禁止),第6句禁止收录网址中含有“ps”的url。
4、使用$来匹配URL结束
如果需要屏蔽某类型结尾的url或文件,此时就需要用到结束匹配符号“$”。
- User-agent: *
- Disallow: /abc/*ty.php$
- Disallow: /*.php$
- Disallow: /*.jpg$
上面第2句禁止收录abc目录下以ty.php结尾的url,第3句禁止收录全站以.php结尾的url,第4句禁止收录全站jpg格式的图片。可以看到如果是屏蔽具体的某一类后缀名url则需要以$作为结束。
5、禁止搜索引擎收录图片语法
禁止收录网站图片主要用到$和*匹配符,写法也是很简单的。
- User-agent: *
- Disallow: /*.jpg$
- Disallow: /*.jpeg$
- Disallow: /*.png$
- Disallow: /*.gif$
以上分别是禁止收录全站jpg/jpeg/png/gif格式的图片。
6、只允许搜索引擎收录静态页面
- User-agent: *
- Allow: /*.html$
- Disallow: /
配合allow来使用,禁止收录全站任何url,然后使用allow来允许收录以“.html”结尾的url即可。
以上就是全部robots文件的写法,其中难点是通配符星号的是用和结束符$的使用,要学会灵活的举一反三,在每写完一条记录时都要确保没有屏蔽错url,每行一条记录。对于robots.txt文件,每一次在写完之后都认真检查一遍,写错了损失就大了。
相关推荐
- 义乌推广营销公司seo,霸屏推广多少?
-
推广营销公司SEO是指通过优化网站内容、结构和关键词,提高网站在搜索引擎中的排名,以吸引更多的潜在客户和流量,从而实现营销目标。...
- 搜索效果差,试试这几个办法
-
搜索质量差,找不到所需内容时,可以尝试以下几种方法:换搜索工具;优化关键词;使用搜索指令;多看一些结果。1、换搜索工具搜索效果差,那就换个搜索工具,看看其它搜索引擎的结果。...
- 铲除网站死链接详细操作指南
-
死链接会危机网站的安全,死链接的存在意味着网站存在毛病。首先要认识HTTP状态码含义:不能访问的链接称为死链接。当我们访问我们网站页面的时候,它会返回一个三位数的信号给我们的浏览器。比如我打电话给你,...
- 想要网站快速地被收录,你试过这些方法了没?
-
做网站优化的,都有一个共同的梦想那就是想要网站可以快速地被搜索引擎收录,而且收录量还要大。然而现实总是残酷的,在现在这搜索引擎算法中不使用作弊的手法情况下,想要网站达到秒收录绝不是网上那些随便说的一些...
- 百度收录URL无标题泛目录站群系统
-
尽量使用满年备案米或者历史备案米,白板备案米需要强引蜘蛛,历史米可以保留主站直接开目录本地先操作(服务器操作也是可以)1:本地先配置关键字,其它不用管,一行一个。2:data/url这个文件夹设置自己...
- 网站快速收录工具大公开!用对方法流量轻松翻倍
-
大家都知道,搜索引擎可是网站流量的关键入口。要是网站的URL不能及时被收录,哪怕内容再好,也很难获得满意的曝光量。不过别担心,147seo新推出了一款超实用的URL批量推送收录工具,而且它支持...
- 利用专题页打造关键词排名绿色通道
-
很多朋友在做SEO的时候,经常会遇到大量长尾词没有排名,针对性的做了大量的工作,但是作用不大,关键词仍旧难以上来,非常纠结。今天悟道SEO跟大家分享一下利用专题页面,为你的大量长尾关键词开通排名绿色通...
- 如何解决关键词排名急剧下降的方法
-
1、搜索引擎自身的原因搜索引擎的算法时常都会有细微的改变,这样或多或少的会影响到网站排名,这种情况有的时候过几天就恢复了,有的一直不会恢复。解决办法:对于这种原因,你先要分析下原因,并且到大型的seo...
- 网站关键词排名:网站排名上不去怎么办?
-
多数企业都知道,网站优化很重要,网站关键词排名也是。咱们都希望站点收录更多更快,但是很多企业网站建成后,只被收录,排名却上不去,一点流量都没有。而且网站关键词排名老是出现较大波动,时高时低,让人琢磨不...
- 郑州企业网站关键词排名最专业的公司
-
网站的关键词排名在当今时代,却受到了人们更高的关注率。因为网站的关键词排名,会直接影响到网站曝光率、点击率和访问量,尤其是企业网站,会直接决定该企业网站的潜在意向客户资源的积累量。现在上网的人几乎都...
- 关键词如何快速排名
-
关键词如何快速排名关键词排名是指在搜索引擎中,某个关键词对应的网页在搜索结果中的位置。在互联网时代,关键词排名对于网站的流量和曝光度至关重要。然而,随着搜索引擎算法的不断升级和优化,关键词排名变得越来...
- 网站关键词排名会被哪些操作影响?
-
相信各位做网站优化的朋友们都知道一件事是,内容为王,很多朋友为了达到这一目的,埋头苦干,但是还是没有排名,这是为什么呢?网站关键词排名会被哪些操作影响?那么,接下来小编就跟大家分享下影响网站关键词...
- 核心关键词排名一夜消失?未被惩罚的网站如何应对幽灵降权!
-
深夜的流量监控面板上,原本稳定的核心关键词排名突然集体下滑。没有警告邮件,GoogleSearchConsole后台也没有任何人工处罚记录——这正是让众多网站管理者困惑的"幽灵更新"...
- SEO关键词优化全攻略,从选词到排名的实战技巧
-
做SEO的小伙伴们肯定都有个头疼的问题:到底怎么优化关键词才最有效呢?别急,当你弄清楚目标关键词和长尾关键词的区别,学会挖掘长尾词之后,就该正式开启关键词优化之旅啦!...
- SE排名与Moz:找到正确的搜索引擎优化工具,用于2025
-
厌倦了搜索引擎优化工具,没有真正帮助你发展?如你计划2025年的战略,找到正确的平台,可以改变一切。两个名字你可能遇到:SE排名与Moz.两者都提供的功能等级跟踪关键的研究,并建立链接,但他们适...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 网站建设 (107)
- 网站开发 (47)
- 网络推广哪个平台好 (47)
- 百度收录 (50)
- 搜索引擎排名优化 (49)
- 关键词优化工具 (51)
- 外贸网站建设 (56)
- seo整站优化吧 (50)
- 广州seo (47)
- 苏州网站建设 (59)
- 百度搜索推广 (61)
- 关键词优化公司 (51)
- 广州网站建设 (48)
- 电商网站建设 (49)
- 百度站长平台 (48)
- 网站模板 (51)
- 厦门网站建设 (52)
- 百度快照推广 (51)
- 免费网页在线客服系统 (53)
- 雷神代刷网站推广 (53)
- 手机网站建设 (53)
- 网站维护 (53)
- 网页制作教程 (66)
- 百度收录批量查询工具 (48)
- 网站服务器 (53)