百度360必应搜狗淘宝本站头条
当前位置:网站首页 > SEO教程 > 正文

一文搞懂SEO优化之站点robots.txt

gaoyangw 2025-07-03 14:53 11 浏览 0 评论

建站后千万别忘记配置 robots.txt 爬虫规则,对于搜索引擎发现你的站点非常重要,除了主动到搜索引擎平台提交网站之外,也要主动告诉搜索引擎网站里都有哪些网页?哪些希望被抓取?哪些不希望被抓取?

1 robots.txt 是什么?

robots.txt 是一个纯文本协议文件,放置在网站根目录(如
https://example.com/robots.txt),用于指导搜索引擎爬虫(如 Googlebot、Baiduspider)的抓取行为,是
站点级别规定哪些页面可被引擎爬虫抓取,哪些禁止抓取(当然还有页面级别的,这个有机会介绍)。用于声明网站中禁止或允许被爬虫访问的目录/文件,控制内容收录范围。此规范非强制命令,而是行业通行的约定。

核心价值

  • 隐私保护:屏蔽敏感目录(如 /admin/、用户后台);
  • 优化性能:减少爬虫对无效页面(如死链、图片库)的请求,节省带宽;
  • SEO 辅助:引导爬虫优先抓取重要页面,提升索引效率。

2 核心语法与指令解析

2.1 基础结构

User-agent: [爬虫名称]  # 指定目标爬虫(* 代表所有)
Disallow: [禁止路径]    # 定义禁止访问的URL
Allow: [允许路径]       # 定义例外规则(需在 Disallow 后使用)
Sitemap: [网站地图URL]  # 提交 XML 站点地图(可选)

值得注意

  • 指令区分大小写,路径以 / 开头,# 后为注释。比如:Allow: /blog 与 Allow: /Blog 是不同的。
  • Sitemap指令是需要写全包含域名的全路径。
  • 指令 Crawl-delay 表示抓取请求的频率,不过谷歌暂不支持。写法如:Crawl-delay: 15 表示爬虫抓取间隔不能小于15秒。比如 github 就有针对百度爬虫这样约束(https://github.com/robots.txt)
User-agent: baidu
crawl-delay: 1
  • 可以针对不同爬虫单独指定爬取内容,通过换行进行分组,比如知乎就针对不同爬虫单独定义(部分截取)
User-agent: Googlebot
Disallow: /login
Disallow: /*?guide*

User-agent: Baiduspider-render
Disallow: /login
Disallow: /*?guide*

User-agent: Baiduspider-image
Disallow: /login
Disallow: /*?guide*

User-agent: Sogou web spider
Allow: /tardis/sogou/
Disallow: /

User-Agent: *
Disallow: /

当然相同的爬取内容,可以同时指定多个爬虫,如上面可简写成:

User-agent: Googlebot
User-agent: Baiduspider-render
User-agent: Baiduspider-image
Disallow: /login
Disallow: /*?guide*

User-agent: Sogou web spider
Allow: /tardis/sogou/
Disallow: /

User-Agent: *
Disallow: /

2.2 指令详解

指令

作用

示例

说明

User-agent

指定规则适用的爬虫(如 Googlebot、* 表示通用规则)

User-agent: Baiduspider

针对百度爬虫生效

Disallow

禁止爬虫访问的路径(支持目录或文件)

Disallow: /private/

禁止访问 /private/ 下所有内容

Allow

在禁止范围内设置例外(优先级高于 Disallow)

Allow: /public/image.jpg

允许抓取被禁目录中的特定文件

Sitemap

声明 XML 站点地图位置(便于爬虫发现新页面)

Sitemap: https://xxx/sitemap.xml

需填写完整 URL

2.3 路径匹配规则

  • 目录屏蔽:Disallow: /data/ → 禁止访问 /data/ 及其子目录(如 /data/file.html);:
  • 文件屏蔽:Disallow: /tmp/file.txt → 仅禁止特定文件;
  • 通配符扩展
  • Disallow: /*.jpg$ → 禁止抓取所有 JPG 文件;
  • Disallow: /*?* → 屏蔽带问号参数的动态 URL(如 search?q=foo)。

3 文件放置与生效条件

位置强制要求

必须位于网站根目录(如
https://domain.com/robots.txt),子目录无效。比如:

  • 文件位置:https://example.com/robots.txt
# 生效:
https://example.com/

# 不生效:
https://other.example.com/
http://example.com/
  • 文件位置:https://www.example.com/robots.txt
# 生效:
https://www.example.com/

# 不生效:
https://example.com/
  • 文件位置:https://example.com:443/robots.txt。标准端口号(HTTP 为 80,HTTPS 为 443,FTP 为 21)等同于其默认的主机名。所以以下都生效,
# 生效:
https://example.com:443/
https://example.com/

文件名规范

仅接受全小写 robots.txt,其他格式(如 Robots.TXT)无效。所以先看某网站的爬虫配置可在域名后直接添加 robots.txt 访问。

空文件处理

若文件为空或不存在,默认允许爬虫抓取全站。

4 实用配置示例

场景 1:全站开放抓取

User-agent: *
Disallow:          # 留空表示允许所有

场景 2:禁止所有爬虫抓取

User-agent: *
Disallow: /        # 屏蔽根目录下所有内容

场景 3:部分目录限制

User-agent: *
Disallow: /admin/   # 屏蔽后台
Disallow: /tmp/     # 屏蔽缓存目录
Allow: /blog/       # 允许抓取被禁目录中的博客
Sitemap: https://example.com/sitemap.xml

场景 4:针对特定爬虫设置

User-agent: Googlebot   # 仅对谷歌生效
Disallow: /ads/

User-agent: *           # 其他爬虫规则
Disallow: /private/

5 关键注意事项

  1. 非强制约束:恶意爬虫可能无视 robots.txt,敏感内容需额外加密(如登录验证)。
  2. 语法严谨性:路径错误(如漏写 /)会导致规则失效。
  3. 搜索引擎差异:部分指令(如 Crawl-delay 设置抓取延迟)仅特定引擎支持。
  4. 与 Meta Robots 互补:页面级控制(如 noindex)需在 HTML 中添加 <meta name="robots" content="noindex">。

最后

robots.txt 是网站与搜索引擎沟通的基础协议,合理配置可平衡收录需求与隐私保护。重点遵循:

根目录放置 + 精准路径语法 + 定期规则校验

原文地址:
https://ai-bar.cn/blog/2025_06_06_seo_robots

相关推荐

百付科技智能拓客解决方案:搜索优化与搜索竞价的协同增长

百付科技通过“智能拓客+搜索优化”的深度协同,构建“DeepSeek技术占位+百度竞价引流+内容搜索沉淀”的全域营销闭环,帮助企业在搜索生态中实现从“流量获取”到“用户资产...

百度搜索10年来最大改版 搜索框、结果页、生态全面革新

7月2日,百度集团股份有限公司(以下简称“百度”)旗下百度搜索宣布进行十年来最大改版,从搜索框、搜索结果页到搜索生态全面革新。最直接的变化是经典的百度搜索框变大,成为“智能框”。原本只支持几十个字的搜...

百度搜索10年来最大改版,首次支持超千字文本输入

IT之家7月2日消息,在今日的百度AIDay开放日上,百度搜索宣布进行10年来最大改版。百度搜索框升级为“智能框”,支持超千字的文本输入,拍照、语音、视频等能力也全面加强,支持直接调...

百度搜索10年来最大改版:推出智能框、升级AI助手

7月2日,百度搜索宣布进行十年来最大改版,从搜索框、搜索结果页到搜索生态均有变化。百度搜索框变为“智能框”,支持超千字的文本输入,以及拍照、语音、视频等,还可以直接调取AI写作、AI作图等工具。最直接...

深入解析Go测试并行性优化:为何多核CPU无法加速你的测试?

一、问题背景:理论与现实的差距最近在优化某项目API测试时,遇到一个反直觉的现象:理论预期:设计为完全并行的测试套件,总耗时应接近最长单测用时实际表现:总耗时是最慢单测的7倍,CPU利用率始终低于50...

电脑C盘满了怎么清理?推荐几款靠谱的C盘清理软件

电脑c盘满了之后就会导致运行缓慢,而且还会影响到使用体验,到底应该如何来清理呢?今天就为大家来详细的介绍一下,并且推荐几个比较靠谱的c盘清理软件。等到c盘空间不足时,可以选择系统自带的磁盘清理工具。...

NGINX 性能优化与高级配置:榨干服务器潜能,打造极致体验

NGINX以其卓越的性能和高并发处理能力闻名于世,但默认配置往往只是一个普适性的起点。要想真正发挥NGINX的潜能,满足日益增长的业务需求,深入理解其配置并进行精细化调优至关重要。这就像拥有一辆...

清理大师拖慢你的电脑?系统优化软件的黑历史你了解吗?

你是不是也用过“清理大师”“加速助手”这类软件?它们看起来能释放内存、优化系统,其实很可能反而拖慢了你的电脑。别再中招了,本篇告诉你它们到底在干什么,如何真正提升性能。...

游戏修复工具在手,游戏流畅度翻倍!

分享四款实用的修复工具,可以帮助不同需求的玩家解决游戏运行故障。1、通过『迅捷DLL修复助手』修复游戏...

网络曝光有哪些渠道?为什么好多事情曝光了才会处理!

网络曝光有哪些渠道?为什么好多事情曝光了才会处理!社交平台发布:利用微博、微信朋友圈、百度贴吧等社交平台发布相关信息。这些平台用户基数大,传播速度快,是曝光事件的有效渠道。专业媒体联系:如果事件影响较...

工业品网络营销/工业品网络推广如何避免价格战?

工业品网络营销/工业品网络推广如何避免价格战?产能过剩,现在行业竞争越来越卷了,客户动不动就比价格,有没有同感的老板呢?今天我用我们16年的工业品网络营销的经验,告诉你:好产品就该卖出他该有的价格。很...

科普宣传丨暴雨多发季节,这些防汛安全知识请牢记

【来源:桦甸发布】雨季来临时常都会出现暴雨大风等天气泥石流、滑坡等情况也时有发生给我们的日常生活带来一些安全隐患那么在防汛期间出行安全有哪些需要注意的地方呢?遇到暴雨怎么办呢?来源:网络综合编辑:高...

黄前镇开展“网络同心 文明同行”主题宣传活动

岱岳融媒讯:...

新闻稿如何发布效果好?新闻推广的重点与难点有哪些?

新闻推广是现代社会中不可或缺的一环。随着信息时代的到来,新闻如闪电般迅速传播,通过推广新闻可以让更多人了解并关注相关事件观点和产品。然而如何做到有效的新闻推广却是一个复杂而具有挑战性的过程。开明网络营...

百付科技百度营销全攻略:从百度 SEO 到百度一下首页的流量密码

在百度生态流量竞争白热化的2025年,百付科技以“百度SEO+纳米AI搜索”为核心,为企业提供从技术优化到商业转化的百度营销全案,助力抢占百度一下首页流量高地。一、百度营销的双轨策略...

取消回复欢迎 发表评论: