设置Robots.txt文件最佳实践

作者杰西

10月 17, 2022

数字营销人员和搜索引擎优化专家数字营销人员和搜索引擎优化专家一定深知搜索引擎索引的重要性,这也正是他们竭尽全力帮助搜索引擎蜘蛛更好抓取网站和投入大量精力在站内站外包括:内容,链接,Meta描述,图片优化和网站结构优化的原因。 

显然高级的网站优化策略是搜索营销成功的根本,但我们也必须深知很多技术SEO基础,包括robot.txt文件,Meta Robots标签,XML Sitemaps,微格式以及X-Robots标签。

本文将阐述如何设置Robots.txt文件,同时提供大量实例供参考。

什么是Robots文件?

Robots文件是一个文本文件用于指引搜索引擎机器人(或者叫爬虫,机器人,蜘蛛)如何抓取和索引网站页面,通常robots.txt文件会放在网站根目录下,方便爬虫在访问网站时更快捷的查看。

为使指令更好的传达给不同类型的搜索引擎机器人,Robots文件必须遵循1994年制定的机器人排除协议(REP)中的特定标准,该标准在1996.1997和2005年进行了大幅的扩展。

由于Robots文件为搜索引擎蜘蛛提供了有关如何抓取或者不抓取网站或者部分网站内容的说明,因此了解如何使用和设置该文件非常重要,如果robots文件设置错误,可能会导致SEO内容索引的问题进而影响到SEO项目数据表现。因此每当我们开始新的SEO活动,必须要使用站长工具后台的robots文件检测工具确保项目内容没有被屏蔽抓取。而合理配置的Robots文件会促进网站的抓取索引进程。

什么内容应该使用robots文件屏蔽抓取?

Robots文件可以用来屏蔽特定的目录,分类页面,只需要在对应内容前面加“disallow”即可。

需要在robots文件中屏蔽抓取的内容如下:

  • 重复内容
  • 翻页内容
  • 动态内容和服务
  • 登录页面
  • 账户页面
  • 购物车页面
  • 登录页面
  • 致谢页面

屏蔽抓取代码举例:

disallow code example

如上样例中,屏蔽抓取的内容包括用户账户页面,购物车页面,基于用户搜索需求生成的特定动态页面。

另外我们可以通过如下指令去查看任何网站的robots文件,这个文件在网络上通常是公开的

{域名}/robots.txt

www.amazon.com/robots.txt(亚马逊的robots文件)

这个文件的公开性,同时也限制了它不能放一些需要隐藏和安全加密的内容,另外很多恶意的机器人和抓取工具也可能会利用其来作为详细的地图浏览网站最具价值的网页。同时我们也必须知道,robots.txt文件里的命令只是指令,意味着即使robots文件指示蜘蛛不要抓取某些网站,他们还是会抓取。值得欣慰的是,大多数搜索引擎蜘蛛(谷歌,雅虎和Bing,Yandex)都遵循robots指令。

如何设置Robots.txt文件?

Robots.txt文件非常灵活,可以有好多种使用方法,其主要有点是能是SEO专家们批量一次屏蔽或者放开多个页面,而不必逐个访问每个页面的代码

1. 我们可以屏蔽掉所有蜘蛛的抓取,利用如下代码:

User-agent: *

Disallow: /

2. 对单个网站结构或者特定分类屏蔽掉蜘蛛的抓取,利用如下代码:

User-agent: *

Disallow: /no-index/

3. 对多个页面屏蔽抓取,只需要列出对应页面,前面加disallow指令即可,利用如下代码

disallow mutiple pages code example

4. Robots文件对重要的页面,分类甚至是CSS和Js代码进行优先级排序,如下样例:

如上样例中我们屏蔽掉了WordPress Page和特定的分类,但是放开了wp-content文件,Js插件和CSS样式以及博客内容。这样可以保证蜘蛛抓取和索引有用的代码和分类。

5. Robots文件是放sitemap文件的一个好地方,只是文件位置需要放置在User-agent,Disallow,Allow以及域名指令之后,如下:

查看谷歌官方robots文件指南全文:

https://developers.google.com/search/docs/advanced/robots/create-robots-txt

我是杰西,喜欢SEO研究的SEOer,一直在路上, 欢迎交流。也可以关注杰西seo公众号获取更多精彩SEO资讯

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注