当前位置:首页 > 新闻中心 > robots.txt是什么,如何为robots.txt文件正确设置

robots.txt是什么,如何为robots.txt文件正确设置

来 源:http://www.leadseo.cn发布时间:2019-11-26点击次数:


  你知道文件robots.txt吗?尽管robots.txt是在SEO中起着重要作用的文件,但通常情况下,其预期用途没有得到正确的理解。在本文中,上海seo优化公司小编将介绍robots.txt的概述,正确用法以及使用时的注意事项。

  

  robots.txt是什么?

  robots.txt是用于向搜索引擎(例如Google和baidu!)提供指令的文件。更准确地说,robots.txt用于向搜索引擎用来搜索网站的名为“蜘蛛”的程序提供指令。

  蜘蛛机器人是一种程序,可在Web上抓取各种页面,以在搜索引擎中建立索引。像Google,百度和Bing这样的搜索引擎都使用自己的蜘蛛程序。你可以使用robots.txt向这些搜索引擎抓取工具提供说明。

  使用robots.txt做什么

  那么,可以使用robots.txt给出哪些具体说明?

  robots.txt可以发出的指令非常简单,并且每种爬虫都只能抓取“可访问指定的网页和文件”的一点。

  指定可访问性的主要目的是限制爬虫对不必要页面的访问,以便可以访问更重要的页面。如前所述,爬虫会定期访问页面和内容以收集有关网站的信息。由于此访问的执行方式与一般用户浏览网页的方式相同,因此对爬虫的访问会对网站造成一定的负担。

  另外,由于抓取次数上限,因此使用robots.txt限制对不必要页面的访问。

  如何使用robots.txt

  robots.txt的实际状态是与HTML文件相同的文本格式文件,并且是通过文本编辑器(如记事本)创建的。使用FTP工具将创建的文件放置在网站的顶部文件夹中。例如,如果网站域名为****。Com,robots.txt的URL将如下所示。

  http://www.***.com/robots.txt

  文件名是robots.txt,区分大小写。如果一个字符有误,它将不会被识别为robots.txt,因此使用时请务必小心。

  robots.txt的内容

  在robots.txt中,对网站上目录和文件的访问描述如下。

  用户代理:[搜寻器类型]

  禁止:[目录或文件被拒绝访问]

  用户代理:

  指定搜寻器类型。例如,为Google搜寻器编写说明时,写“ Googlebot”。此外,如果指定“ *”(一个字节的星号),则可以一次向所有搜寻器发出指令。

  禁止:

  描述不允许访问上面的用户代理中指定的搜寻器的目录或文件的URL。如果使用星号(例如/*.gif),则可以禁止所有文件格式。

  使用robots.txt时的注意事项

  使用robots.txt时需要牢记一些注意事项。以下是你应特别注意的几点:

  它没有指定“不在搜索引擎上显示”

  通常,robots.txt是作为“禁止在搜索引擎上显示网页的方法”的,但是正如Google Search Console所述,这种用法是太过局限了。

  当然,如果您在robots.txt中指定不允许访问,则在大多数情况下,该页面不会出现在搜索引擎结果列表中。但是,这是与原始用法不同的用法,因此无法保证会是这种情况。

  如果你不想在网站上显示页面,则需要使用HTML文件中的meta标签来指定不允许使用索引。

  robots.txt未强制执行

  尽管robots.txt是向搜索引擎抓取工具提供说明的文件,但不能保证所有抓取工具都会正确遵循robots.txt的说明。

  Google蜘蛛程序(Googlebot)基本上遵循robots.txt中的说明,但是其他搜索引擎搜寻器并不总是这样做,并且指令的解释可能蜘蛛程序而异。

  了解原始用途并正确使用

  本文介绍了robots.txt的概述,正确用法以及使用时应注意的要点。希望你了解robots.txt的原始用法,并尝试正确使用robots.txt。