网站里的“robots”文件是什么意思？

2024-11-09 10:00:06

推荐回答（2个）

回答1：

搜索引擎爬去我们页面的工具叫做搜索引擎机器人，也生动的叫做“蜘蛛”

蜘蛛在爬去网站页面之前，会先去访问网站根目录下面的一个文件，就是robots.txt。这个文件其实就是给“蜘蛛”的规则，如果没有这个文件，蜘蛛会认为你的网站同意全部抓取网页。

Robots.txr文件是一个纯文本文件，可以告诉蜘蛛哪些页面可以爬取（收录），哪些页面不能爬取。

举个例子：建立一个名为robots.txt的文本文件，然后输入

User-agent: * 星号说明允许所有搜索引擎收录

Disallow: index.php? 表示不允许收录以index.php?前缀的链接，比如index.php?=865

Disallow: /tmp/ 表示不允许收录根目录下的tmp目录，包括目录下的文件，比如tmp/232.html

回答2：

搜索引擎spider(蜘蛛)在访问一个网站时，会首先会检查该网站目录是否有一个文件叫做robots.txt的纯文本文件，这个文件用于指定spider(蜘蛛)在你网站是的抓取的范围. 简单点来说就是你想让他抓取的哪部分和你不想让他抓取的某部分。
当一个搜索机器人robots（有的叫搜索蜘蛛或者爬虫）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索引擎爬虫就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索引擎爬虫就沿着链接抓取。

User-agent:（不允许）
该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为，则对任何robot均有效，在"robots.txt"文件中，"User-agent:"这样的记录只能有一条。如果在"robots.txt"文件中，加入"User- agent:SomeBot"和若干Disallow、Allow行，那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。
如果单独写出来，则这个蜘蛛只受其下面的几个Disallow和Allow行限制。
没写出来的，受User-agent: * 限制。