什么是robots.txt,如何在网站添加robots指令

robots.txt是一个文本文件，位于网站根目录中，并向搜索引擎爬虫提供有关页面的抓取说明。

爬虫访问网站时，做的第一件事是查找并检查robots.txt文件的内容。爬虫会根据文件中指定的规则，抓取robots中允许的列表，并在以后为网站建立索引。

如果没有robots.txt文件怎么办？

如果缺少robots.txt文件，搜索引擎会抓取网站的所有可用页面。

如果robots.txt格式不正确怎么办？

如果搜索引擎由于配置错误而无法理解文件的内容，它们仍将访问网站并忽略robots.txt中的内容。

如果我不小心阻止搜索引擎访问我的网站怎么办？

那样爬虫不会从您的网站上搜寻网页并加入索引，并且逐渐删除之前抓取的页面。不小心为之重新建立一个robots.txt即可。

如何创建新的robots.txt

如果您还没有robots.txt，请使用文本编辑器创建一个新的.txt文件，添加您的指令，将其保存并上传到您网站的根目录。

重要提示：请确保您的文件名为robots.txt，而不是其他任何文件。文件名应全部小写。

robots文件写法

User-agent: * 这里的*代表的所有的搜索引擎

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例3：淘宝网不允许百度的机器人网站所有目录

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

当然指令并不是简单讲解很多人就融会贯通的。这里给大家分享一个在线生成指令的平台，www.baisheng999.com/practicaltools/robots/

生成后保存放到网站根目录即可。

也可自行检测是否正确放置。直接在网站的域名后边输入robots.txt即可。例如：http://www.baidu.com/robots.txt

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。