robots.txt是一个文本文件,位于网站根目录中,并向搜索引擎爬虫提供有关页面的抓取说明。
爬虫访问网站时,做的第一件事是查找并检查robots.txt文件的内容。爬虫会根据文件中指定的规则,抓取robots中允许的列表,并在以后为网站建立索引。
如果没有robots.txt文件怎么办?
如果缺少robots.txt文件,搜索引擎会抓取网站的所有可用页面。
如果robots.txt格式不正确怎么办?
如果搜索引擎由于配置错误而无法理解文件的内容,它们仍将访问网站并忽略robots.txt中的内容。
如果我不小心阻止搜索引擎访问我的网站怎么办?
那样爬虫不会从您的网站上搜寻网页并加入索引,并且逐渐删除之前抓取的页面。不小心为之重新建立一个robots.txt即可。
如何创建新的robots.txt
如果您还没有robots.txt,请使用文本编辑器创建一个新的.txt文件,添加您的指令,将其保存并上传到您网站的根目录。
重要提示:请确保您的文件名为robots.txt,而不是其他任何文件。文件名应全部小写。
robots文件写法
User-agent: * 这里的*代表的所有的搜索引擎
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例3:淘宝网不允许百度的机器人网站所有目录
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
当然指令并不是简单讲解很多人就融会贯通的。这里给大家分享一个在线生成指令的平台,www.baisheng999.com/practicaltools/robots/
生成后保存放到网站根目录即可。
也可自行检测是否正确放置。直接在网站的域名后边输入robots.txt即可。例如:http://www.baidu.com/robots.txt
联系客服