打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
什么是robots.txt,如何在网站添加robots指令

robots.txt是一个文本文件,位于网站根目录中,并向搜索引擎爬虫提供有关页面的抓取说明。

爬虫访问网站时,做的第一件事是查找并检查robots.txt文件的内容。爬虫会根据文件中指定的规则,抓取robots中允许的列表,并在以后为网站建立索引。

 如果没有robots.txt文件怎么办?

如果缺少robots.txt文件,搜索引擎会抓取网站的所有可用页面。

如果robots.txt格式不正确怎么办?

如果搜索引擎由于配置错误而无法理解文件的内容,它们仍将访问网站并忽略robots.txt中的内容。

如果我不小心阻止搜索引擎访问我的网站怎么办?

那样爬虫不会从您的网站上搜寻网页并加入索引,并且逐渐删除之前抓取的页面。不小心为之重新建立一个robots.txt即可。

如何创建新的robots.txt

如果您还没有robots.txt,请使用文本编辑器创建一个新的.txt文件,添加您的指令,将其保存并上传到您网站的根目录。

重要提示:请确保您的文件名为robots.txt,而不是其他任何文件。文件名应全部小写。

robots文件写法

User-agent: *           这里的*代表的所有的搜索引擎

Disallow: /admin/    这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/   这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/        这里定义是禁止爬寻ABC目录下面的目录

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例3:淘宝网不允许百度的机器人网站所有目录

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

当然指令并不是简单讲解很多人就融会贯通的。这里给大家分享一个在线生成指令的平台,www.baisheng999.com/practicaltools/robots/     

生成后保存放到网站根目录即可。

也可自行检测是否正确放置。直接在网站的域名后边输入robots.txt即可。例如:http://www.baidu.com/robots.txt

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
robots.txt文件写法
如何设置wordpress robots.txt
robots.txt 指南
如何写robots.txt?
heritrix设置取消robots.txt限制
robots文件的用法和robots.txt的写法
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服