wordpress网站的robots.txt文件写法详解

robots.txt是一个放置在网站根目录的协议，它是搜索引擎进入网站的必经关卡，robots文件能告知进入网站的搜索引擎spider，这个网站中哪些网站是允许爬取的，哪些是禁止爬取的。

robots的语法很丰富，最常用的两个命令有两个：User-Agent和Disallow。

User-Agent：适用下列规则的漫游器，一般常写为：

User-agent： *

星号（*）表示面对所有搜索引擎爬虫spider程序，比如Google的“Googlebot”，百度的“Baiduspider”等。

Disallow：要拦截的网页，即不允许搜索引擎访问和索引的目录。robots文件中至少要有一个Disallow，如果都允许收录，则写: Disallow: ，如果都不允许收录，则写:Disallow: / （注：只是差一个斜杆）。Disallow的用法非常多，具体如下：

1、屏蔽spider捉取程序文件，同时也节约了搜索引擎蜘蛛资源。

Disallow： /wp-admin/
Disallow： /wp-content/
Disallow： /wp-includes/

2、每个默认的文章页面代码里，都有一段trackback的链接，如果不屏蔽让蜘蛛去捉取，网站会出现重复页面内容问题。

Disallow： /*/trackback

3、头部代码里的feed链接主要是提示浏览器用户可以订阅本站，而一般的站点都有RSS输出和网站地图，故屏蔽搜索引擎捉取这些链接，节约蜘蛛资源。

Disallow： /feed
Disallow： /*/feed
Disallow： /comments/feed

4、屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有，如果收录了会造成和TAG等页面的内容相近。

Disallow： /?s=*
Disallow： /*/?s=*

5、屏蔽留言链接插件留下的变形留言链接。（没安装相关插件当然不用这条指令）

Disallow： /?r=*

6、屏蔽捉取任何图片文件，在这里主要是想节约点宽带，不同的网站管理员可以按照喜好和需要设置这几条指令。

Disallow： /*.jpg$
Disallow： /*.jpeg$
Disallow： /*.gif$
Disallow： /*.png$
Disallow： /*.bmp$

7、屏蔽捉取短链接。默认头部里的短链接，百度等搜索引擎蜘蛛会试图捉取，虽然最终短链接会301重定向到固定链接，但这样依然造成蜘蛛资源的浪费。

Disallow： /?p=*

8、屏蔽捉取留言信息链接。一般不会收录到这样的链接，但为了节约蜘蛛资源，也屏蔽之。

Disallow： /*/comment-page-*
Disallow： /*?replytocom*

9、屏蔽其他的一些形形色色的链接，避免造成重复内容和隐私问题。

Disallow： /a/date/
Disallow： /a/author/
Disallow： /a/category/
Disallow： /?p=*&preview=true
Disallow： /?page_id=*&preview=true
Disallow： /wp-login.php

Sitemap：如果说sitemap是给搜索引擎爬虫指路的地图，那么robots则是看守网站的一道门。如果您想了解更多关于sitemap的知识和写法，可以参照《wordpress博客seo优化之sitemap》一文。sitemap在robots文件的写法如下：

Sitemap:http://***.com/sitemap.txt

切记S是大写的！

当然以上介绍的Disallow和Sitemap并非全部必须，可以按您网站的具体情况写入，同时可以用google管理工具测试robots.txt是否合乎规范。（转载请注明转自五月兰博客 http://www.wuyuelan.com）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。