Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站可以通过Robots协议来告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。
现在做网站的新手有很多,大多都不知道Rotots对网站的重要性。下面说下如何使用Robots.txt文件对WordPress站点就行优化。
搜索引擎在进行访问和抓取我们网站的时候,是先会对网站根目录中的Robots.txt文件进行读取,然后根据站长在Robots中制定的规则进行抓取。如果网站跟目录中没有Robots.txt文件,搜索引擎在爬行之后会在服务器中返回一个404的错误代码,从而加大对于服务器的负担。所以Robots.txt对于网站来说是非常重要的。
查看网站robots.txt可以通过浏览器浏览http://*你的域名*/robots.txt进行查看
WordPress在默认情况下Robots.txt内容如下
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-includes/
上面的Robots内容对于WordPress来说还是远远不够的,下面是相对比较完整的Robots.txt内容。
- Sitemap:http://域名/sitemap.xml
- Sitemap:http://域名/sitemap.html
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-content/
- Disallow: /wp-includes/
- Disallow: /*/comment-page-*
- Disallow: /*?replytocom=*
- Disallow: /category/*/page/
- Disallow: /tag/*/page/
- Disallow: /*/trackback
- Disallow: /feed
- Disallow: /*/feed
- Disallow: /comments/feed
- Disallow: /?s=*
- Disallow: /*/?s=*\
上面内容各项的作用
1.User-agent: *
允许所有搜索引擎爬行抓取
2.Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取WordPress后台程序文件页面。
3.Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取WordPress评论分页等相关链接。
4.Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录WordPress的分类和标签的分页。
5.Disallow: /*/trackback
禁止搜索引擎抓取收录WordPress的trackback以及垃圾信息
6.Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取和收录WordPress的feed链接,feed只用来订阅本站,搜索引擎抓取了也无用。
7.Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取百度站内搜索结果
8.Disallow: /attachment/
禁止搜索引擎抓取WordPress附件页面,比如毫无意义的图片附件页面。