0
(0)

无论搭建什么类型的网站,搜索引擎优化都是必不可少的,而robots.txt这个和搜索引擎直接对话的文件,就显得异常重要,而怎么书写这个文件比较科学也是我们必须要考虑到的问题,了解书写格式之前,我们首先要了解这个文件的意义和wordpress程序中各种文件的作用;

什么是robots.txt文件?

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

这里引用的是百度给出的官方解释,而简单的来说,robots.txt文件就是告诉各种搜索引擎爬虫,网站里面哪些内容允许抓取,哪些不允许抓取,而这些信息告知爬虫的方式就是用robots.txt文件。每一种爬虫来到网站的时候,第一个都会查找这个文件是否存在,比如小川seo博客的robots.txt地址即是:http://www.xuejianzhan.com/robots.txt,当然如果你的网站是开放的,就不需要存在这个文件。进一步了解,请到百度robots.txt规则说明查看:http://www.baidu.com/search/robots.html#n

了解了robots.txt文件的存在意义,下一步就让我们研究下我们喜爱的wordpress程序中的文件意义;
wordpress程序中共有22个文件,其中有3个是文件夹,分别是:wp-admin、wp-content、wp-includes,3个文件夹代表的意义分别是:程序后台文件、用户提供内容文件(比如主题和插件等)、数据库管理日志和程序规则等文件;再看看另外的19个:
index.php wordpress核心索引文件;
license.txt GPL许可证文件;
readme.html 安装导言;
wp-activate.php 信息聚合文件;
wp-blog-header.php 定义博客显示参数文件;
wp-comments-post.php 接受评论并提交数据库;
……
了解更多文件意义,请查看百度wordpress文档页面:http://wenku.baidu.com/view/0dcc5be8551810a6f52486c1.html;

了解了各方面的文件意义,这样我们书写robots.txt文件,就能有章可循了,我先贴上一种写法,也是目前小川博客采用的方法,可以参考一下:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/uploads

Allow: /

Sitemap:http://www.xuejianzhan.com/sitemap.html

说明一下这样写的意义:
User-agent: * //声明所有的搜索引擎爬虫;
Disallow: /wp-admin //禁止抓取wp-admin后台文件;
Disallow: /wp-includes//禁止抓取wp-includes文件;
Disallow: /wp-* //禁止抓取根目录下所有以wp-开头的文件;
Disallow: /wp-content/plugins //禁止抓取插件文件;
Disallow: /wp-content/themes //禁止抓取主题文件;
Disallow: /wp-content/uploads //禁止抓取图片文件;
Allow: / //除此之外,其他都允许抓取;
Sitemap:http://www.xuejianzhan.com/sitemap.html //并给出地图文件;
这样写算是比较严格的一种了,也仅仅是针对wordpress搭建的网站,如果想写的更详细,可以参考百度的robots.txt说明进一步改进;如果你觉得不容易理解,可以直接复制小川博客的样式写法,所有的wordpress程序都是通用的,顺便也提供一下下载地址:robots.txt下载
看一个视频教程,可能你理解的更深刻些:

声明:本站分享的WordPress主题/插件均遵循 GPLv2 许可协议(免费开源),相关介绍资料仅供学习参考,实际版本可能会因版本迭代或开发者调整而产生变化,如程序中涉及有第三方原创图像、设计模板、远程服务等内容,应获得作者授权后方可使用。本站不提供该程序/软件的产品授权与技术服务,亦不收取相关费用。