0
(0)

本篇我们继续学习百度站长给出的搜索建议规则,这节研读百度搜索引擎建议第三条:如何让我的网页不被百度收录?站长搭建网站以后,有些内容不想被百度或其他搜索引擎索引,那么可以通过搜索引擎支持的协议规则屏蔽搜索引擎的抓取,下面我们看下百度给出的具体建议:

如何让我的网页不被百度收录?

  • 百度严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。
  • 您可以设置一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件。
  • 如果您的网站在被百度收录之后才设置Robots文件禁止抓取,那么新的Robots文件通常会在48小时内生效,生效以后的新网页,将不再建入索引。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。
  • 如果您的拒绝被收录需求非常急迫,可以在反馈中心反馈,我们会尽快处理。

1、百度严格遵循搜索引擎Robots协议;
robots协议时站长和搜索引擎之间的协议文书,也被成为机器人排除协议。站长通过书写robots规则可以告诉搜索引擎机器人哪些文件可以访问,哪些不需要索引抓取。一个新的搜索引擎机器人来到网站访问,第一个访问的就是根目录下面的robots文件,一般情况下搜索引擎都会遵循这个协议文件。
2、您可以设置一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录;
robots协议文件出了屏蔽具体的链接文档,也可以整体屏蔽一个分类文档,或带有特定后缀或前缀的文件。
3、robots.txt的具体写法:
具体可以参考百度robots.txt书写规则建议:http://www.baidu.com/search/robots.html;
4、robots文件如果被编辑修改,一般需要等到48小时后才能生效,并不是实时更新的。

robots.txt语法规则:
User-agent: 针对的搜索引擎名称,如果是针对百度可以写为:User-agent: Baiduspider,如果是针对所有搜索引擎则写为:User-agent: *;
Disallow: 这个规则后的所有文件不允许搜索引擎抓取索引;
Allow: 允许抓取的文件;
“*”and”$”:Baiduspider支持使用通配符”*”和”$”来模糊匹配url,”$” 匹配行结束符,”*” 匹配0或多个任意字符。

以下是学建站网的robots文件,你可以通过http://www.xuejianzhan.com/robots.txt查看。

User-agent: * [针对所有搜索引擎]
Disallow: /wp-admin/ [不允许抓取wp-admin文件夹下的文件]
Disallow: /wp-includes/ [不允许抓取wp-includes文件夹下的文件]
Disallow: /tool/ [不允许抓取tool文件夹下的文件]
Disallow: /code/ [不允许抓取code文件夹下的文件]
Disallow: /feed [不允许抓取feed文件]
Disallow: /wp-* [不允许抓取wp-开通的wordpress文件]
Disallow: /?s= [不允许抓取搜索出来的页面]
Sitemap: http://www.xuejianzhan.com/sitemap_baidu.xml [百度地图地址]

[]括号中针对规则进行的解释,自己书写时可以参考本站写法和百度robots.txt书写规则建议。

特别提醒#:无论是新站还是为修改完成的网站,请一定不要屏蔽百度搜索引擎索引网站页面,不然后期会导致收录缓慢。

声明:本站分享的WordPress主题/插件均遵循 GPLv2 许可协议(免费开源),相关介绍资料仅供学习参考,实际版本可能会因版本迭代或开发者调整而产生变化,如程序中涉及有第三方原创图像、设计模板、远程服务等内容,应获得作者授权后方可使用。本站不提供该程序/软件的产品授权与技术服务,亦不收取相关费用。