武汉SEO

您的位置:首页 > SEO核心技术

做SEO优化必知robots协议规则大全

2016-10-04 13:28:00


一、什么是 robots ?
 
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
 
二、robots 格式定义
 
User-agent:用于描述搜索引擎robot的名字。
 
Disallow:用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。
 
Allow:用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。
 
三、特殊通配符
 
"*"    匹配0或多个任意字符
"$"   匹配行结束符。
"?"   匹配动态路径
 
四、使用方法
 
 在本地建立一个 robots.txt 文本文件,把需要设置的 robot 协议写进文本中,然后再把此 robots.txt 文本文件上传至网站空间根目录下。
 
五、常用设置蛛蛛
 
 百度蜘蛛:Baiduspider
谷歌机器人:  Googlebot
 360好搜: 360spider
 SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
必应蜘蛛:bingbot
 
六、robots的用法举例
 
1.屏蔽所有搜索引擎
 
User-agent: * 
 Disallow: /
 
注意:英文冒号后面紧接着必须是一个英文格式的“空格”。
 
2.屏蔽百度蛛蛛,允许其它蛛蛛
 
User-agent: Baiduspider
Disallow: /  
 
User-agent: *
 
3.屏蔽一个文件夹
 
User-agent: *
Disallow: /data/
 
4.屏蔽一个文件夹,但允许访问此文件夹中的某个文件
 
User-agent: *
Disallow: /data/
Allow: /data/abc.php
 
5.屏蔽文件夹时后面带 "/" 与不带 "/" 的区别
 
例如 "Disallow:/data"  是禁止robot访问/data.html、/dataxxx.html、/data/xxx.html,
而 "Disallow:/data/"则禁止robot访问/data/xxx.html、/data/xxx/ ,而允许访问/data.html、/dataxxx.html文件。
PS:Allow 是一样的道理。
 
6.屏蔽动态路径
 
User-agent: *
Disallow: /*?*
 
7.指定蛛蛛爬取路径以 .html 结尾,后面所有路径都不再抓取
 
User-agent: *
Disallow: /*.html$
 
8.分别定义百度蛛蛛,和谷歌蛛蛛
 
User-agent: Baiduspider
Disallow:  /data/
 
User-agent: Googlebot
Disallow: /template/
 
如我网站的 robots 协议:

相关文章

  • 做SEO优化必知robots协议规则大全

    做SEO优化必知robots协议规则大全

    一、什么是 robots ? robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。 二、robots 格式定义 User-agent:用于描述搜索引擎robot的名字。 Disallow:用于描述不希望被访问
  • 关键词排名下降

    关键词排名下降

    关键词排名下降常见的几种原因分析,从自身操作的步骤出发,逐一分析,看哪种操作容易引发被百度惩罚,其实网站关键词排名适当的波动是一件很正常的事情,如果波动蛮大的
  • 网站文章缩略图指定文件夹里的图片调用

    网站文章缩略图指定文件夹里的图片调用

    在网站建站时我有一次遇到过缩略图指定调用的需求,为什么要指定调用?在这里,操作网站过程中会有两种情况:1.发布文章时未加图片,导致文章没有产生缩略图,为使栏目列