武汉SEO

您的位置:首页 > SEO核心技术

做SEO优化必知robots协议规则大全

2016-10-04 13:28:00


一、什么是 robots ?
 
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
 
二、robots 格式定义
 
User-agent:用于描述搜索引擎robot的名字。
 
Disallow:用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。
 
Allow:用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。
 
三、特殊通配符
 
"*"    匹配0或多个任意字符
"$"   匹配行结束符。
"?"   匹配动态路径
 
四、使用方法
 
 在本地建立一个 robots.txt 文本文件,把需要设置的 robot 协议写进文本中,然后再把此 robots.txt 文本文件上传至网站空间根目录下。
 
五、常用设置蛛蛛
 
 百度蜘蛛:Baiduspider
谷歌机器人:  Googlebot
 360好搜: 360spider
 SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
必应蜘蛛:bingbot
 
六、robots的用法举例
 
1.屏蔽所有搜索引擎
 
User-agent: * 
 Disallow: /
 
注意:英文冒号后面紧接着必须是一个英文格式的“空格”。
 
2.屏蔽百度蛛蛛,允许其它蛛蛛
 
User-agent: Baiduspider
Disallow: /  
 
User-agent: *
 
3.屏蔽一个文件夹
 
User-agent: *
Disallow: /data/
 
4.屏蔽一个文件夹,但允许访问此文件夹中的某个文件
 
User-agent: *
Disallow: /data/
Allow: /data/abc.php
 
5.屏蔽文件夹时后面带 "/" 与不带 "/" 的区别
 
例如 "Disallow:/data"  是禁止robot访问/data.html、/dataxxx.html、/data/xxx.html,
而 "Disallow:/data/"则禁止robot访问/data/xxx.html、/data/xxx/ ,而允许访问/data.html、/dataxxx.html文件。
PS:Allow 是一样的道理。
 
6.屏蔽动态路径
 
User-agent: *
Disallow: /*?*
 
7.指定蛛蛛爬取路径以 .html 结尾,后面所有路径都不再抓取
 
User-agent: *
Disallow: /*.html$
 
8.分别定义百度蛛蛛,和谷歌蛛蛛
 
User-agent: Baiduspider
Disallow:  /data/
 
User-agent: Googlebot
Disallow: /template/
 
如我网站的 robots 协议:

相关文章

  • 采集:火车头采集文章在网站后台不自动生成

    采集:火车头采集文章在网站后台不自动生成

    一、不自动生成的原因(为什么需要不自动生成) 采集文章一般都是批量采,但是如果一个站批量采后,自动在网站后台里一键更新了文章,这就有违网站天天定时更新的优化原理
  • 用数字标题营造爆款文章

    用数字标题营造爆款文章

    前面我讲了如何写出一个 提升网站点击率的SEO标题写法 ,里面提到了三个例子来举例说明我们该如何打造用数字标题写出爆款文章,下面我再对这个技巧进行补充下。 标题一:关于微信运营新手最容易犯的30个错误 他用30这个数字给人一个基本的预期,就是说我读了
  • 选择网站域名优化分析大全

    选择网站域名优化分析大全

    域名是我们网站一个门面,选择一个好的域就相当于你为自己的门面做了一套装修,把自己的网站域名装修的即好记又好传播。网站的域名,一般越短用户就越好记忆,用户也有惰性,如果选择一个很长的域名,用户可能输带一半就不想再输入了,所以域名越短越好。 一