武汉SEO

您的位置:首页 > SEO核心技术

做SEO优化必知robots协议规则大全

2016-10-04 13:28:00


一、什么是 robots ?
 
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
 
二、robots 格式定义
 
User-agent:用于描述搜索引擎robot的名字。
 
Disallow:用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。
 
Allow:用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。
 
三、特殊通配符
 
"*"    匹配0或多个任意字符
"$"   匹配行结束符。
"?"   匹配动态路径
 
四、使用方法
 
 在本地建立一个 robots.txt 文本文件,把需要设置的 robot 协议写进文本中,然后再把此 robots.txt 文本文件上传至网站空间根目录下。
 
五、常用设置蛛蛛
 
 百度蜘蛛:Baiduspider
谷歌机器人:  Googlebot
 360好搜: 360spider
 SOSO蜘蛛:Sosospider
有道蜘蛛:YoudaoBot
必应蜘蛛:bingbot
 
六、robots的用法举例
 
1.屏蔽所有搜索引擎
 
User-agent: * 
 Disallow: /
 
注意:英文冒号后面紧接着必须是一个英文格式的“空格”。
 
2.屏蔽百度蛛蛛,允许其它蛛蛛
 
User-agent: Baiduspider
Disallow: /  
 
User-agent: *
 
3.屏蔽一个文件夹
 
User-agent: *
Disallow: /data/
 
4.屏蔽一个文件夹,但允许访问此文件夹中的某个文件
 
User-agent: *
Disallow: /data/
Allow: /data/abc.php
 
5.屏蔽文件夹时后面带 "/" 与不带 "/" 的区别
 
例如 "Disallow:/data"  是禁止robot访问/data.html、/dataxxx.html、/data/xxx.html,
而 "Disallow:/data/"则禁止robot访问/data/xxx.html、/data/xxx/ ,而允许访问/data.html、/dataxxx.html文件。
PS:Allow 是一样的道理。
 
6.屏蔽动态路径
 
User-agent: *
Disallow: /*?*
 
7.指定蛛蛛爬取路径以 .html 结尾,后面所有路径都不再抓取
 
User-agent: *
Disallow: /*.html$
 
8.分别定义百度蛛蛛,和谷歌蛛蛛
 
User-agent: Baiduspider
Disallow:  /data/
 
User-agent: Googlebot
Disallow: /template/
 
如我网站的 robots 协议:

相关文章

  • dede相关文章调用

    dede相关文章调用

    由于最近开始重新维护我的博客站,网站是用dede程序搭建的,发现文章页面的dede相关文章调用不是很完美,于是在于我是强迫症及
  • 本地环境 XAMPP 如何搭建多个网站

    本地环境 XAMPP 如何搭建多个网站

    xampp 是一个非常方便的本地建站环境软件,我一直都是用的xampp软件来在本地搭建网站调试用的,先在本地把网站调试改好,先填充一部分内容到网站里面去,这样在网站上线后
  • 提升网站点击率的SEO标题写法

    提升网站点击率的SEO标题写法

    今天我分享 如何才能写好文章的SEO标题 ,重要技巧如何用数字起爆款标题。首先我们讲的是为什么要用数字,通过这一点来解释数字和爆款标题的关系。 第一点数字的辨识度高什么意思呢?在一堆中文文字中穿插数字能够锁定读者的注意力,数字有着天然的魅力,它特