Robots.txt禁止收录协议的写法
很多网站优化师做优化的时候不知道robots是什么?更不知道怎么写一个robots文件。接下来科技教大家怎么写一个正确的robots.txt协议。
什么是Robots.txt?
Robots.txt 是网站和搜索引擎的协议的纯文本文件,,当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robot.txt,如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。Robots 放在空间的根目录。
1、robots语法
User-agent: *
解释:“*”星号表示允许所有蜘蛛来 抓取这个网站
注意:第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
Disallow
解释:不允许蜘蛛抓取
举例:
Disallow: /*
解释:禁止搜索引擎蜘蛛抓取整个网站(网站没有做好之前一定不能让搜索引擎蜘蛛抓取)
2、路径后面有斜杠和没有斜杠的区别
Disallow: /images/ Disallow: /images
解释:有斜杠是禁止抓取images整个文件夹,没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽
屏蔽动态链接的方式
Disallow: /*=* Disallow: /*?* Disallow: /*&*
解释:星号代表所有的字符,屏蔽所有带有等于号、问号、&号的链接(一定要有两个*号)
屏蔽css文件和js文件的写法
Disallow: /.css$
Disallow: /.js$
屏蔽一个文件夹,但是又能抓取其中一个文件的写法:/templets/qiche
Disallow: /templets
Allow: /qiche
解释:屏蔽文件夹templets,但能抓取文件夹里的其中一个文件qiche
3、写robots.txt要注意的地方
斜杠:/ 代表整个网站
如果“/”后面多了一个空格,则屏蔽整个网站
不要禁止正常的内容
生效时间是几天到两个月
具体写法:——————-
User-agent: *
Disallow: /