Robots是一个站点和搜索引擎之间的协议,该协议可以告诉搜索引擎的蜘蛛可以抓取哪些页面,哪些页面不能抓取,存在于站点的robots.txt文件名中。怎样看robots,它对站点的影响是什么?
直接在网址后面添加"/robots.txt"以查看。规范的搜索引擎对Robots文件进行收录,如果没有规范,搜索引擎随意抓取,很可能抓取到大量垃圾网页或者是我们不想让百度抓取的页面,比如网站后台等等,这些垃圾网页被收录后,百度会认为网站质量不高,会影响网站的排名。被抓取网站后台也会增加网站的安全风险。
Robots协议的编写规则如下:
User-agent:定义出现在协议文件第一行的各种搜索引擎。如“*”星号所指的是所有的搜索引擎,如Baiduspider,360Spider,Sospider,Sospider,等等。*代表这条规则对所有的搜索引擎生效。
Disallow:定义一个禁止抓取的地址,以“/”开始,用斜杠表示站点的根目录。关键字后面是冒号,路径中的那个关键字将被屏蔽。
过滤动态链接:Disallow: *?*
过滤css文件:Disallow:*.css$,“$”是结束符号,这条规则表示所有以.css结尾的文件都被过滤掉。
Allow:允许抓取,一般情况下不会使用,默认情况下是允许的。
Robots.txt的编写格式:
一、第一个英文字母必须要大写。
二、冒号必须处于英文状态。
三、冒号之后的空格,在一个英文状态下,只有一个空格。
静竹SEO提醒您,在编写robots协议时一定要严格遵守安照书写规则,这是搜索引擎给出的规则,不是格式,它根本不知道。
如不确定自己写的协议是否正确,可通过网站百度站长平台查询。
什么情况下使用robots呢?
1、统一的路径,有些网站页面上有动态和静态两种链接,屏蔽了动态链接,就可以将网站统一为静态链接,统一的路径有利于网站优化。
2、屏蔽站内搜索链接,搜索任意一个字都会产生一个链接,而这些链接是无意义的,被收录后同样会降低网站的质量。
3、由站点标签生成的中文路径或其他中文路径。
4、js文件
关于Robots的说明:
1、反斜杠后一定不能有空格,Disallow:/abc,反斜杠后的空格表示要屏蔽整个站点。
2、生效时间不超过两个月。
3、不要随意屏蔽网站所有页面。
关于《详解网站robots文件》的相关内容,就给大家讲到这里。
本文链接地址:https://www.xiaozeseo.com/jzjc/468.html 未经允许禁止转载。