robots meta
Robots meta标签主要用于特定页面。与其他META标签(如使用的语言、页面描述、关键词等)一样,robots meta标记也被放置在页面的<head>中,这是为了告诉搜索引擎robots如何获取页面的内容。
follow指令能够提醒搜索引擎继续沿着页面上的链接对内容进行爬行和抓取;
robots meta标签的默认值是index和follow;
index指令可以提示搜索引擎抓取目标页面;
robots meta标签不用区分大小写,name="robots"表示所有搜索引擎
对于一个特定的搜索引擎,它可以写成name=“Baidu spider”内容。有四个命令选项:index、Noindex、follow、nofollow,指令之间用“,”分隔开来。
另外还有四种组合
<meta name="robots" content="index,follow"> 可以抓取本页,而且可以顺着本页继续索引别的链接 <meta name="robots" content="noindex,follow"> 不允许抓取本页,但是可以顺着本页抓取索引别的链接 <meta name="robots" content="index,nofollow"> 可以抓取本页,但是不许顺着本页抓取索引别的链接 <meta name="robots" content="noindex,nofollow"> 不允许抓取本页,也不许顺着本页抓取索引别的链接
robots
robots是网站和搜索引擎蜘蛛之间的协议。在访问站点的时候,搜索引擎蜘蛛首先会检查robot是否存在于站点的根目录中。如果找到了robots文件,搜索引擎蜘蛛就会根据文件内容来确定访问范围。如果文件不存在,搜索引擎蜘蛛将沿着链接进行爬行和抓取。
robots.txt是一个纯文本文件,可以帮助站长在网站中设置不希望被搜索引擎访问的部分、或是只允许搜索引擎收录指定的内容。需要注意的是,txt文件必须放在站点的根目录中,并且文件名必须是小写的。
简单来说,设置robots文件会直接影响搜索引擎对网站的收录情况。因此,只有需要阻止搜索引擎爬行网站的时候,才会编写robots.txt文件。
有些服务器设置会存在这样的问题:当robots文件不存在时,它会返回200状态代码和一些错误消息,而不是404页面。这是因为搜索引擎误读了robots的文件信息。
Robots和robots meta的区别
所有的搜索引擎都支持和遵守robots.txt的规则,但是支持robots meta的很少,所以我们可以按照自己实际需求去使用它们