亚冠

SEO葵花宝典控制Google爬虫抓取7

2019-06-09 00:24:01来源:励志吧0次阅读

对于有些站长来说,Google的抓取过于频繁(消耗了大量带宽)。而另一些站长又觉得访问得太少。有些站长抱怨Googlebot没有访问他们站点的全部内容,而另一些则气恼Googlebot抓取了那些他们根本不希望被访问的内容,还放到了Google的索引当中。

从某种程度来说,吸引爬虫是做不到的。如果站点内容质量高、更新速度快而且外部引用多的话,Google自然会访问它。光靠叫唤可不能让站点扬名!然而,你却可以阻止爬虫。你可以控制G00glebot爬取那些页面、降低抓取频率(如果你愿意的话)或者控制每次抓取的深度。

阻止蛛的名称,接下来是不允许防问的目录或文件的列表,块与块之间用空行分隔。文件名的格式还支持通配符,例如用#和?来代表任意数字或字母。

下面的t文件将会阻止所有的爬虫访问图片目录和PERL脚本目录,并且f又阻止Googlebot访问带有版权的内容和版权声明页面(假使图片放置在image目录下,并且带有版权的内容放置在copyright目录下):

User-agent:*

Disallow:/images/

Disallow:/cgibin/

Useragent:Googlebot

Disallow:/copyright/

如果要控制Googlebot的抓取速率的话,就需要注册Google站长工具了(我会在7.2节的跟踪与调整中详细叙述相关内容)。你可以选择三个等级:快速、中速和慢速(尽管某些时候快速并不可用)。中速是默认的(也是被推荐使用的)抓取速率。慢速将会降低Googlebot在本站服务器上消耗的流量,但是同时Google的抓取也会变得不那么频繁了。

需要注意的是,并不是所有的抓取调整方法都是100%可靠的(尤其是那些工作原理与Googlebot不同的络蜘蛛)。比如说很多蜘蛛程序不支持写在页meta标签中的元数据爬虫指令。但是为了兼顾完整性,我会在此说明一下。阻止蜘蛛程序索引该页面的meta标签这样编写:

metaname=robotscontent=NOINDEX而不让蜘蛛程序抓取该页面上的链接,则meta标签可以这样写:metaname=robotscontent=NOFOllOW

Google对NOINDEX和NOFOIlLOW都是支持的,但是其他搜索引擎通常都不支持。所以SEO葵花宝典建议还是使用t更好一些。

微信上的小程序是什么
眼科
科技网络
分享到: