咨询客服

官方公众号

回到顶部

Robots.txt错误案例这3种写法会导致搜索引擎拒绝抓取

  1. Robots.txt是个啥,为啥这么重要

我们搞网站优化的,都晓得Robots.txt是啥,对吧,这玩意儿就像个门卫,通知搜索引擎哪些页面能进,哪些不克不及进,但有时分,我们能够不小心就踩坑了,写错了规则,后果搜索引擎就拒之门外了,不慌,我们明天就聊聊这3种罕见的错误写法,让你的网站不再被搜索引擎热闹,

  1. 错误写法一制止一切搜索引擎抓取

有时分,我们能够想掩护一些敏感信息,或许网站还没预备好上线,就不小心把一切搜索引擎都制止了,好比如此写

User-agent * Disallow /

这就意味着,一切搜索引擎都不克不及抓取你的网站了,但假如你只是想暂时隐藏,能够用Sitemap来通知搜索引擎哪些页面是暂时不想被抓取的,或许,你能够设置一个工夫,过段工夫再允许抓取,如此,你的网站就可不能错过搜索引擎的收录了,

  1. 错误写法二制止特定搜索引擎抓取

有时分,我们能够对某个搜索引擎有意见,或许觉得它抓获得太频繁,就想制止它,但如此写

User-agent Googlebot Disallow /

只制止了Googlebot,其他搜索引擎依然能够正常抓取的,假如你想制止一切搜索引擎,就应该在User-agent前面加一个星号,但如此做确实有需要吗事实上,大少数状况下,我们应该欢送一切搜索引擎,究竟它们都能给你带来流量,

  1. 错误写法三制止抓取但允许索引

有时分,我们能够想制止搜索引擎抓取页面内容,但还想让它索引那个页面,因此如此写

User-agent * Disallow /some-page.

然后,在页面的meta标签里加上

但如此事实上是矛盾的,由于Disallow曾经通知搜索引擎不要抓取那个页面了,而noindex只是通知搜索引擎不要索引那个页面的内容,因此,假如你想让搜索引擎索引那个页面,就不要在Robots.txt里制止它,

  1. 怎样防止这些错误

那怎样防止这些错误呢第一,你得清楚你的网站目的,是想让更多的搜索引擎抓取,依然想掩护一些敏感信息,然后,按照你的目的,合理设置Robots.txt的规则,

假如你不确定本身的设置能否正确,能够用一些在线工具来反省,好比Google的Robots.txt Tester,输出你的网站地址,它就会通知你哪些页面是能够被抓取的,

还有,记得按期反省你的Robots.txt,看看有没有过时的规则,或许不小心写错的中央,究竟,搜索引擎的算法和抓取习气也在赓续变更,我们也得跟上节拍,

最初,假如你发现本身的网站被搜索引擎热闹了,不慌,先反省一下Robots.txt,看看是不是哪里写错了,假如是,赶忙改正来,然后耐烦等候搜索引擎重新抓取,

你遇到过相似的咨询题吗,是怎样处理的欢送分享你的经历,我们一同交流交流,