咨询客服

官方公众号

回到顶部

Robots.txt文件怎么写新手必看的4个禁止/允许规则

  1. Robots.txt是啥玩意儿,为啥要搞明白它

我们做网站的时分,常常会遇到搜索引擎爬虫,它们会来抓取网站内容,然而,有些页面我们不想让它们抓,这时分就需求用到Robots.txt文件了,那个文件就像个门卫,通知爬虫哪些中央能去,哪些中央不克不及去,老手能够会踩坑,不晓得咋设置,不慌,我们一步步来,

  1. 制止爬虫拜候的规则,怎样写

咨询题来了,有时分我们的网站有些页面是私密的,或许还没预备好地下,这时分就需求制止爬虫拜候,详细怎样做呢,我们能够用Disallow指令,好比,你有个页面是admin/login.,不想让爬虫抓取,就能够 如此写

User-agent * Disallow /admin/login.

如此,一切爬虫都会被制止拜候那个页面,然而,假如你有非常多页面要制止,一个个写就太费事了,这时分,能够用通配符*来婚配一切页面,好比,你想制止爬虫拜候整个admin目录,能够如此写

User-agent * Disallow /admin/*

如此,一切以/admin/扫尾的页面都会被制止,

  1. 允许爬虫拜候的规则,怎样写

有时分,我们希望爬虫多抓取一些页面,这时分就需求用到Allow指令了,然而,那个指令用的比力少,由于默许状况下,爬虫是能够拜候一切页面的,不外,假如你之前用Disallow制止了某个目录,后来又想允许爬虫拜候那个目录下的某个页面,这时分就需求用到Allow指令了,好比,你之前制止了整个admin目录,后来又想允许爬虫拜候admin/help.那个页面,能够如此写

User-agent * Disallow /admin/ Allow /admin/help.

如此,爬虫就能够 拜候admin/help.那个页面了,

  1. 制止爬虫抓取图片和CSS、JS文件,怎样写

我们的网站除了HTML页面,还有非常多图片、CSS和JS文件,有时分,我们不希望这些文件被爬虫抓取,由于它们对搜索引擎来讲没啥价值,还占用带宽,这时分,就能够 用Disallow指令来制止,好比,你想制止爬虫抓取一切图片文件,能够如此写

User-agent * Disallow /.jpg$ Disallow /.jpeg$ Disallow /.png$ Disallow /.gif$

如此,一切以.jpg、.jpeg、.png、.gif开头的文件都会被制止,异样的办法,也能够制止CSS和JS文件,

  1. 制止爬虫抓取反复内容,怎样写

有时分,我们的网站有非常多反复的内容,好比产品列表页和产品概况页,内容都差不多,这时分,假如被爬虫抓取了,就会妨碍网站的排名,因此,我们需求制止爬虫抓取这些反复内容,详细怎样做呢,能够用Canonical标签来指定一个标准的URL,通知爬虫那个URL是标准的,其他的基本上反复的,好比,你有个产品列表页product-list.,还有个产品概况页product-detail.,内容差不多,就能够 在product-detail.里加上Canonical标签,指定product-list.是标准的URL

如此,爬虫就会把product-detail.当成反复内容,不去抓取了,

好了,关于Robots.txt文件的设置,我们就聊到这个地方,你学会了吗,是不是觉得没那么难了赶忙去反省下你的网站,看看有没有需求调整的中央吧,假如有啥不明白的,随时来咨询我,我们一同搞钞票