Robots.txt文件怎么写新手必看的4个禁止/允许规则

2025年07月10日 09:45

Robots.txt是啥玩意儿，为啥要搞明白它

我们做网站的时分，常常会遇到搜索引擎爬虫，它们会来抓取网站内容，然而，有些页面我们不想让它们抓，这时分就需求用到Robots.txt文件了，那个文件就像个门卫，通知爬虫哪些中央能去，哪些中央不克不及去，老手能够会踩坑，不晓得咋设置，不慌，我们一步步来，

制止爬虫拜候的规则，怎样写

咨询题来了，有时分我们的网站有些页面是私密的，或许还没预备好地下，这时分就需求制止爬虫拜候，详细怎样做呢，我们能够用Disallow指令，好比，你有个页面是admin/login.，不想让爬虫抓取，就能够如此写

User-agent * Disallow /admin/login.

如此，一切爬虫都会被制止拜候那个页面，然而，假如你有非常多页面要制止，一个个写就太费事了，这时分，能够用通配符*来婚配一切页面，好比，你想制止爬虫拜候整个admin目录，能够如此写

User-agent * Disallow /admin/*

如此，一切以/admin/扫尾的页面都会被制止，

允许爬虫拜候的规则，怎样写

有时分，我们希望爬虫多抓取一些页面，这时分就需求用到Allow指令了，然而，那个指令用的比力少，由于默许状况下，爬虫是能够拜候一切页面的，不外，假如你之前用Disallow制止了某个目录，后来又想允许爬虫拜候那个目录下的某个页面，这时分就需求用到Allow指令了，好比，你之前制止了整个admin目录，后来又想允许爬虫拜候admin/help.那个页面，能够如此写

User-agent * Disallow /admin/ Allow /admin/help.

如此，爬虫就能够拜候admin/help.那个页面了，

制止爬虫抓取图片和CSS、JS文件，怎样写

我们的网站除了HTML页面，还有非常多图片、CSS和JS文件，有时分，我们不希望这些文件被爬虫抓取，由于它们对搜索引擎来讲没啥价值，还占用带宽，这时分，就能够用Disallow指令来制止，好比，你想制止爬虫抓取一切图片文件，能够如此写

User-agent * Disallow /.jpg$ Disallow /.jpeg$ Disallow /.png$ Disallow /.gif$

如此，一切以.jpg、.jpeg、.png、.gif开头的文件都会被制止，异样的办法，也能够制止CSS和JS文件，

制止爬虫抓取反复内容，怎样写

有时分，我们的网站有非常多反复的内容，好比产品列表页和产品概况页，内容都差不多，这时分，假如被爬虫抓取了，就会妨碍网站的排名，因此，我们需求制止爬虫抓取这些反复内容，详细怎样做呢，能够用Canonical标签来指定一个标准的URL，通知爬虫那个URL是标准的，其他的基本上反复的，好比，你有个产品列表页product-list.，还有个产品概况页product-detail.，内容差不多，就能够在product-detail.里加上Canonical标签，指定product-list.是标准的URL

如此，爬虫就会把product-detail.当成反复内容，不去抓取了，

好了，关于Robots.txt文件的设置，我们就聊到这个地方，你学会了吗，是不是觉得没那么难了赶忙去反省下你的网站，看看有没有需求调整的中央吧，假如有啥不明白的，随时来咨询我，我们一同搞钞票

本文地址： https://aizhl.cn/article/SEO/339.html

AI智能助理：专业AI原创文章批量自动生成工具，支持多种CMS/媒体平台