Apache服务器设置.htaccess规则禁止搜索引擎抓取网站或目录

禁止搜索引擎抓取特定文件或目录,可以防止敏感信息泄露或者网站的流量流失。 例如,如果网站有下载文件目录,这些文件可能不应该被搜索引擎抓取,因为它们可能不是网站的主要内容,并且可能会导致流量流失。 另一个例子是网站上存储的敏感信息,如用户信息,银行账户,财务报表等,应该被禁止搜索引擎抓取,以防止信息泄露。

WordPress 网站上哪些内容应该禁止搜索引擎抓取?

在 WordPress 网站上,有些内容可能需要禁止搜索引擎抓取,包括:

  1. 管理员后台:禁止搜索引擎抓取管理员后台,以防止敏感信息泄露。
  2. 下载文件目录:禁止搜索引擎抓取下载文件目录,以防止流量浪费。
  3. 用户信息:禁止搜索引擎抓取用户信息,以防止用户隐私泄露。
  4. 草稿和未发布的文章:禁止搜索引擎抓取未发布的文章,以防止索引未完成的内容。
  5. 测试页面:禁止搜索引擎抓取测试页面,以防止搜索引擎索引不完整或不正确的信息。

另外,还有一些文件目录可能也需要禁止搜索引擎抓取,包括:

  1. wp-content/uploads: 这个目录通常包含网站上的图像和文件,可能不应该被搜索引擎索引。
  2. wp-includes: 这个目录包含 WordPress 的核心文件,不应该被搜索引擎索引。
  3. wp-content/cache: 这个目录包含缓存文件,不应该被搜索引擎索引。
  4. wp-content/plugins: 这个目录包含网站上安装的插件文件,可能不应该被搜索引擎索引。
  5. wp-content/themes: 这个目录包含网站上安装的主题文件,可能不应该被搜索引擎索引。

如何通过 .htaccess 规则禁止搜索引擎抓取

在 Apache 服务器上,要禁止搜索引擎抓取网站或特定目录可以使用以下 .htaccess 规则:

User-agent: *
Disallow: /

这段规则告诉所有搜索引擎不能抓取任何页面。

如果只想禁止某些搜索引擎,可以在 .htaccess 中添加以下规则:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule ^ - [F]

这段代码使用 Apache 模块 mod_rewrite 来执行 URL 重写。

  • “RewriteEngine On” 指令启用了重写引擎。
  • “RewriteCond” 指令为后面的 “RewriteRule” 指令设置了一个条件。在这种情况下,条件是 HTTP 用户代理必须匹配 “googlebot”、”bingbot” 或 “Baiduspider”(不区分大小写)。
  • “RewriteRule” 指令则指定了在满足前面的条件时要采取的操作。在这种情况下,它是返回 403 禁止状态码,并停止处理任何进一步的规则。

这段规则阻止了 Googlebot,Bingbot 和 Baiduspider 搜索引擎访问网站,并返回 403 禁止访问错误。

如果你想禁止搜索引擎访问特定目录,只需要把上面的 “^” 替换成目录路径就可以了,例如

RewriteRule ^/secret_folder/ - [F]

这段规则阻止了搜索引擎访问 /secret_folder/ 目录。

如果要禁止搜索引擎抓取网站中的图片文件,可以在 .htaccess 中添加以下规则:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteCond %{REQUEST_URI} \.(jpg|jpeg|png|gif|bmp)$ [NC]
RewriteRule ^ - [F]

这段规则阻止了 Googlebot,Bingbot 和 Baiduspider 搜索引擎抓取网站中的 jpg, jpeg, png, gif, bmp 格式的图片文件,并返回 403 禁止访问错误。

其中,第一个RewriteCond限制了搜索引擎的访问,第二个RewriteCond限制了请求文件的类型,最后一个RewriteRule规则阻止了搜索引擎访问。

如果你想要阻止其他类型的文件,只需要在RewriteCond中修改文件后缀就可以了。

另外,我们还可以使用下面的规则:

<Files ~ "\.(txt|jpg|jpeg|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch> 

这两段规则都是用来禁止搜索引擎抓取网站的图片文件的。

第一段规则使用了 Apache 的 mod_rewrite 模块来禁止搜索引擎访问匹配文件后缀名为 jpg, jpeg, png, gif, bmp 的文件。它使用了 RewriteCond 指令来匹配请求的 HTTP_USER_AGENT 为 googlebot, bingbot, Baiduspider 的请求,并使用 RewriteRule 指令返回 403 状态码。

第二段规则使用了 <FilesMatch> 指令来匹配文件后缀名为 txt, jpg, jpeg, pdf 的文件,并使用 Header 指令设置 X-Robots-Tag 头部为 “noindex, nofollow” 。

总的来说,这两段规则都可以禁止搜索引擎抓取网站的图片文件,但是第一段规则阻止了搜索引擎爬虫访问匹配文件,而第二段规则通过设置 X-Robots-Tag 头部来告诉搜索引擎不要索引或抓取这些文件。

作者:牛奇网,本站文章均为辛苦原创,在此严正声明,本站内容严禁采集转载,面斥不雅请好自为之,本文网址:https://www.niuqi360.com/linux/protection-from-crawler-using-htaccess-rule/

(0)
牛奇网牛奇网
上一篇 2023年1月29日 下午12:59
下一篇 2023年1月29日 下午4:08

相关推荐

发表回复

登录后才能评论
2024年独立站建站最佳服务器主机Cloudway黑五大促前4个月40%OFF,立即获取优惠