Apache服务器设置.htaccess规则禁止搜索引擎抓取网站或目录

禁止搜索引擎抓取特定文件或目录，可以防止敏感信息泄露或者网站的流量流失。例如，如果网站有下载文件目录，这些文件可能不应该被搜索引擎抓取，因为它们可能不是网站的主要内容，并且可能会导致流量流失。另一个例子是网站上存储的敏感信息，如用户信息，银行账户，财务报表等，应该被禁止搜索引擎抓取，以防止信息泄露。

WordPress 网站上哪些内容应该禁止搜索引擎抓取？

在 WordPress 网站上，有些内容可能需要禁止搜索引擎抓取，包括:

管理员后台：禁止搜索引擎抓取管理员后台，以防止敏感信息泄露。
下载文件目录：禁止搜索引擎抓取下载文件目录，以防止流量浪费。
用户信息：禁止搜索引擎抓取用户信息，以防止用户隐私泄露。
草稿和未发布的文章：禁止搜索引擎抓取未发布的文章，以防止索引未完成的内容。
测试页面：禁止搜索引擎抓取测试页面，以防止搜索引擎索引不完整或不正确的信息。

另外，还有一些文件目录可能也需要禁止搜索引擎抓取，包括:

wp-content/uploads: 这个目录通常包含网站上的图像和文件，可能不应该被搜索引擎索引。
wp-includes: 这个目录包含 WordPress 的核心文件，不应该被搜索引擎索引。
wp-content/cache: 这个目录包含缓存文件，不应该被搜索引擎索引。
wp-content/plugins: 这个目录包含网站上安装的插件文件，可能不应该被搜索引擎索引。
wp-content/themes: 这个目录包含网站上安装的主题文件，可能不应该被搜索引擎索引。

如何通过 .htaccess 规则禁止搜索引擎抓取

在 Apache 服务器上，要禁止搜索引擎抓取网站或特定目录可以使用以下 .htaccess 规则：

User-agent: *
Disallow: /

这段规则告诉所有搜索引擎不能抓取任何页面。

如果只想禁止某些搜索引擎，可以在 .htaccess 中添加以下规则：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule ^ - [F]

这段代码使用 Apache 模块 mod_rewrite 来执行 URL 重写。

“RewriteEngine On” 指令启用了重写引擎。
“RewriteCond” 指令为后面的 “RewriteRule” 指令设置了一个条件。在这种情况下，条件是 HTTP 用户代理必须匹配 “googlebot”、”bingbot” 或 “Baiduspider”（不区分大小写）。
“RewriteRule” 指令则指定了在满足前面的条件时要采取的操作。在这种情况下，它是返回 403 禁止状态码，并停止处理任何进一步的规则。

这段规则阻止了 Googlebot，Bingbot 和 Baiduspider 搜索引擎访问网站，并返回 403 禁止访问错误。

如果你想禁止搜索引擎访问特定目录，只需要把上面的 “^” 替换成目录路径就可以了，例如

RewriteRule ^/secret_folder/ - [F]

这段规则阻止了搜索引擎访问 /secret_folder/ 目录。

如果要禁止搜索引擎抓取网站中的图片文件，可以在 .htaccess 中添加以下规则：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteCond %{REQUEST_URI} \.(jpg|jpeg|png|gif|bmp)$ [NC]
RewriteRule ^ - [F]

这段规则阻止了 Googlebot，Bingbot 和 Baiduspider 搜索引擎抓取网站中的 jpg, jpeg, png, gif, bmp 格式的图片文件，并返回 403 禁止访问错误。

其中，第一个RewriteCond限制了搜索引擎的访问，第二个RewriteCond限制了请求文件的类型，最后一个RewriteRule规则阻止了搜索引擎访问。

如果你想要阻止其他类型的文件，只需要在RewriteCond中修改文件后缀就可以了。

另外，我们还可以使用下面的规则：

<Files ~ "\.(txt|jpg|jpeg|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

这两段规则都是用来禁止搜索引擎抓取网站的图片文件的。

第一段规则使用了 Apache 的 mod_rewrite 模块来禁止搜索引擎访问匹配文件后缀名为 jpg, jpeg, png, gif, bmp 的文件。它使用了 RewriteCond 指令来匹配请求的 HTTP_USER_AGENT 为 googlebot, bingbot, Baiduspider 的请求，并使用 RewriteRule 指令返回 403 状态码。

第二段规则使用了 <FilesMatch> 指令来匹配文件后缀名为 txt, jpg, jpeg, pdf 的文件，并使用 Header 指令设置 X-Robots-Tag 头部为 “noindex, nofollow” 。

总的来说，这两段规则都可以禁止搜索引擎抓取网站的图片文件，但是第一段规则阻止了搜索引擎爬虫访问匹配文件，而第二段规则通过设置 X-Robots-Tag 头部来告诉搜索引擎不要索引或抓取这些文件。

作者：牛奇网，本站文章均为辛苦原创，在此严正声明，本站内容严禁采集转载，面斥不雅请好自为之，本文网址：https://www.niuqi360.com/linux/protection-from-crawler-using-htaccess-rule/