禁止搜索引擎抓取特定文件或目录,可以防止敏感信息泄露或者网站的流量流失。 例如,如果网站有下载文件目录,这些文件可能不应该被搜索引擎抓取,因为它们可能不是网站的主要内容,并且可能会导致流量流失。 另一个例子是网站上存储的敏感信息,如用户信息,银行账户,财务报表等,应该被禁止搜索引擎抓取,以防止信息泄露。
WordPress 网站上哪些内容应该禁止搜索引擎抓取?
在 WordPress 网站上,有些内容可能需要禁止搜索引擎抓取,包括:
- 管理员后台:禁止搜索引擎抓取管理员后台,以防止敏感信息泄露。
- 下载文件目录:禁止搜索引擎抓取下载文件目录,以防止流量浪费。
- 用户信息:禁止搜索引擎抓取用户信息,以防止用户隐私泄露。
- 草稿和未发布的文章:禁止搜索引擎抓取未发布的文章,以防止索引未完成的内容。
- 测试页面:禁止搜索引擎抓取测试页面,以防止搜索引擎索引不完整或不正确的信息。
另外,还有一些文件目录可能也需要禁止搜索引擎抓取,包括:
- wp-content/uploads: 这个目录通常包含网站上的图像和文件,可能不应该被搜索引擎索引。
- wp-includes: 这个目录包含 WordPress 的核心文件,不应该被搜索引擎索引。
- wp-content/cache: 这个目录包含缓存文件,不应该被搜索引擎索引。
- wp-content/plugins: 这个目录包含网站上安装的插件文件,可能不应该被搜索引擎索引。
- wp-content/themes: 这个目录包含网站上安装的主题文件,可能不应该被搜索引擎索引。
如何通过 .htaccess 规则禁止搜索引擎抓取
在 Apache 服务器上,要禁止搜索引擎抓取网站或特定目录可以使用以下 .htaccess 规则:
User-agent: *
Disallow: /
这段规则告诉所有搜索引擎不能抓取任何页面。
如果只想禁止某些搜索引擎,可以在 .htaccess 中添加以下规则:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule ^ - [F]
这段代码使用 Apache 模块 mod_rewrite 来执行 URL 重写。
- “RewriteEngine On” 指令启用了重写引擎。
- “RewriteCond” 指令为后面的 “RewriteRule” 指令设置了一个条件。在这种情况下,条件是 HTTP 用户代理必须匹配 “googlebot”、”bingbot” 或 “Baiduspider”(不区分大小写)。
- “RewriteRule” 指令则指定了在满足前面的条件时要采取的操作。在这种情况下,它是返回 403 禁止状态码,并停止处理任何进一步的规则。
这段规则阻止了 Googlebot,Bingbot 和 Baiduspider 搜索引擎访问网站,并返回 403 禁止访问错误。
如果你想禁止搜索引擎访问特定目录,只需要把上面的 “^” 替换成目录路径就可以了,例如
RewriteRule ^/secret_folder/ - [F]
这段规则阻止了搜索引擎访问 /secret_folder/ 目录。
如果要禁止搜索引擎抓取网站中的图片文件,可以在 .htaccess 中添加以下规则:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteCond %{REQUEST_URI} \.(jpg|jpeg|png|gif|bmp)$ [NC]
RewriteRule ^ - [F]
这段规则阻止了 Googlebot,Bingbot 和 Baiduspider 搜索引擎抓取网站中的 jpg, jpeg, png, gif, bmp 格式的图片文件,并返回 403 禁止访问错误。
其中,第一个RewriteCond限制了搜索引擎的访问,第二个RewriteCond限制了请求文件的类型,最后一个RewriteRule规则阻止了搜索引擎访问。
如果你想要阻止其他类型的文件,只需要在RewriteCond中修改文件后缀就可以了。
另外,我们还可以使用下面的规则:
<Files ~ "\.(txt|jpg|jpeg|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
这两段规则都是用来禁止搜索引擎抓取网站的图片文件的。
第一段规则使用了 Apache 的 mod_rewrite 模块来禁止搜索引擎访问匹配文件后缀名为 jpg, jpeg, png, gif, bmp 的文件。它使用了 RewriteCond 指令来匹配请求的 HTTP_USER_AGENT 为 googlebot, bingbot, Baiduspider 的请求,并使用 RewriteRule 指令返回 403 状态码。
第二段规则使用了 <FilesMatch> 指令来匹配文件后缀名为 txt, jpg, jpeg, pdf 的文件,并使用 Header 指令设置 X-Robots-Tag 头部为 “noindex, nofollow” 。
总的来说,这两段规则都可以禁止搜索引擎抓取网站的图片文件,但是第一段规则阻止了搜索引擎爬虫访问匹配文件,而第二段规则通过设置 X-Robots-Tag 头部来告诉搜索引擎不要索引或抓取这些文件。
作者:牛奇网,本站文章均为辛苦原创,在此严正声明,本站内容严禁采集转载,面斥不雅请好自为之,本文网址:https://www.niuqi360.com/linux/protection-from-crawler-using-htaccess-rule/