WordPress网站robots的写法教程

在互联网上,搜索引擎的爬虫程序不停地在不同的网站之间穿梭,以寻找新的内容并把它们添加到搜索引擎的索引中。

WordPress网站robots的写法教程

然而,对于网站的所有者来说,可能并不希望所有的页面都被搜索引擎收录。例如,一些后台管理页面、重复内容页面或者包含敏感信息的页面等等。这些页面如果被搜索引擎收录,可能会造成一些不必要的麻烦。

为了解决这个问题,就诞生了一个名为robots.txt的文件。这个文件可以帮助网站的所有者指定哪些页面可以被搜索引擎爬取,哪些页面不可以。通过这种方式,网站的所有者就可以更好地控制搜索爬虫的抓取行为。

WordPress 作为一款最流行的CMS系统,有很多程序目录页面,和其他与内容不相关的URL。我们可以通过设置 Robots 文件,来控制搜索引擎爬虫的是否抓取这些页面。

robots.txt文件是什么?

robots.txt文件是一个简单的文本文件,它放在网站的根目录下,可以通过 http://www.example.com/robots.txt 进行访问。它的作用是告诉搜索引擎的爬虫程序,网站中的哪些内容可以被爬取,哪些内容不可以被爬取。这样,就可以避免一些不必要的内容被搜索引擎收录,比如后台管理页面、重复内容页面、隐私信息页面等。同时,你也可以节省一些服务器资源和带宽,提高网站的速度和安全性。

robots.txt文件怎么写?

robots.txt文件的写法很简单,它由一些指令组成,每一行代表一个指令,空白行和#号后面的内容会被忽略。指令区分大小写,所以要注意不要写错。一般来说,有两种常用的指令,分别为User-agent和Disallow。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/

User-agent指令用来指定针对哪些搜索引擎的爬虫程序。如果你想对所有的爬虫程序都适用同样的规则,可以用*号代表所有。如果你想对某个特定的爬虫程序设置不同的规则,可以用对应的名称来表示,比如Googlebot(谷歌)、Baiduspider(百度)、Bingbot(必应)等。如果有多个User-agent指令,那么每个User-agent指令之后的Disallow指令,只适用于该User-agent指令所指定的爬虫程序。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/

User-agent: Googlebot
Disallow: /example-page/
Allow: /example-page/subpage

User-agent: Bingbot
Disallow: /another-example-page/

Disallow指令用来指定哪些网站路径或者文件不允许被爬取。如果你想禁止爬取整个网站,可以用/表示根目录。如果你想禁止爬取某个目录或者文件,可以用/开头表示相对于根目录的路径,比如/wp-admin/表示WordPress后台管理目录。如果你想禁止爬取某种类型的文件,可以用号表示通配符,比如/.jpg表示所有jpg格式的图片文件。如果你想禁止爬取某个参数或者值,可以用?号表示参数开始,比如/?s=*表示所有包含s参数的页面。

除了User-agent和Disallow指令之外,还有一些其他的指令,比如Allow、Sitemap、Crawl-delay等。但是,并不是所有的搜索引擎都支持这些指令,所以使用时要注意兼容性问题。

下面是一个简单的robots.txt文件示例:

# 这是一个注释
User-agent: * # 对所有爬虫程序适用
Disallow: /wp-admin/ # 禁止爬取WordPress后台管理目录
Disallow: /wp-content/ # 禁止爬取WordPress内容目录
Disallow: /wp-includes/ # 禁止爬取WordPress包含目录
Disallow: /*.jpg$ # 禁止爬取所有jpg格式的图片文件
Sitemap: http://www.example.com/sitemap.xml # 告诉搜索引擎网站地图地址

User-agent: Baiduspider # 对百度爬虫程序适用
Disallow: /a/date/ # 禁止爬取日期归档页面
Disallow: /a/author/ # 禁止爬取作者归档页面
Disallow: /a/category/ # 禁止爬取分类归档页面

WordPress的robots.txt优化设置

针对WordPress网站的robots.txt文件,可以根据网站的内容和需求进行自定义设置,但是有一些通用的优化建议,可以帮助你优化网站在搜索引擎中的表现。下面列举了一些常见的WordPress的robots.txt优化设置:

禁止爬取WordPress程序文件和重复内容页面。这些文件和页面对于搜索引擎来说没有价值,反而会占用服务器资源和带宽,影响网站速度和安全性。比如:

Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/trackback
Disallow: /*/feed
Disallow: /*/?s=*
Disallow: /?p=*
Disallow: /*/comment-page-*
Disallow: /*?replytocom*

允许爬取WordPress主题文件和插件文件。这些文件和页面对于搜索引擎来说有价值,可以提高网站的美观性和功能性。比如:

Allow: /wp-content/themes/
Allow: /wp-content/plugins/

告诉搜索引擎网站地图地址。网站地图是一个包含了网站所有页面链接的文件,它可以帮助搜索引擎更快地抓取你的网站内容。可以使用一些插件来生成网站地图,比如Google XML Sitemaps、Yoast SEO等。然后在robots.txt文件中添加如下指令:

Sitemap: http://www.example.com/sitemap.xml

注意,Sitemap指令的S要大写,而且要使用绝对地址。

根据不同的搜索引擎设置不同的规则。不同的搜索引擎对于robots.txt文件中的指令,有不同的理解和处理方式,所以可以根据不同的搜索引擎设置不同的规则,以达到最佳的效果。比如,百度对于Allow指令的支持不太好,所以可以单独为百度设置一些禁止爬取的规则,以避免一些问题。比如:

User-agent: Baiduspider
Disallow: /a/date/
Disallow: /a/author/
Disallow: /a/category/

WordPress网站Robots指令示例:

User-agent: * # 对所有爬虫程序适用
Disallow: /wp-admin/ # 禁止爬取WordPress后台管理目录
Disallow: /wp-login.php # 禁止爬取WordPress登录页面
Disallow: /readme.html # 禁止爬取WordPress说明文件
Disallow: /licence.txt # 禁止爬取WordPress许可文件
Disallow: /wp-config-sample.php # 禁止爬取WordPress配置样例文件
Disallow: /*/?s=* # 禁止爬取搜索结果页面
Disallow: /?p=* # 禁止爬取短链接页面
Disallow: /*/comment-page-* # 禁止爬取评论分页页面
Disallow: /*?replytocom* # 禁止爬取回复评论链接
Allow: /wp-admin/admin-ajax.php # 允许爬取WordPress后台异步请求文件
Sitemap: http://yourdomain.com/post-sitemap.xml # 告诉搜索引擎网站地图地址

User-agent: Baiduspider # 对百度爬虫程序适用
host: yourdomain.com # 告诉百度首选域名
crawl-delay: 8 # 告诉百度每次爬取之间的延迟秒数

总结

以上就是关于WordPress网站中robots写法的一些建议,希望对大家有所帮助。如果你想了解更多关于WordPress网站优化的知识,欢迎收藏本网站,我会不定期地分享一些实用的技巧和经验。谢谢阅读!

作者:牛奇网,本站文章均为辛苦原创,在此严正声明,本站内容严禁采集转载,面斥不雅请好自为之,本文网址:https://www.niuqi360.com/wordpress/tutorial-on-how-to-write-robots-for-wordpress/

(0)
牛奇网牛奇网
上一篇 2023年9月16日 下午6:15
下一篇 2023年9月19日 上午10:10

相关推荐

发表回复

登录后才能评论