WordPress中robots.txt是什么,怎么配置robots.txt

本教程将帮助您了解的基础知识robots.txt文件以及如何为WordPress配置它。我们开始吧。 robo…

本教程将帮助您了解的基础知识robots.txt文件以及如何为WordPress配置它。我们开始吧。

robots.txt的用途

正如我之前提到的robots.txt文件是用于机器人抓取的。这些主要是搜索引擎,就比如百度、谷歌、必应等,但也可以包括其他机器人。

你可能已经知道,搜索引擎通过抓取来找到你网站上的所有页面和内容——通过页面本身或网站地图上的链接从一个页面移动到另一个页面。这允许他们从你的网站收集数据。

然而,网站上可能有一些页面你不想让机器人抓取。这robots.txt文件为您提供了选项来指定允许他们访问哪些页面以及不应该爬往哪些页面。

请注意,您在robots.txt文件没有绑定。这意味着,尽管像谷歌搜索爬虫这样的知名机器人会尊重robots.txt,一些机器人可能会忽略你放在那里的任何东西,并抓取你的网站。其他人甚至可以用它来找到你特别不想爬的链接,然后爬它们。

基本上,依靠这个文件来防止恶意的僵尸工具抓取你的网站是不明智的。它更像是优秀机器人遵循的指南。

我应该把我的robots.txt放在哪里?

robots.txt文件应该在你网站的根目录下。这不同于。文件文件,这些文件可以放在不同的目录中。这robots.txt文件只有在根目录中并且名称正确的情况下才有效robots.txt

您可以手动创建此文件,并将其放入您的web根目录中(如果它还不存在的话)。

了解的内容robots.txt文件

robots.txt文件将告诉不同的机器人他们应该和不应该在你的网站上爬行。它使用一堆命令来做到这一点。您将经常使用的三个这样的命令是用户代理,允许,和驳回

用户代理命令将识别您想要将当前的一组允许驳回命令。您可以将其设置为*瞄准所有机器人。您还可以通过指定以下值来缩小机器人列表谷歌机器人Bingbot。这是谷歌和必应搜索引擎最常见的爬虫程序。你可能想特别针对来自不同公司的许多其他人。

允许命令为您提供选项,指定机器人可以自由访问的网站网页或目录。请记住,您指定的任何值都需要与根目录相关。

驳回另一方面,命令告诉机器人不应该抓取列出的目录或网页。

你只能为每个人提供一个目录或网页允许或者驳回命令。但是,您可以使用多个允许驳回同一集合中的命令。这里有一个例子:

2
3
5
用户代理:*
不允许:/上传/
不允许:/包括/
允许:/上传/图像/
不允许:/login.php

在上面的例子中,我们告诉机器人不应该抓取上传目录。然而,我们使用允许命令告诉他们仍然爬行形象在内部找到子目录上传

任何机器人都会认为它可以抓取你没有明确禁止的所有页面。这意味着您不需要允许一次对一个目录进行爬网。

您还应该记住,您提供的值区分大小写。机器人会治疗上传上传指的是不同的目录。

robots.txt文件还可以包含指向网站上一个或多个站点地图的链接。这使得机器人更容易在你的网站上找到你想要他们抓取的所有帖子和网页。

在WordPress中配置robots.txt

创建时一定要小心robots.txt文件与你的WordPress网站一起使用。这是因为小错误或疏忽可以阻止搜索引擎在您的网站上抓取内容。如果搜索引擎连爬都爬不动,你在SEO上投入的所有工作都将是徒劳的。

一个好的经验法则是尽可能少的不允许。一种方法是在你的robots.txt文件。这基本上告诉所有的机器人,他们可以自由抓取网站上的所有内容。

用户代理:*

另一种选择是使用下面的版本,它告诉他们避免爬行WP-管理员目录,但仍然抓取网站上的所有其他内容。在这个例子中,我们还提供了一个网站地图的链接,但这完全是可选的。

2
3
5
用户代理:*
不允许:/wp-admin/
允许:/wp-admin/admin-ajax.php
 
网站地图:https://your-website.com/sitemap.xml

重要的是不要过于激进驳回命令并阻止对可能影响前端内容外观的CSS或JavaScript文件的访问。如今,搜索引擎在决定如何对内容进行排名之前,还会查看网页的许多其他方面,如外观或布局的用户友好性。阻止他们访问CSS或JavaScript文件迟早会导致问题。

当你不应该使用机器人的时候

正如我之前提到的robots.txt文件不用于执行任何规则。您在文件中指定的规则仅用于为优秀且听话的机器人提供指导。这基本上意味着您不应该使用此文件来限制对网站上某些内容的访问。如果您使用了robots.txt为此目的归档。

即使恶意机器人不会遵循中提供的准则robots.txt他们仍然可以用它来弄清楚你不想让他们爬的到底是什么。如果您将此文件用作安全措施,这可能会造成更大的损害。

此文件也无助于防止您的网页出现在搜索结果中。你试图隐藏的网页仍然会出现在搜索结果中,但它的描述会简单地说此页面没有可用信息。当你阻止谷歌用robots.txt文件,但该页面仍被链接到其他地方。

如果您想阻止页面出现在搜索结果中,谷歌建议使用禁止索引选项,或者添加一个禁止索引HTML文件的元标签。

如果你使用WordPress,有一个简单的方法可以做到这一点。只需进入WordPress管理仪表板中的设置>阅读,然后取消选中搜索引擎可见性选项。

从搜索结果中移除网页需要您采取一些其他操作,如从网站中移除网页本身、对其进行密码保护或使用禁止索引机器人的选择。

类似于robots.txt文件,只有行为良好和值得信赖的机器人会尊重禁止索引选项,所以如果你想保护你网站上的敏感信息,你需要用另一种方法。例如,您可以对该页面进行密码保护,或者将其从您的网站上完全删除。

总结

这篇文章的目的是向你介绍robots.txt文件,以便您可以了解该文件的作用。之后,我们讨论了的最佳配置robots.txt关于WordPress。我们还看到了如何设置禁止索引选项。

最后,我想再重复一次,你不应该使用robots.txt阻止访问网站上的敏感内容。这通常会与恶意机器人产生相反的效果!

类别:WordPress开发

本文收集自互联网,转载请注明来源。
如有侵权,请联系 wper_net@163.com 删除。

评论 (0)COMMENT

登录 账号发表你的看法,还没有账号?立即免费 注册