详细介绍怎样使用 robots.txt 文件对网站进行索引管理
专业网站运营商通常旨在使他们的网站对搜索引擎更可见。 这样做的一个要求是确保搜索机器人可以读取所有 URL,然后正确编入索引。 虽然这听起来像是一项简单的任务,但必须注意的是,搜索引擎很少完全抓取网站。 甚至 Google 收集和存储网站内容的能力也是有限的。 相反,每个域都分配了一定的抓取预算,这决定了读取的 URL 数量,并在必要时编入索引。 建议大型网站的运营商通过向搜索机器人发送信号,以战略方式解决这个话题,给定页面的哪些区域应该被抓取,哪些页面应该被忽略。 索引管理的重要工具包括:元标记中的机器人数据、规范标记、重定向以及文件 robots.txt,这就是今天给大家带来的内容。 什么是 robot.txt? robots.txt 是存储在域根目录中的文本文件。 通过阻止网站选定部分的部分或全部搜索机器人,这些文件允许网站运营商控制搜索引擎对网站的访问。 在 robots.txt 文件中找到的信息是指整个目录树。 后一方面使该索引管理工具与仅适用于特殊 HTML 文档的元机器人数据和重定向显着不同。 在这种情况下,应特别注意“block”一词。 搜索引擎仅将 robots.txt 文件解释为指南; 这意味着它不能对搜索引擎强制任何特定的抓取行为。 谷歌和其他大型搜索引擎声称他们听从了这些指示。 但是,防止任何未经授权的访问发生的唯一方法是实施强大的密码保护措施。 创建 robot.txt 为了让搜索机器人能够访问单独的抓取指南,一个纯文本文件必须命名为“robots.txt”,然后存储在域的根目录中。例如,如果要定义域 example.com 的抓取指南,则 robots.txt 需要存储在与www.example.com 相同的目录中。通过 Internet 访问时,可以在以下位置找到此文件:www.example.com/robots.txt。如果网站的托管模型不提供对服务器根目录的访问,而仅提供对子文件夹(例如 www.example.com/user/)的访问,则无法使用 robots.txt 文件实现索引管理。设置 robots.txt 的网站运营商应使用纯文本编辑器,如...
46