统计
  • 建站日期:2021-03-10
  • 文章总数:10247 篇
  • 评论总数:229 条
  • 分类总数:56 个
  • 最后更新:5月17日
文章 未分类

网站的robots协议的作用(robots协议怎么写)

小天
首页 未分类 正文


网站的robots协议的作用(robots协议怎么写)
-千亿科技 - LCG - LSG|安卓破解|病毒分析|www.qianyicp.com
-第1
张图片


网站的robots协议的作用(robots协议怎么写)
-千亿科技 - LCG - LSG|安卓破解|病毒分析|www.qianyicp.com
-第2
张图片

robots.txt是一个协议。robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(robots exclusion protocol)。网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt文件的作用

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但是,robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

robots协议可以屏蔽一些网站中比较大的文件,如图片、音乐、视频等内容,节省服务器带宽;也可以屏蔽站点的一些死链接,禁止搜索引擎抓取。

robots文件的写法

1.robots文件的简单写法
robots文件最简单的写法只有两行:

第一行:user-agent:*

第二行:Disallow:(或Allow:)

意思为:搜索引擎可以抓取网站的所有文件。

2.robots文件的其他写法
user-agent:* 这里的*代表所有的搜索引擎种类,*是一个通配符。

Disallow:/admin/ 禁止抓取admin目录及目录下的文件。

Disallow:/require/ 禁止抓取require目录及目录下的文件。

Disallow:/ABC/ 禁止抓取ABC目录及目录下的文件。

Disallow:/*?* 禁止访问网站中所有包含问号(?)的网址。

Disallow:/ab/adc.html 禁止抓取ab文件夹下面的adc.html文件。

注意:在robots文件中,可以将网站地图的链接放在后面,方便搜索引擎首先访问并且抓取。

版权说明
文章采用: 《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权。
版权声明:未标注转载均为本站原创,转载时请以链接形式注明文章出处。如有侵权、不妥之处,请联系站长删除。敬请谅解!

-- 展开阅读全文 --
这篇文章最后更新于2022-4-27,已超过 1 年没有更新,如果文章内容或图片资源失效,请留言反馈,我们会及时处理,谢谢!
微信小程序有什么好玩的推荐(7个无敌好用的小程序)
« 上一篇
seo工作的基础是什么:内容的持续更新是网站发展的基础
下一篇 »
为了防止灌水评论,登录后即可评论!

HI ! 请登录
注册会员,享受下载全站资源特权。