搜索引擎爬虫访问说明书

早上好,朋友们!

今天分享robots.txt

robots.txt 是你网站对所有搜索引擎爬虫的“访问说明书”。爬虫来访问你的网站时,它会看看你的robots.txt,看允许它看什么,不允许看什么。

编写示例:

User-agent: *Disallow: /admin/Allow: /Sitemap: https://example.com/sitemap.xml

User-agent: * 表示所有爬虫都适用

Disallow: /admin/ 表示禁止爬取后台

Allow: / 表示网站其他页面都可以访问

最后一行告诉搜索引擎 sitemap 的位置

robots.txt作用:

控制爬虫访问范围

避免后台、测试页、参数页被无意义抓取。

提升 SEO 效率

搜索引擎的抓取预算有限,

你不希望它浪费时间在 /login、/cart、/api 这些页面上。

保护隐私与安全

防止爬虫访问敏感文件或接口。

提供 sitemap 入口

让搜索引擎更容易找到你的网站地图。

那和sitemap 的区别是什么?

sitemap是告诉搜索引擎你网站里有哪些重要页面、最近更新时间

所以robots.txt 是“门卫”,控制访问,sitemap.xml 是“导游” 进行指路,两者配合使用,SEO 效果最好。

原文来自微信公众号,原始链接:原文