搜索引擎爬虫访问说明书
早上好,朋友们!
今天分享robots.txt
robots.txt 是你网站对所有搜索引擎爬虫的“访问说明书”。爬虫来访问你的网站时,它会看看你的robots.txt,看允许它看什么,不允许看什么。
编写示例:
User-agent: *Disallow: /admin/Allow: /Sitemap: https://example.com/sitemap.xml
User-agent: * 表示所有爬虫都适用
Disallow: /admin/ 表示禁止爬取后台
Allow: / 表示网站其他页面都可以访问
最后一行告诉搜索引擎 sitemap 的位置
robots.txt作用:
控制爬虫访问范围
避免后台、测试页、参数页被无意义抓取。
提升 SEO 效率
搜索引擎的抓取预算有限,
你不希望它浪费时间在 /login、/cart、/api 这些页面上。
保护隐私与安全
防止爬虫访问敏感文件或接口。
提供 sitemap 入口
让搜索引擎更容易找到你的网站地图。
那和sitemap 的区别是什么?
sitemap是告诉搜索引擎你网站里有哪些重要页面、最近更新时间
所以robots.txt 是“门卫”,控制访问,sitemap.xml 是“导游” 进行指路,两者配合使用,SEO 效果最好。
原文来自微信公众号,原始链接:原文