本文将为你介绍最常用的四种robots.txt文件格式。
 
1. 允许所有的搜索引擎访问网站的任何部分
 
User-agent: *
Disallow:
 
(或者也可以建一个空文件 "/robots.txt")
 
2. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
 
3. 禁止所有搜索引擎访问网站中所有的动态页面
 
User-agent: *
Disallow: /*?*
 
4. 禁止网站上的程序文件被搜索引擎蜘蛛索引,这样可以节省服务器资源。
 
一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
 
User-agent: *
Disallow: /admin/   后台管理文件
Disallow: /require/   程序文件
Disallow: /attachment/  附件
Disallow: /images/     图片
Disallow: /data/       数据库文件
Disallow: /template/   模板文件
Disallow: /css/       样式表文件
Disallow: /lang/      编码文件
Disallow: /script/    脚本文件
注:每个网站的文件夹名字可能会不一样

dawei

【声明】:乐山站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。