CSS基础
CSS培训
CSS学研室
免费注册
登录
帮助
CSS论坛
»
SEO交流区
» 允许蜘蛛爬行除了/mulu/之外的网站所有页面
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
允许蜘蛛爬行除了/mulu/之外的网站所有页面
哎伊呀伊哟
新手上路
发短消息
加为好友
当前离线
1
#
大
中
小
发表于 2012-4-13 13:53
只看该作者
允许蜘蛛爬行除了/mulu/之外的网站所有页面
对于robots.txt文件对于网站的作用大家都知道,但是通过观察发现,有些朋友对于robots.txt文件的规则还是有一定的误区。
比如有很多人这样写:
User-agent: *
Allow: /
Disallow: /mulu/
不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。
表面上看这个规则想达到的目的是:允许蜘蛛爬行除了/mulu/之外的网站所有页面。
但是搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。
上海SEO公司
正确的规则应该是:
User-agent: *
Disallow: /mulu/
Allow: /
也就是先执行禁止命令,再执行允许命令,这样就不会失效了。
另外对于百度蜘蛛来说,还有一个容易犯的错误,那就是Disallow命令和Allow命令之后要以斜杠/开头,所以有些人这样写:Disallow: *.html 这样对百度蜘蛛来说是错误的,应该写成:Disallow: /*.html 。本文由
新闻稿
公司 -夏易网络整理提供-
http://www.92.la/
有时候我们写这些规则可能会有一些没有注意到的问题,现在可以通过百度站长工具(zhanzhang.baidu.com)和Google站长工具来测试。
相对来说百度站长工具robots工具相对简陋一些:
百度Robots工具只能检测每一行命令是否符合语法规则,但是不检测实际效果和抓取逻辑规则。
相对来说Google的Robots工具好用很多,如图:
在谷歌站长工具里的名称是抓取工具的权限,并报告Google抓取网站页面的时候被拦截了多少个网址。
还可以在线测试Robots修改后的效果,当然这里的修改只是测试用,如果没有问题了,可以生成robots.txt文件,或者把命令代码复制到robots.txt文本文档中,上传到网站根目录。
Google的测试跟百度有很大的区别,它可以让你输入某一个或者某些网址,测试Google蜘蛛是否抓取这些网址。
测试结果是这些网址被Google蜘蛛抓取的情况,这个测试对于Robots文件对某些特定url的规则是否有效。
而两个工具结合起来当然更好了,这下应该彻底明白robots应该怎么写了吧。
UID
13471
帖子
115
精华
0
积分
0
阅读权限
10
在线时间
28 小时
注册时间
2012-3-15
最后登录
2012-5-24
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
CSS树根(掌握与打牢基础)
css新人指导(指示牌)
CSS常见问题和精华
CSS提问(问题解决)区
网页制作基础(html基础)
CSS资源共享(模板、特效、模块)区
CSS站务与公告
CSS树枝(交流分享掌握全面)
新大陆(新发现)
SEO交流区
CSS模板制作交流
网店装修(如淘宝、空间)区
Photoshop+Cdr网页设计专区
CSS开花结果(合作与交易)
CSS制作任务
网页模板交易
网站程序交易
友情链接交换与合作
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组