发新话题
打印

在robots.txt文件时我们容易出现的错误

在robots.txt文件时我们容易出现的错误

错误一:一行Disallow声明多个目录 


    这是一个比较常见的错误。我们发现很多网站在其robots.txt中,在一个Disallow指令行中放入了多个目录。譬如:Disallow: /css/ /cgi-bin/images/绝大多数的spiders对上述声明行都无法做出正确的解析,有些Spiders会忽略其空格而解析为/css//cgi-bin//images/,或只解析/images/或/css/,或者根本不予解析。


     正确的语法应为:  

Disallow: /css/   

Disallow: /cgi-bin/  

Disallow: /images/


错误二:屏蔽某一个页面时,页面名前没有带上斜杠“/”


我想这一点很多站长也很容易忽视掉,打个比方,我们想要对搜索引擎屏蔽在根目录下的abcd.html这一页面,有的人在robots上可能会这么写:Disallow: abcd.html,表面上看可能没什么问题,但是笔者想要问一下你先告知搜搜引擎屏蔽的这一页面在什么目录下面?如果我们不带上的话,搜索引擎蜘蛛无法识别是在哪一个页面。


正确的写法是:Disallow: /abcd.html,这样才能真正的屏蔽位于根目录下面的abcd.html这一页面。


  错误三:禁止搜索引擎跟踪网页的链接,而只对网页建索引"如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 <HEAD> 部分:" <meta name="robots" content="nofollow">如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:<a href="signin.php" rel="nofollow">sign in</a>[要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的 <HEAD> 部分:, t4 F3 e" l9 I) U<meta name="Baiduspider" content="nofollow">


     错误四:行前有大量空格例如,写成  Disallow:/cgi-bin/尽管在标准没有谈到这个,但是这种方式很容易出问题。


     错误写法四:404重定向到另外一个页面当 Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理 robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。http://www.yhmiaopu.com/    上海苗木 首发,转载注明出处

TOP

发新话题