文章内容

如何让robots.txt文件发挥最大效果

发布时间: 2012/7/13 16:38:24

SEO在中国的历吏中已经走过了7个年头，让不少站长朋友们热情研究并且受益非浅，有很多朋友都知道可以通过Robots.txt文件来屏掉不重要的搜索引擎爬虫，那么有多少SEOER们知道怎样让robotx.txt文件发挥出它最大的效果，让网站和搜索引擎之间的关系更加亲密呢。这里，星期八(www.jiezhibei.com)来详细和大家聊一聊robots.txt文件的各个方面。

　　一、Robots.txt文件的由来

　　robots是一个网站和搜索引擎的第三方协议，早期是用于隐私的保护的，后来发展成为引导搜索引擎蜘蛛爬取网站内容的向导。

　　二、Robots.txt文件的作用

　　站长朋友们都知道，我们的网站在经营过程中，会有很多不可抗拒性的因素，从而导致我们的网页质量整体下降。这时候我们就需要借助robots.txt文件来告诉搜索引擎该爬取我们网站的哪些地方，哪些地方不需要爬取。

　　三：Robots.txt文件该用在什么地方

　　1、屏蔽一些无内容页面。(例如：注册页、登录页、购物页、发帖页、留言页、搜索的首页)

　　2、屏蔽重复页面;(有的网站即收录了动态页面又收录了静态页面，这时我们就可以屏蔽掉其中的一种)

　　3、屏蔽一些死链接页面。(即我们常说的404页面。但404页面又有两种，我们只需要屏蔽掉那些具有普通特征的页面，但是可以进行处理的死链接页面则不需要进行屏蔽。)

　　4、Robots.txt文件还可以屏蔽一些较长的路径页面(长路径：超过网址输入框的)

　　四、Robots.txt该如何使用

　　1、Robots.txt的建立——robots是一个记事本文件，操作方法非常之简单：新建文本文档.txt，然后把这个文件名改成 robots.txt即可。

　　2、robots.txt文件应该放在网站根目录下，通过FTP工具上传即可。

　　3、robots.txt文件的常见命令

　　Disallow: / 禁止收录

　　User-agent: 定义搜索引擎爬取程序(百度是：Baiduspider;谷歌是：Googlebot)

　　Allow: / 允许收录，不禁止(通常情况下此命令不会单独使用，它会和禁止命令一起使用，其目的便于目录的屏蔽能更好地灵活应用)

　　4、robots.txt文件的常见语法

　　User-agent: *

　　Disallow: /abc/

　　Allow: /abc/ccc.php

　　这组语法的意思是：允许任何搜索引擎来我的网站爬取数据，但是禁止爬取根目录下abc文件夹里的内容，只允许爬取abc文件夹下ccc.php文件即可。

　　User-agent: Baiduspider

　　Disallow: *

　　Disallow: /data/

　　Disallow: /abc/

　　Allow: /abc/ccc.php

　　Allow: /abc/ff.php

　　这组语法的意思就是告诉搜索引擎，本网站禁止所有的搜索引擎前来爬取数据，只允许百度蜘蛛Baiduspider来网站爬取，并且告诉百度蜘蛛，根目录下的“data”和“abc”两个文件夹不需要爬取，但是“abc”文件夹中的ccc.php和ff.php允许爬取。

　　五：注意事项

　　所有命令冒号后面都有一个英文的空格，不然就是错误命令。

　　大家知道，做为一个专业的seo人员，优化过程中需要经常进行观察和分析，从而更好地进行调整，Robots.txt文件也是一样，当有需要使用到Robots.txt文件的时候，一定要及时进行调整，及时告诉搜索引擎最新的规则，从而处理好和搜索引擎之间的关系。

本文出自：亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强！虚拟主机域名注册顶级提供商！15年品质保障！--亿恩科技[ENKJ.COM]

上一篇 >> SEOer面对移动互联网发展该如何去做
下一篇 >> seo经验之谈：做seo要“低目标”高标准

服务器租用

服务器托管

机柜批发

云服务器

建站侠

空间/域名

安全保姆

帮助类别

帮助中心

文章内容

如何让robots.txt文件发挥最大效果

同类文章

亿恩公告

在线客服