如何让robots.txt文件发挥最大效果 |
| 发布时间: 2012/7/13 16:38:24 |
|
SEO在中国的历吏中已经走过了7个年头,让不少站长朋友们热情研究并且受益非浅,有很多朋友都知道可以通过Robots.txt文件来屏掉不重要的搜索引擎爬虫,那么有多少SEOER们知道怎样让robotx.txt文件发挥出它最大的效果,让网站和搜索引擎之间的关系更加亲密呢。这里,星期八(www.jiezhibei.com)来详细和大家聊一聊robots.txt文件的各个方面。
一、Robots.txt文件的由来 robots是一个网站和搜索引擎的第三方协议,早期是用于隐私的保护的,后来发展成为引导搜索引擎蜘蛛爬取网站内容的向导。 二、Robots.txt文件的作用 站长朋友们都知道,我们的网站在经营过程中,会有很多不可抗拒性的因素,从而导致我们的网页质量整体下降。这时候我们就需要借助robots.txt文件来告诉搜索引擎该爬取我们网站的哪些地方,哪些地方不需要爬取。 三:Robots.txt文件该用在什么地方 1、屏蔽一些无内容页面。(例如: 注册页、登录页、购物页、发帖页、留言页、搜索的首页) 2、屏蔽重复页面;(有的网站即收录了动态页面又收录了静态页面,这时我们就可以屏蔽掉其中的一种) 3、屏蔽一些死链接页面。(即我们常说的404页面。但404页面又有两种,我们只需要屏蔽掉那些具有普通特征的页面,但是可以进行处理的死链接页面则不需要进行屏蔽。) 4、Robots.txt文件还可以屏蔽一些较长的路径页面(长路径:超过网址输入框的) 四、Robots.txt该如何使用 1、Robots.txt的建立——robots是一个记事本文件,操作方法非常之简单:新建 文本文档.txt,然后把这个文件名 改成 robots.txt即可。 2、robots.txt文件应该放在网站根目录下,通过FTP工具上传即可。 3、robots.txt文件的常见命令 Disallow: / 禁止收录 User-agent: 定义搜索引擎爬取程序(百度是:Baiduspider;谷歌是:Googlebot) Allow: / 允许收录,不禁止(通常情况下此命令不会单独使用,它会和禁止命令一起使用,其目的便于目录的屏蔽能更好地灵活应用) 4、robots.txt文件的常见语法 User-agent: * Disallow: /abc/ Allow: /abc/ccc.php 这组语法的意思是:允许任何搜索引擎来我的网站爬取数据,但是禁止爬取根目录下abc文件夹里的内容,只允许爬取abc文件夹下ccc.php文件即可。 User-agent: Baiduspider Disallow: * Disallow: /data/ Disallow: /abc/ Allow: /abc/ccc.php Allow: /abc/ff.php 这组语法的意思就是告诉搜索引擎,本网站禁止所有的搜索引擎前来爬取数据,只允许百度蜘蛛Baiduspider来网站爬取,并且告诉百度蜘蛛,根目录下的“data”和“abc”两个文件夹不需要爬取,但是“abc”文件夹中的ccc.php和ff.php允许爬取。 五:注意事项 所有命令冒号后面都有一个英文的空格,不然就是错误命令。 大家知道,做为一个专业的seo人员,优化过程中需要经常进行观察和分析,从而更好地进行调整,Robots.txt文件也是一样,当有需要使用到Robots.txt文件的时候,一定要及时进行调整,及时告诉搜索引擎最新的规则,从而处理好和搜索引擎之间的关系。 本文出自:亿恩科技【www.enkj.com】 |
京公网安备41019702002023号