始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

百度是否支持“Crawl-delay”

发布时间:  2012/9/15 14:58:09
  Crawl-delay 可能很多做小站的朋友不了解, 如果拥有大站的朋友可能用到过、但是超级牛站、比如新浪、我想就不会去考虑这个问题了。Crawl-delay 是Robots.txt中一个设置“蜘蛛”降低抓取频度的参数,而很多大站可能由于被搜索引擎抓取频繁加上用户访问流量过大,导致页面加载慢(就是我们说的有点卡)。
 
  而目前对于也只有YAHOO公开代表支持这个参数,具体可以参考:如何控制Yahoo! Slurp蜘蛛的抓取频度
 
  具体设置:
 
  ---------------------------
 
  User-agent: *
 
  Crawl-delay: 10
 
        案例:http://www.blogbus.com/robots.txt  (博客大巴)
 
  而其它搜索引擎、目前还没对这个参数进行表明,不过通过各种数据来解释、百度及谷歌应该不会对这种参考过于说明! 因为他们很早就已经考虑到这个问题。其中"百度站长俱乐部" 就LEE就说明:
 
  问:蜘蛛大量抓取页面导致服务器出现负载问题
 
  答:会延迟百度对新网页的收录速度。
 
  正常情况下,Baiduspider的抓取频率大致上和网站新资源产生的速度相符,并不会给网站带来很大的压力。但现在网站结构通常都比较复杂,多种url形式指向的可能是相同的内容,或者会自动产生大量无检索价值的网页。
 
  我们目前发现的问题,主要来源于此,建议先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收录的形式,如果有,robots掉它们可以节省大量的资源。
 
  具体参考:http://tieba.baidu.com/club/9374916/p/7587693
 
  其实LEE这里说明一个问题用robots可以禁止垃圾页面/无效页面(也就是说、我们可以通过IIS日志去分析、网站中抓取频率最高、而又无用的页面,并进行屏蔽)但是这样做只是为了增大收录想被收录页面的机遇、同样没有解决抓取频率过高问题。 可能我没有这种大站,但是DJ小向知道有效的控制蜘蛛抓取、可以使用网站增大收录量、同样有效的控制蜘蛛返回码、同样可以使网站被K。
 
    ------------------------------------
 
  10月10号补充:
 
  问:百度是否支持User-agent: Slurp
 
回:可以在robots中的crawl-delay中设置,这个参数是baidu spider对网站访问频率的重要参考信息之一,但spider系统会根据网站规模、质量、更新频度等多方面信息综合计算得出最终的执行压力,因此并不保证严格遵守crawl-delay中的设置值。   
本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线