电脑
网站
《百度蜘蛛:baiduspider》《google蜘蛛:googlebot》《yahoo蜘蛛:slurp》《alexa蜘蛛:ia_archiver》《man蜘蛛: msnbot》《soso蜘蛛: sosospider》《bing蜘蛛: bingbot》《altavista蜘蛛:scooter》《lycos蜘蛛:lycos_spider_(t-rex)》《alltheweb蜘蛛:fast-webcrawler/》《有道蜘蛛:yodaobot和 OutfoxBot》《inktomi蜘蛛:slurp》《搜狗蜘蛛:soguo spider》《热士蜘蛛:Adminrtspider》
蜘蛛程序分为三个部分:控制器,解析器和索引数据库。1.控制器负责收集URL集合并分配URL集合给解析器。2.解析器获得URL集合后,通过访问URL并下载页面。3.索引数据库存储解析器下载的页面并分析页面内容,以此来确认是否建立数据缓存。
百度蜘蛛:爬谨慎,收录更谨慎。google蜘蛛:不太爱爬,但爱收录。搜搜蜘蛛:爱爬图片,经常绕在动态地址里出不来。雅虎蜘蛛:恪守规则,每次都是先爬robots.txt。
百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次;
google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了;
搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西;
搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有爬过的痕迹。
google蜘蛛,它会访问制定的网页,收集该网页上的链接,而且会顺着这些链接找其他的网页,通过这些链接,把世界上的网页连成了一个巨大的网,所以这些在网络上爬行的Googlebot也被称为Google蜘蛛。
百度蜘蛛,它的作用是访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页。
多去查看网站日志,分析搜索引擎蜘蛛爬行的频繁程度,掌握搜索引擎更新周期。