推广 热搜: 食品  快递      www  民事主体  网络营销  代理  东莞市  橡塑 
点击 290回答 4 2022-03-16 15:32

百度蜘蛛抓取规律分析

已解决 悬赏分:50 - 解决时间 2022-03-17 05:40
最近一直在研究百度蜘蛛抓取规律,刚开始的时候,真的是杂乱无章,看不出什么头绪,但最近找到了一个好工具,分析的很好。网站从8月末到11月末一直没有更新,百度单日抓取量由2800多降低到500多,但不管抓取量多大,一直有相同的规律。先公布下我的网站的百度蜘蛛三个月的抓取规律:1、百度蜘蛛ip 99%都是123.125.71段[从12-117,105个] 、220.181.108段[从75-187,102个],也就是加在一起207个蜘蛛ip,观察三个月的数据,每天这些蜘蛛都会来。见图一问题:除了以上这些蜘蛛ip之外,每天都有两三个180.76.5段的蜘蛛ip,这个ip段蜘蛛是做什么的?你们的Iss日志的蜘蛛ip数是多少?2、这一点是比较稀奇的,网站停留三个月没有更新,百度蜘蛛抓取量由2000多降低到500多,但稀奇的是蜘蛛抓取最大间隔值都不超过7分钟。问题:抓取间隔是否和网站权重有关系,为什么这么凑巧最大间隔从不超过7分钟?3、最近半个月网站开始更新,很多指数都恢复到三个月之前,每个月抓取量也将近2000,通过对最近几天蜘蛛的观察,凡是当天发布的文章,百度蜘蛛最少抓取两次,并且这两次抓取间隔为四个小时。问题:百度针对一个页面为什么抓取两次,其实第一次抓取的时候已经显示收录了,为什么四个小时候再抓取一次?
反对 0举报 0 收藏 0 打赏 0
最佳答案
支持 0 反对 0 举报 2022-03-16 16:49
最近一直在...
支持 0 反对 0 举报 2022-03-16 18:12
我是用正则匹配日志中的百度蜘蛛,比题主收集的数据多了状态码,百度蜘蛛种类,访问URL。
1. 百度站长工具压力显示新东家网站子域名每天抓取2000次,但编辑后台统计总共才3000个页面,实际日志查到的为几百条百度蜘蛛记录,看样子可以新增1000篇文章,让百度多爬点。ip地址都差不多,段[从12-117],段[从75-187],段[从21-194],另外还有2个,假的。段亦有2个。
2. 这与权重没什么关系罢,同样从0:05-0:27时间内百度蜘蛛在子域名爬了69次,但之后过了15分钟才继续爬。每日百度来的流量大约为几百个UV。
3. 昨日已经回答过,一般大型网站百度蜘蛛重复抓取率较低,而中小型网站重复抓取率较高,因此看到百度蜘蛛爬得很勤,不必太高兴,只能说明百度记不住这个网站,需要多爬几次以免忘记。
支持 0 反对 0 举报 2022-03-16 19:32
建议你先确定好蜘蛛是百度的还是其他工具仿得!
支持 0 反对 0 举报 2022-03-16 20:55
看蜘蛛相当于把脉,最关键的还是要能根治。
网站首页  |  营业执照  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报