推广 热搜: 食品  快递      www  民事主体  网络营销  代理  东莞市  橡塑 
点击 236回答 9 2022-03-16 03:33

大中型网站,减少抓取的原因?

已解决 悬赏分:40 - 解决时间 2022-03-16 09:11
通过日志来看。有几个栏目存在抓取大幅下降,爬虫抓取平均时间增长的趋势,想跟大家讨论一下,关于爬虫抓取量下降的原因。我自己先说下自己的理解吧。1 网页加载慢(自身因素,相对于服务器)。2 服务器抽风。3 内容质量下降。4 导入链接减少。5 导出链接过多。欢迎大家指导,在此谢过。几位前辈都说过了关于压力反馈这个工具,现在简单的截个图把百度蜘蛛抓取量的趋势和压力反馈趋势放在下面,各位前辈看下。 追加问题 蜘蛛(爬虫) 日志分析 举报 2013-08-20 发布3,371 次浏览 最新问题 新域名,新站,今天第3个月,百度出现秒收录了,如何保持住,如何起飞!(3 分钟前) 你们真正意义上互联网第一桶金是怎么赚取的?(11 分钟前) 收录也不给权重 怎么办了(32 分钟前) 想买一个有百度快速收录权限的域名(2 小时前) 用wp搭了一个网站,经常会出现打不开的情况,重启服务器后就能正常打开,这是什么原因?(2 小时前)   搜索框的下拉效果好么?感觉如果不是和公司相关的话没啥用(2 小时前) 网站投放移动合作广告问题(2 小时前) 网站换模板对收录影响大不 (3 小时前) 重庆网红轻轨是几号线?车身上面可以做广告吗(3 小时前) 新站上线第二天 大量的展现这是为什么 而且包含了很多地名(3 小时前) .question-ccx {display: flex;width: 100%;margin: 0 auto;padding: 0;}.question-ccx .sw-area {width: 50%;padding: 12px 26px 10px 26px;box-shadow: none;float: left;}.question-ccx .sw-area ul li {padding: 3px 0;white-space: nowrap;text-overflow: ellipsis;overflow: hidden;display: flex;}.question-ccx .sw-area ul li a{white-space: nowrap;text-overflow: ellipsis;overflow: hidden;}.question-ccx .sw-area span {color: #999;}.question-ccx .side-reward span {color: #ec5a12;}.question-ccx .sw-area .mod-head {padding-bottom: 5px;}.question-ccx .side-reward {border-left: 1px solid #e0e8ee;float: right;}.question-ccx .sw-area ul li:nth-child(5) {display: none;}.ccx-question { border: 1px solid #e4eaee; overflow: hidden; padding: 20px 0; display: flex; width: 100%;}.ccx-new-question { width: 50%; padding: 0 20px;}.ccx-new-question li { height: 36px; line-height: 36px; border-bottom: 1px dashed #e2e2e2; white-space: nowrap; text-overflow: ellipsis; overflow: hidden;}.ccx-new-question li:last-child { border-bottom: none;} 分享到微信 收藏 关闭 没有找到相关结果 已邀请: --> .ccx-img {padding: 0; margin: 0 auto; width: 100%;position: relative;} .ccx-img_l {float: left; width: 49%;} .ccx-img_r {float: right;width: 49%;} .ccx-img img {width: 100%;border-radius: 8px;} 交换友情链接,就用搜外友链,方便! 8 人参与回答 洪逸君·基督福音传播,B2B运营管理,SEO技术实战刘振兴、潘康颖、雷博文等 3 人赞同该回答抓取下降,爬虫时间增长,这种情况体现了爬虫因为抓取中遇到困难导致抓取成功数量减少。内容质量下降。 导入链接减少。导出链接过多。这三点我觉得是没有直接关系的。遇到此类问题,首先要先找到出问题的时间,是长期如此,还是最近才这样,明确一个模糊的开始时间。其次开始时间定出来之后,要联系那个时间段网站运营的一些情况,比如:网站改版,更换服务器(主机)、域名解析、黑客入侵等。再者要找到核心问题所在,到底为什么给爬虫制造这样的压力,然后采取方法解除这个压力。另外,我推荐你参照下百度站长工具--网站分析---压力反馈,这个工具里的数据有利于找到出问题的时间,如果你同时还验证过谷歌站长等,可以通过这些工具查看下更多信息。【愿上帝祝福你】
反对 0举报 0 收藏 0 打赏 0
最佳答案
支持 0 反对 0 举报 2022-03-16 05:12
通过日志来...
支持 0 反对 0 举报 2022-03-16 05:23
抓取下降,爬虫时间增长,这种情况体现了爬虫因为抓取中遇到困难导致抓取成功数量减少。

内容质量下降。 导入链接减少。导出链接过多。这三点我觉得是没有直接关系的。

遇到此类问题,首先要先找到出问题的时间,是长期如此,还是最近才这样,明确一个模糊的开始时间。

其次开始时间定出来之后,要联系那个时间段网站运营的一些情况,比如:网站改版,更换服务器(主机)、域名解析、黑客入侵等。

再者要找到核心问题所在,到底为什么给爬虫制造这样的压力,然后采取方法解除这个压力。

另外,我推荐你参照下百度站长工具--网站分析---压力反馈,这个工具里的数据有利于找到出问题的时间,如果你同时还验证过谷歌站长等,可以通过这些工具查看下更多信息。

【愿上帝祝福你】
支持 0 反对 0 举报 2022-03-16 05:38
这个值是正常的无需担心
支持 0 反对 0 举报 2022-03-16 06:29
传送门:http://ask.seowhy.com/question/1545

来点题外话
- 蜘蛛分两类:专享蜘蛛和共享蜘蛛,对于大型网站,绝大大部分来访蜘蛛都是专项蜘蛛,就是专门抓这个域名下的内容。
- 由于带宽限制,蜘蛛每日抓取页面数量有限,会根据网站整体质量,定期观察,对页面更新频繁、优先级高的类别页面重点抓取,来提高抓取效率,根据服务器情况,调整抓取时间和抓取速度,保证网站正常运行。
- 抓取策略:宽度优先,限制深度;重访抓取;暗网抓取

综上,回答问题
1.影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小)
URL规划:URL结构;URL优先级;URL重复;无效URL
内容:内容同质化;同一页面对应多个URL;页面是次要页面,但URL优先级很高
页面:页面链接数量大;页面加载时间长(好多因素);代码繁杂;框架;搜索框;蜘蛛陷阱(比如一堆筛选条件);
服务器:速度慢;掉线;
其他:cookie;Robots写错了;程序插件;其他人补充~~~

2.让蜘蛛含恨离开网站的原因有哪些?
内容:内容重复;页面缺少更新机制;页面更新超级缓慢;页面加载速度超级慢;页面打不开
服务器:防火墙;防采集;限制IP;宕机;
其他:其他蜘蛛抓取量大,导致带宽不够用了;网站降权了;今天抓取数量够了,明天再说;URL优先级太低;其他人补充~~
支持 0 反对 0 举报 2022-03-16 06:59
导致百度抓取少的原因:

网站服务器承载量不够;
网站内部链接数量(包括次导航、权重页);
网站外部链接相关性和广泛性;
支持 0 反对 0 举报 2022-03-16 07:24
首先我们来套一个公式: 单页抓取停留时间=停留时间*3600/总抓取量
单页抓取停留时间影响因素有两个:总停留时间与总抓取量。
现在总抓取量减少,导致单页抓取停留时间增长,这么说明,蜘蛛的总停留时间是相对稳定的,我说的没错吧?
那么,我们就可以得出一个结论:在总停留时间是相对稳定的情况下,网站的总抓取量下降,原因大致就可以得出三个:
一是服务器响应时间;
二是页面的层次过深;
三是内容的质量;
具体的这个栏目情况,还需要结合你的具体日志分析,如:栏目的信息更新量,信息收录量,进而计算出来的收录率,来确定是不是内容的质量问题;
支持 0 反对 0 举报 2022-03-16 08:41
百度不是有个抓取压力反馈工具么?你可以对比看看。压力反馈工具是根据服务器承受能力,网站质量,网站更新等综合因素来进行调整。所以说蜘蛛抓取量下降问题也应该跟这些因素有关系。
支持 0 反对 0 举报 2022-03-16 09:54
个人认为蜘蛛爬行的原因:
1.外链的广泛度和质量度:影响蜘蛛爬行的深度和时长
2. 内链的友好度:影响蜘蛛爬行的速度和深度
3. 导航的分类精细:影响爬行深度
4. 文章的更新速度:影响爬行的量度(是否常来)
5. 服务器响应速度:影响很多。。。这个深受其害。。。这个是个坑,
支持 0 反对 0 举报 2022-03-16 10:25
爬虫抓取下降,与服务器的稳定、页面质量、用户体验等这些因素有关系。
你要是确定没有问题,可以再观察几天,是否爬虫的抓取力度会恢复。
网站首页  |  营业执照  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报