点击 236回答 9
2022-03-16 03:33
大中型网站,减少抓取的原因?![]() ![]() 通过日志来看。有几个栏目存在抓取大幅下降,爬虫抓取平均时间增长的趋势,想跟大家讨论一下,关于爬虫抓取量下降的原因。我自己先说下自己的理解吧。1 网页加载慢(自身因素,相对于服务器)。2 服务器抽风。3 内容质量下降。4 导入链接减少。5 导出链接过多。欢迎大家指导,在此谢过。几位前辈都说过了关于压力反馈这个工具,现在简单的截个图把百度蜘蛛抓取量的趋势和压力反馈趋势放在下面,各位前辈看下。 追加问题 蜘蛛(爬虫) 日志分析 举报 2013-08-20 发布3,371 次浏览 最新问题 新域名,新站,今天第3个月,百度出现秒收录了,如何保持住,如何起飞!(3 分钟前) 你们真正意义上互联网第一桶金是怎么赚取的?(11 分钟前) 收录也不给权重 怎么办了(32 分钟前) 想买一个有百度快速收录权限的域名(2 小时前) 用wp搭了一个网站,经常会出现打不开的情况,重启服务器后就能正常打开,这是什么原因?(2 小时前) 搜索框的下拉效果好么?感觉如果不是和公司相关的话没啥用(2 小时前) 网站投放移动合作广告问题(2 小时前) 网站换模板对收录影响大不 (3 小时前) 重庆网红轻轨是几号线?车身上面可以做广告吗(3 小时前) 新站上线第二天 大量的展现这是为什么 而且包含了很多地名(3 小时前) .question-ccx {display: flex;width: 100%;margin: 0 auto;padding: 0;}.question-ccx .sw-area {width: 50%;padding: 12px 26px 10px 26px;box-shadow: none;float: left;}.question-ccx .sw-area ul li {padding: 3px 0;white-space: nowrap;text-overflow: ellipsis;overflow: hidden;display: flex;}.question-ccx .sw-area ul li a{white-space: nowrap;text-overflow: ellipsis;overflow: hidden;}.question-ccx .sw-area span {color: #999;}.question-ccx .side-reward span {color: #ec5a12;}.question-ccx .sw-area .mod-head {padding-bottom: 5px;}.question-ccx .side-reward {border-left: 1px solid #e0e8ee;float: right;}.question-ccx .sw-area ul li:nth-child(5) {display: none;}.ccx-question { border: 1px solid #e4eaee; overflow: hidden; padding: 20px 0; display: flex; width: 100%;}.ccx-new-question { width: 50%; padding: 0 20px;}.ccx-new-question li { height: 36px; line-height: 36px; border-bottom: 1px dashed #e2e2e2; white-space: nowrap; text-overflow: ellipsis; overflow: hidden;}.ccx-new-question li:last-child { border-bottom: none;} 分享到微信 收藏 关闭 没有找到相关结果 已邀请: --> .ccx-img {padding: 0; margin: 0 auto; width: 100%;position: relative;} .ccx-img_l {float: left; width: 49%;} .ccx-img_r {float: right;width: 49%;} .ccx-img img {width: 100%;border-radius: 8px;} 交换友情链接,就用搜外友链,方便! 8 人参与回答 洪逸君·基督福音传播,B2B运营管理,SEO技术实战刘振兴、潘康颖、雷博文等 3 人赞同该回答抓取下降,爬虫时间增长,这种情况体现了爬虫因为抓取中遇到困难导致抓取成功数量减少。内容质量下降。 导入链接减少。导出链接过多。这三点我觉得是没有直接关系的。遇到此类问题,首先要先找到出问题的时间,是长期如此,还是最近才这样,明确一个模糊的开始时间。其次开始时间定出来之后,要联系那个时间段网站运营的一些情况,比如:网站改版,更换服务器(主机)、域名解析、黑客入侵等。再者要找到核心问题所在,到底为什么给爬虫制造这样的压力,然后采取方法解除这个压力。另外,我推荐你参照下百度站长工具--网站分析---压力反馈,这个工具里的数据有利于找到出问题的时间,如果你同时还验证过谷歌站长等,可以通过这些工具查看下更多信息。【愿上帝祝福你】
|
支持 0
反对 0
举报
2022-03-16 05:23
抓取下降,爬虫时间增长,这种情况体现了爬虫因为抓取中遇到困难导致抓取成功数量减少。
内容质量下降。 导入链接减少。导出链接过多。这三点我觉得是没有直接关系的。 遇到此类问题,首先要先找到出问题的时间,是长期如此,还是最近才这样,明确一个模糊的开始时间。 其次开始时间定出来之后,要联系那个时间段网站运营的一些情况,比如:网站改版,更换服务器(主机)、域名解析、黑客入侵等。 再者要找到核心问题所在,到底为什么给爬虫制造这样的压力,然后采取方法解除这个压力。 另外,我推荐你参照下百度站长工具--网站分析---压力反馈,这个工具里的数据有利于找到出问题的时间,如果你同时还验证过谷歌站长等,可以通过这些工具查看下更多信息。 【愿上帝祝福你】 |
支持 0
反对 0
举报
2022-03-16 06:29
传送门:http://ask.seowhy.com/question/1545
来点题外话 - 蜘蛛分两类:专享蜘蛛和共享蜘蛛,对于大型网站,绝大大部分来访蜘蛛都是专项蜘蛛,就是专门抓这个域名下的内容。 - 由于带宽限制,蜘蛛每日抓取页面数量有限,会根据网站整体质量,定期观察,对页面更新频繁、优先级高的类别页面重点抓取,来提高抓取效率,根据服务器情况,调整抓取时间和抓取速度,保证网站正常运行。 - 抓取策略:宽度优先,限制深度;重访抓取;暗网抓取 综上,回答问题 1.影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小) URL规划:URL结构;URL优先级;URL重复;无效URL 内容:内容同质化;同一页面对应多个URL;页面是次要页面,但URL优先级很高 页面:页面链接数量大;页面加载时间长(好多因素);代码繁杂;框架;搜索框;蜘蛛陷阱(比如一堆筛选条件); 服务器:速度慢;掉线; 其他:cookie;Robots写错了;程序插件;其他人补充~~~ 2.让蜘蛛含恨离开网站的原因有哪些? 内容:内容重复;页面缺少更新机制;页面更新超级缓慢;页面加载速度超级慢;页面打不开 服务器:防火墙;防采集;限制IP;宕机; 其他:其他蜘蛛抓取量大,导致带宽不够用了;网站降权了;今天抓取数量够了,明天再说;URL优先级太低;其他人补充~~ |