推广 热搜: 食品  快递      www  民事主体  网络营销  代理  东莞市  橡塑 
点击 90回答 8 2022-03-16 12:38

蜘蛛爬行死循环如何解决?

已解决 悬赏分:0 - 解决时间 2022-03-17 02:13
我的网站,蜘蛛一直都在抓取筛选器哪里的链接,5千条爬行记录有4800是在爬那个筛选器的链接,有效内容页几乎不爬。把那个筛选器里面的链接全NF掉貌似也没什么作用。该如何解决呢? 追加问题 蜘蛛(爬虫) 举报 2014-04-03 发布5,834 次浏览 最新问题 如何才能获取快速收录权限(5 小时前) 游戏网站收录了7000多 关键词也80多个 流量却少的可怜(6 小时前) 我的网站已经建站很久了,百度一直没有收录(6 小时前) 我的站收录2万多条,关键词排名全没了。。。(6 小时前) site有结果页没有是不是被K了(6 小时前)   新域名,新站,今天第3个月,百度出现秒收录了,如何保持住,如何起飞!(7 小时前) 你们真正意义上互联网第一桶金是怎么赚取的?(7 小时前) 收录也不给权重 怎么办了(7 小时前) 想买一个有百度快速收录权限的域名(9 小时前) 用wp搭了一个网站,经常会出现打不开的情况,重启服务器后就能正常打开,这是什么原因?(9 小时前) .question-ccx {display: flex;width: 100%;margin: 0 auto;padding: 0;}.question-ccx .sw-area {width: 50%;padding: 12px 26px 10px 26px;box-shadow: none;float: left;}.question-ccx .sw-area ul li {padding: 3px 0;white-space: nowrap;text-overflow: ellipsis;overflow: hidden;display: flex;}.question-ccx .sw-area ul li a{white-space: nowrap;text-overflow: ellipsis;overflow: hidden;}.question-ccx .sw-area span {color: #999;}.question-ccx .side-reward span {color: #ec5a12;}.question-ccx .sw-area .mod-head {padding-bottom: 5px;}.question-ccx .side-reward {border-left: 1px solid #e0e8ee;float: right;}.question-ccx .sw-area ul li:nth-child(5) {display: none;}.ccx-question { border: 1px solid #e4eaee; overflow: hidden; padding: 20px 0; display: flex; width: 100%;}.ccx-new-question { width: 50%; padding: 0 20px;}.ccx-new-question li { height: 36px; line-height: 36px; border-bottom: 1px dashed #e2e2e2; white-space: nowrap; text-overflow: ellipsis; overflow: hidden;}.ccx-new-question li:last-child { border-bottom: none;} 分享到微信 收藏 关闭 没有找到相关结果 已邀请: --> .ccx-img {padding: 0; margin: 0 auto; width: 100%;position: relative;} .ccx-img_l {float: left; width: 49%;} .ccx-img_r {float: right;width: 49%;} .ccx-img img {width: 100%;border-radius: 8px;} 交换友情链接,就用搜外友链,方便! 7 人参与回答 渣渣闯·站长/码农/市场狗,祖传公众号「流量贩子」夫唯、王建中、王垚、赵华等 4 人赞同该回答一般通过屏蔽蜘蛛改善收录有几种靠谱的方法:① Nofollow + Robots.txt② JS封装③ 页面缓存(Last-modified + Etag)④ 调整链接入口(数量 + 位置)基于你网站的情况,个人认为最适合第四种方法。至于具体原因,“国际会展”频道内容总数497,各种筛选条件组合后数量轻松上万。也就是说内容总数不多,但筛选条件却不少,以目前的内容数量还不足以支撑这么多的筛选条件,结果是导致绝大多数的筛选结果页都是空的。你可以看下一礼拜内抓取的筛选结果页其中没有内容的能占多大比例,估计不少。。。所以说你这问题原因不是蜘蛛不抓,而是没得抓。什么nofollow、js之类的自然没用,因为原因没找对嘛。。。改善抓取的个人建议:1.调整筛选条件的展现规则,只允许有内容的筛选条件才能展现在前端中2.增加筛选结果页中内容详情页的调用数量(增加详情页抓取概率,本身数量就不多的,就甭弄啥分页了)3.充实详情页内容(信息量少、无更新、没给同类相关页面提供链接,所以蜘蛛不会定期重访)4.筛选结果页TDK修改(上万的筛选页TDK都是一样的。。。。)
反对 0举报 0 收藏 0 打赏 0
最佳答案
支持 0 反对 0 举报 2022-03-16 13:48
我的网站,...
支持 0 反对 0 举报 2022-03-16 14:03
一般通过屏蔽蜘蛛改善收录有几种靠谱的方法:
① Nofollow + Robots.txt
② JS封装
③ 页面缓存(Last-modified + Etag)
④ 调整链接入口(数量 + 位置)

基于你网站的情况,个人认为最适合第四种方法。

至于具体原因,“国际会展”频道内容总数497,各种筛选条件组合后数量轻松上万。也就是说内容总数不多,但筛选条件却不少,以目前的内容数量还不足以支撑这么多的筛选条件,结果是导致绝大多数的筛选结果页都是空的。你可以看下一礼拜内抓取的筛选结果页其中没有内容的能占多大比例,估计不少。。。

所以说你这问题原因不是蜘蛛不抓,而是没得抓。什么nofollow、js之类的自然没用,因为原因没找对嘛。。。

改善抓取的个人建议:
1.调整筛选条件的展现规则,只允许有内容的筛选条件才能展现在前端中
2.增加筛选结果页中内容详情页的调用数量(增加详情页抓取概率,本身数量就不多的,就甭弄啥分页了)
3.充实详情页内容(信息量少、无更新、没给同类相关页面提供链接,所以蜘蛛不会定期重访)
4.筛选结果页TDK修改(上万的筛选页TDK都是一样的。。。。)
支持 0 反对 0 举报 2022-03-16 14:45
谢邀,我的建议是你可以通过筛选器的链接给其他页面更多的导入,方便蜘蛛爬行。
支持 0 反对 0 举报 2022-03-16 15:29
屏蔽相关的链接可以尝试下。
例如Nofollow 标签添加到你不想蜘蛛爬行的链接。
Robots.txt 也可以添加,禁止相关的抓取。
支持 0 反对 0 举报 2022-03-16 15:35
筛选器的你可以在空页面随机调列表
支持 0 反对 0 举报 2022-03-16 16:07
楼上正解,筛选器用ajax实现吧,否则就算不死循环爬寻也会制造出若干相似页面。
支持 0 反对 0 举报 2022-03-16 17:26
筛选器 最好用JS 你看看那些大站怎么做的
支持 0 反对 0 举报 2022-03-16 18:39
如果筛选器没有什么实质性的内容,那就屏蔽蜘蛛吧(Robots.txt )

NF只是不传递权重,蜘蛛会照样爬行链接。
网站首页  |  营业执照  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报