推广 热搜: 食品  快递      www  民事主体  网络营销  代理  东莞市  橡塑 
点击 203回答 15 2022-03-15 18:50

如何可发现蜘蛛从什么渠道抓取到某一个错误链接?

已解决 悬赏分:0 - 解决时间 2022-03-15 23:28
看下图,里面标注的两个链接不存在于网站上,整个网站就一百来个页面,比较好控制和研究。但百度仅收录的5个页面里,有2个是不存在与网站上的URL。那么有哪些方式可以发现,蜘蛛从什么渠道抓取到某一个错误链接?这是很多童鞋常见的困恼。 追加问题 蜘蛛(爬虫) 死链接 举报 2013-09-26 发布6,272 次浏览 最新问题 游戏网站收录了7000多 关键词也80多个 流量却少的可怜(8 分钟前) 我的网站已经建站很久了,百度一直没有收录(21 分钟前) 我的站收录2万多条,关键词排名全没了。。。(33 分钟前) site有结果页没有是不是被K了(50 分钟前) 新域名,新站,今天第3个月,百度出现秒收录了,如何保持住,如何起飞!(1 小时前)   你们真正意义上互联网第一桶金是怎么赚取的?(1 小时前) 收录也不给权重 怎么办了(1 小时前) 想买一个有百度快速收录权限的域名(3 小时前) 用wp搭了一个网站,经常会出现打不开的情况,重启服务器后就能正常打开,这是什么原因?(3 小时前) 搜索框的下拉效果好么?感觉如果不是和公司相关的话没啥用(4 小时前) .question-ccx {display: flex;width: 100%;margin: 0 auto;padding: 0;}.question-ccx .sw-area {width: 50%;padding: 12px 26px 10px 26px;box-shadow: none;float: left;}.question-ccx .sw-area ul li {padding: 3px 0;white-space: nowrap;text-overflow: ellipsis;overflow: hidden;display: flex;}.question-ccx .sw-area ul li a{white-space: nowrap;text-overflow: ellipsis;overflow: hidden;}.question-ccx .sw-area span {color: #999;}.question-ccx .side-reward span {color: #ec5a12;}.question-ccx .sw-area .mod-head {padding-bottom: 5px;}.question-ccx .side-reward {border-left: 1px solid #e0e8ee;float: right;}.question-ccx .sw-area ul li:nth-child(5) {display: none;}.ccx-question { border: 1px solid #e4eaee; overflow: hidden; padding: 20px 0; display: flex; width: 100%;}.ccx-new-question { width: 50%; padding: 0 20px;}.ccx-new-question li { height: 36px; line-height: 36px; border-bottom: 1px dashed #e2e2e2; white-space: nowrap; text-overflow: ellipsis; overflow: hidden;}.ccx-new-question li:last-child { border-bottom: none;} 分享到微信 收藏 关闭 没有找到相关结果 已邀请: --> .ccx-img {padding: 0; margin: 0 auto; width: 100%;position: relative;} .ccx-img_l {float: left; width: 49%;} .ccx-img_r {float: right;width: 49%;} .ccx-img img {width: 100%;border-radius: 8px;} 交换友情链接,就用搜外友链,方便! 15 人参与回答 邹路香·专注SEO,网站运营 微信:ifu2008黄田洲等 1 人赞同该回答百度蜘蛛也是程序员写出来的,总是有一个抓取规则的,他也许抓取页面时有两个选择,一是链接指引,二是顺序规则你的页面www.seowhy.com/6_80_zh.htmlwww.seowhy.com/6_81_zh.html唯独没有 6_82_ ,如果是链接指引那就是说当时你有发布这个页面,又删除了,所以收录到了。否则就是 百度蜘蛛是以数字顺序来抓的。。。www.seowhy.com/6_83_zh.htmlwww.seowhy.com/6_84_zh.html
反对 0举报 0 收藏 0 打赏 0
最佳答案
支持 0 反对 0 举报 2022-03-15 20:21
看下图,里...
支持 0 反对 0 举报 2022-03-15 20:53
百度蜘蛛也是程序员写出来的,总是有一个抓取规则的,
他也许抓取页面时有两个选择,一是链接指引,二是顺序规则

你的页面
www.seowhy.com/6_80_zh.html
www.seowhy.com/6_81_zh.html
唯独没有 6_82_ ,如果是链接指引那就是说当时你有发布这个页面,又删除了,所以收录到了。
否则就是 百度蜘蛛是以数字顺序来抓的。。。
www.seowhy.com/6_83_zh.html
www.seowhy.com/6_84_zh.html
支持 0 反对 0 举报 2022-03-15 21:42
学习下,坐等大神的真确解答以及证明
支持 0 反对 0 举报 2022-03-15 22:35
这个表示不懂,来学习,,。。
支持 0 反对 0 举报 2022-03-15 22:43
我个人理解是:当那个网页显示异常的时候,正好百度他老人家路过,所以看到的结果是那样的。途径可能是用户的点击和通过外链的导入。纯属个人理解。
支持 0 反对 0 举报 2022-03-15 23:56
这个估计是需要从网站日志那里才能看得到吧!
支持 0 反对 0 举报 2022-03-16 00:20
楼上分析的很有道理。
现在是一不小心,让蜘蛛跑了进来,找到了这个页面,seowhy权重高,又很快收录了。
现在要找蜘蛛到底是从哪个地方跑进来的,真有点难度。
对很多网站来说,既然收录了,为了不浪费,要么301,要么可以重新做个有用点的页面。
支持 0 反对 0 举报 2022-03-16 01:20
去服务器看下网站日志,Ctrl+F,如果能搜到,问题就解决了;
如果搜不到,解决方法见楼上各位。O(∩_∩)O
支持 0 反对 0 举报 2022-03-16 01:28
上面说的好凌乱......蜘蛛抓取不存在的链接,只要找到这个链接的来源页面就行了。最直接的办法就是把整站所有页面抓一遍,找出html中存在这些url的页面。

刚抓了下,fag.seowhy.com下的确不存在这些链接。所以可以推断出蜘蛛并不是从fag.seowhy.com下抓到这个页面,是从seowhy.com来的,既然收录的是新的url格式,也表明服务器做301是采用.htaccess正则替换的,不是url对,否则这个页面压根就打不开。

前面说到抓取整站页面,考虑seowhy.com页面数量实在庞大,需要限定抓取范围。具体做法:
1.通过日志锁定抓取这个不存在页面的蜘蛛IP
2.调取从做301那天到24日的日志,导出该IP在抓到不存在url之前访问的页面
3.抽查导出页面html是否存在不存在url的链接,如没找到,就扩大抽取范围(比如抽取前100页面没找到,那就抽取前1000个试下)

ps:其实不一定能找到,spider抓取是通过历史建立的访问url列表,并不是通过从一个页面的链接跳到另一个页面

估计应该是其它用户在回帖或发布内容的时候加了这个不存在url的链接,因为是服务器是正则匹配的url,所以能够被百度正常访问抓取,就被收录了

欢迎大神指点。。。。。
支持 0 反对 0 举报 2022-03-16 02:54
我的好多页面都是不存在的,但是确实收录了,有快照,百度蜘蛛是不是智能了,只要存在的URL(仅限于数据库)而前台不显示,用户访问不到,也是可以的爬行和抓取的。





我这页面在前台是不存在的,但是一直抓取!

不知道什么原因! 8 年前 赞同 0 评论 3 收藏 举报
翁博 翁博 · SEO

我一度怀疑:
百度会根据url特征对未抓取的url进行猜测:
例如我有一个页面url为news-7 删除后没去做协议404.且删除前未被百度发现(一些就删除、站内的爬行频率并不高)。
但是在第二天我发布了news-8的时候,他爬取news-8后爬取了news-7的内容。可以保证,news-7并无页面入口。

苦于这种测试做了对站内无意义,没人支持。所以没有找到证据。

 «上一页   1   2   下一页»   共15条/2页 
网站首页  |  营业执照  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报