如何可发现蜘蛛从什么渠道抓取到某一个错误链接？

已解决

悬赏分：0 - 解决时间 2022-03-15 23:28

看下图，里面标注的两个链接不存在于网站上，整个网站就一百来个页面，比较好控制和研究。但百度仅收录的5个页面里，有2个是不存在与网站上的URL。那么有哪些方式可以发现，蜘蛛从什么渠道抓取到某一个错误链接？这是很多童鞋常见的困恼。追加问题蜘蛛（爬虫）死链接举报 2013-09-26 发布6,272 次浏览最新问题游戏网站收录了7000多关键词也80多个流量却少的可怜(8 分钟前) 我的网站已经建站很久了，百度一直没有收录(21 分钟前) 我的站收录2万多条，关键词排名全没了。。。(33 分钟前) site有结果页没有是不是被K了(50 分钟前) 新域名，新站，今天第3个月，百度出现秒收录了，如何保持住，如何起飞！(1 小时前) 你们真正意义上互联网第一桶金是怎么赚取的？(1 小时前) 收录也不给权重怎么办了(1 小时前) 想买一个有百度快速收录权限的域名(3 小时前) 用wp搭了一个网站，经常会出现打不开的情况，重启服务器后就能正常打开，这是什么原因？(3 小时前) 搜索框的下拉效果好么？感觉如果不是和公司相关的话没啥用(4 小时前) .question-ccx {display: flex;width: 100%;margin: 0 auto;padding: 0;}.question-ccx .sw-area {width: 50%;padding: 12px 26px 10px 26px;box-shadow: none;float: left;}.question-ccx .sw-area ul li {padding: 3px 0;white-space: nowrap;text-overflow: ellipsis;overflow: hidden;display: flex;}.question-ccx .sw-area ul li a{white-space: nowrap;text-overflow: ellipsis;overflow: hidden;}.question-ccx .sw-area span {color: #999;}.question-ccx .side-reward span {color: #ec5a12;}.question-ccx .sw-area .mod-head {padding-bottom: 5px;}.question-ccx .side-reward {border-left: 1px solid #e0e8ee;float: right;}.question-ccx .sw-area ul li:nth-child(5) {display: none;}.ccx-question { border: 1px solid #e4eaee; overflow: hidden; padding: 20px 0; display: flex; width: 100%;}.ccx-new-question { width: 50%; padding: 0 20px;}.ccx-new-question li { height: 36px; line-height: 36px; border-bottom: 1px dashed #e2e2e2; white-space: nowrap; text-overflow: ellipsis; overflow: hidden;}.ccx-new-question li:last-child { border-bottom: none;} 分享到微信收藏关闭没有找到相关结果已邀请: --> .ccx-img {padding: 0; margin: 0 auto; width: 100%;position: relative;} .ccx-img_l {float: left; width: 49%;} .ccx-img_r {float: right;width: 49%;} .ccx-img img {width: 100%;border-radius: 8px;} 交换友情链接，就用搜外友链，方便！ 15 人参与回答邹路香·专注SEO，网站运营微信：ifu2008黄田洲等 1 人赞同该回答百度蜘蛛也是程序员写出来的，总是有一个抓取规则的，他也许抓取页面时有两个选择，一是链接指引，二是顺序规则你的页面www.seowhy.com/6_80_zh.htmlwww.seowhy.com/6_81_zh.html唯独没有 6_82_ ，如果是链接指引那就是说当时你有发布这个页面，又删除了，所以收录到了。否则就是百度蜘蛛是以数字顺序来抓的。。。www.seowhy.com/6_83_zh.htmlwww.seowhy.com/6_84_zh.html

点赞 0反对 0举报 0 收藏 0 打赏 0

最佳答案

支持 0 反对 0 举报 2022-03-15 20:21

看下图，里...

支持 0 反对 0 举报 2022-03-15 20:53

百度蜘蛛也是程序员写出来的，总是有一个抓取规则的，
他也许抓取页面时有两个选择，一是链接指引，二是顺序规则

你的页面
www.seowhy.com/6_80_zh.html
www.seowhy.com/6_81_zh.html
唯独没有 6_82_ ，如果是链接指引那就是说当时你有发布这个页面，又删除了，所以收录到了。
否则就是百度蜘蛛是以数字顺序来抓的。。。
www.seowhy.com/6_83_zh.html
www.seowhy.com/6_84_zh.html

支持 0 反对 0 举报 2022-03-15 21:42

学习下，坐等大神的真确解答以及证明

支持 0 反对 0 举报 2022-03-15 22:35

这个表示不懂，来学习，，。。

支持 0 反对 0 举报 2022-03-15 22:43

我个人理解是：当那个网页显示异常的时候，正好百度他老人家路过，所以看到的结果是那样的。途径可能是用户的点击和通过外链的导入。纯属个人理解。

支持 0 反对 0 举报 2022-03-15 23:56

这个估计是需要从网站日志那里才能看得到吧！

支持 0 反对 0 举报 2022-03-16 00:20

楼上分析的很有道理。
现在是一不小心，让蜘蛛跑了进来，找到了这个页面，seowhy权重高，又很快收录了。
现在要找蜘蛛到底是从哪个地方跑进来的，真有点难度。
对很多网站来说，既然收录了，为了不浪费，要么301，要么可以重新做个有用点的页面。

支持 0 反对 0 举报 2022-03-16 01:20

去服务器看下网站日志，Ctrl+F，如果能搜到，问题就解决了；
如果搜不到，解决方法见楼上各位。O(∩_∩)O

支持 0 反对 0 举报 2022-03-16 01:28

上面说的好凌乱......蜘蛛抓取不存在的链接，只要找到这个链接的来源页面就行了。最直接的办法就是把整站所有页面抓一遍，找出html中存在这些url的页面。

刚抓了下,fag.seowhy.com下的确不存在这些链接。所以可以推断出蜘蛛并不是从fag.seowhy.com下抓到这个页面，是从seowhy.com来的，既然收录的是新的url格式，也表明服务器做301是采用.htaccess正则替换的，不是url对，否则这个页面压根就打不开。

前面说到抓取整站页面，考虑seowhy.com页面数量实在庞大，需要限定抓取范围。具体做法：
1.通过日志锁定抓取这个不存在页面的蜘蛛IP
2.调取从做301那天到24日的日志，导出该IP在抓到不存在url之前访问的页面
3.抽查导出页面html是否存在不存在url的链接，如没找到，就扩大抽取范围（比如抽取前100页面没找到，那就抽取前1000个试下）

ps：其实不一定能找到，spider抓取是通过历史建立的访问url列表，并不是通过从一个页面的链接跳到另一个页面

估计应该是其它用户在回帖或发布内容的时候加了这个不存在url的链接，因为是服务器是正则匹配的url，所以能够被百度正常访问抓取，就被收录了

欢迎大神指点。。。。。

支持 0 反对 0 举报 2022-03-16 02:54

我的好多页面都是不存在的，但是确实收录了，有快照，百度蜘蛛是不是智能了，只要存在的URL（仅限于数据库）而前台不显示，用户访问不到，也是可以的爬行和抓取的。

我这页面在前台是不存在的，但是一直抓取！

不知道什么原因！ 8 年前赞同 0 评论 3 收藏举报

翁博 · SEO

我一度怀疑：
百度会根据url特征对未抓取的url进行猜测：
例如我有一个页面url为news-7 删除后没去做协议404.且删除前未被百度发现（一些就删除、站内的爬行频率并不高）。
但是在第二天我发布了news-8的时候，他爬取news-8后爬取了news-7的内容。可以保证，news-7并无页面入口。

苦于这种测试做了对站内无意义，没人支持。所以没有找到证据。

«上一页 1 2 下一页» 共15条/2页