点击 203回答 15
2022-03-15 18:50
如何可发现蜘蛛从什么渠道抓取到某一个错误链接?![]() ![]() 看下图,里面标注的两个链接不存在于网站上,整个网站就一百来个页面,比较好控制和研究。但百度仅收录的5个页面里,有2个是不存在与网站上的URL。那么有哪些方式可以发现,蜘蛛从什么渠道抓取到某一个错误链接?这是很多童鞋常见的困恼。 追加问题 蜘蛛(爬虫) 死链接 举报 2013-09-26 发布6,272 次浏览 最新问题 游戏网站收录了7000多 关键词也80多个 流量却少的可怜(8 分钟前) 我的网站已经建站很久了,百度一直没有收录(21 分钟前) 我的站收录2万多条,关键词排名全没了。。。(33 分钟前) site有结果页没有是不是被K了(50 分钟前) 新域名,新站,今天第3个月,百度出现秒收录了,如何保持住,如何起飞!(1 小时前) 你们真正意义上互联网第一桶金是怎么赚取的?(1 小时前) 收录也不给权重 怎么办了(1 小时前) 想买一个有百度快速收录权限的域名(3 小时前) 用wp搭了一个网站,经常会出现打不开的情况,重启服务器后就能正常打开,这是什么原因?(3 小时前) 搜索框的下拉效果好么?感觉如果不是和公司相关的话没啥用(4 小时前) .question-ccx {display: flex;width: 100%;margin: 0 auto;padding: 0;}.question-ccx .sw-area {width: 50%;padding: 12px 26px 10px 26px;box-shadow: none;float: left;}.question-ccx .sw-area ul li {padding: 3px 0;white-space: nowrap;text-overflow: ellipsis;overflow: hidden;display: flex;}.question-ccx .sw-area ul li a{white-space: nowrap;text-overflow: ellipsis;overflow: hidden;}.question-ccx .sw-area span {color: #999;}.question-ccx .side-reward span {color: #ec5a12;}.question-ccx .sw-area .mod-head {padding-bottom: 5px;}.question-ccx .side-reward {border-left: 1px solid #e0e8ee;float: right;}.question-ccx .sw-area ul li:nth-child(5) {display: none;}.ccx-question { border: 1px solid #e4eaee; overflow: hidden; padding: 20px 0; display: flex; width: 100%;}.ccx-new-question { width: 50%; padding: 0 20px;}.ccx-new-question li { height: 36px; line-height: 36px; border-bottom: 1px dashed #e2e2e2; white-space: nowrap; text-overflow: ellipsis; overflow: hidden;}.ccx-new-question li:last-child { border-bottom: none;} 分享到微信 收藏 关闭 没有找到相关结果 已邀请: --> .ccx-img {padding: 0; margin: 0 auto; width: 100%;position: relative;} .ccx-img_l {float: left; width: 49%;} .ccx-img_r {float: right;width: 49%;} .ccx-img img {width: 100%;border-radius: 8px;} 交换友情链接,就用搜外友链,方便! 15 人参与回答 邹路香·专注SEO,网站运营 微信:ifu2008黄田洲等 1 人赞同该回答百度蜘蛛也是程序员写出来的,总是有一个抓取规则的,他也许抓取页面时有两个选择,一是链接指引,二是顺序规则你的页面www.seowhy.com/6_80_zh.htmlwww.seowhy.com/6_81_zh.html唯独没有 6_82_ ,如果是链接指引那就是说当时你有发布这个页面,又删除了,所以收录到了。否则就是 百度蜘蛛是以数字顺序来抓的。。。www.seowhy.com/6_83_zh.htmlwww.seowhy.com/6_84_zh.html
|
支持 0
反对 0
举报
2022-03-16 01:28
上面说的好凌乱......蜘蛛抓取不存在的链接,只要找到这个链接的来源页面就行了。最直接的办法就是把整站所有页面抓一遍,找出html中存在这些url的页面。
刚抓了下,fag.seowhy.com下的确不存在这些链接。所以可以推断出蜘蛛并不是从fag.seowhy.com下抓到这个页面,是从seowhy.com来的,既然收录的是新的url格式,也表明服务器做301是采用.htaccess正则替换的,不是url对,否则这个页面压根就打不开。 前面说到抓取整站页面,考虑seowhy.com页面数量实在庞大,需要限定抓取范围。具体做法: 1.通过日志锁定抓取这个不存在页面的蜘蛛IP 2.调取从做301那天到24日的日志,导出该IP在抓到不存在url之前访问的页面 3.抽查导出页面html是否存在不存在url的链接,如没找到,就扩大抽取范围(比如抽取前100页面没找到,那就抽取前1000个试下) ps:其实不一定能找到,spider抓取是通过历史建立的访问url列表,并不是通过从一个页面的链接跳到另一个页面 估计应该是其它用户在回帖或发布内容的时候加了这个不存在url的链接,因为是服务器是正则匹配的url,所以能够被百度正常访问抓取,就被收录了 欢迎大神指点。。。。。 |
支持 0
反对 0
举报
2022-03-16 02:54
我的好多页面都是不存在的,但是确实收录了,有快照,百度蜘蛛是不是智能了,只要存在的URL(仅限于数据库)而前台不显示,用户访问不到,也是可以的爬行和抓取的。
![]() 我这页面在前台是不存在的,但是一直抓取! 不知道什么原因! 8 年前 赞同 0 评论 3 收藏 举报 ![]() 我一度怀疑: |