robots文件都设置了，为什么百度依然在抓取我所屏蔽的哪些文件

已解决

悬赏分：30 - 解决时间 2022-03-15 18:57

robots文件都设置了，为什么百度依然在抓取我所屏蔽的那些文件。基本上全在抓取这些东西，根本就没有去抓取站内的文章，让我很是蛋疼纠结啊。难道我设置的robots方式不对，但我用百度站长工具设置的，是正确的啊。请教一下，这种情况我到底该怎么处理解决啊？追加问题 Robots 举报 2012-12-13 发布9,264 次浏览最新问题同时有PC和移动站的情况下，如果做友情链接？(21 分钟前) 百度快照前面的名称是跟什么关联的，如果想修改的话怎么操作呢~(24 分钟前) 做外链的地儿有什么(34 分钟前) 搜外内容管家，这个下拉联想词工具，好用吗？(35 分钟前) 内容管家点击移除文章时，提示不存在什么意思？(39 分钟前) 百度小程序这个天级收录文件上传文件怎么写(54 分钟前) 站点模板相差无几，但内容不一样会被打击不？(1 小时前) 都说要做外链，就问你们去哪发外链的，我基本都是懒得做，太难搞了(1 小时前) 别人的网站搜索结果展示百度快照旁边不是域名而是网站名称是怎么弄的，为什么我的网站显示域名呢？(1 小时前) 买的旧域名做的网址，现阶段以前主页全文章标题能搜获得，如今找不到了，排行也掉了，大佬们帮助看一看 (2 小时前) .question-ccx {display: flex;width: 100%;margin: 0 auto;padding: 0;}.question-ccx .sw-area {width: 50%;padding: 12px 26px 10px 26px;box-shadow: none;float: left;}.question-ccx .sw-area ul li {padding: 3px 0;white-space: nowrap;text-overflow: ellipsis;overflow: hidden;display: flex;}.question-ccx .sw-area ul li a{white-space: nowrap;text-overflow: ellipsis;overflow: hidden;}.question-ccx .sw-area span {color: #999;}.question-ccx .side-reward span {color: #ec5a12;}.question-ccx .sw-area .mod-head {padding-bottom: 5px;}.question-ccx .side-reward {border-left: 1px solid #e0e8ee;float: right;}.question-ccx .sw-area ul li:nth-child(5) {display: none;}.ccx-question { border: 1px solid #e4eaee; overflow: hidden; padding: 20px 0; display: flex; width: 100%;}.ccx-new-question { width: 50%; padding: 0 20px;}.ccx-new-question li { height: 36px; line-height: 36px; border-bottom: 1px dashed #e2e2e2; white-space: nowrap; text-overflow: ellipsis; overflow: hidden;}.ccx-new-question li:last-child { border-bottom: none;} 分享到微信收藏关闭没有找到相关结果已邀请: --> .ccx-img {padding: 0; margin: 0 auto; width: 100%;position: relative;} .ccx-img_l {float: left; width: 49%;} .ccx-img_r {float: right;width: 49%;} .ccx-img img {width: 100%;border-radius: 8px;} 交换友情链接，就用搜外友链，方便！ 14 人参与回答张立博·搜问69号会员电子商务从业者陈宇、陈三平等 2 人赞同该回答谢谢夫唯老师邀请百度蜘蛛抓取的user-agent是：Mozilla/ (compatible; Baiduspider/ +)题目中的截图应该是用户访问的记录，而不是蜘蛛爬行的记录。如果确定有蜘蛛爬行已经屏蔽的路径的话，建议重新放一下截图。不过Robots屏蔽了，还显示抓取的话，那么要看一下robots文件有没有被抓取，一般生效时间会有一个延迟。

点赞 0反对 0举报 0 收藏 0 打赏 0

最佳答案

支持 0 反对 0 举报 2022-03-15 16:22

robots文件...

支持 0 反对 0 举报 2022-03-15 17:20

谢谢夫唯老师邀请

百度蜘蛛抓取的user-agent是：
Mozilla/ (compatible; Baiduspider/ +)
题目中的截图应该是用户访问的记录，而不是蜘蛛爬行的记录。

如果确定有蜘蛛爬行已经屏蔽的路径的话，建议重新放一下截图。

不过Robots屏蔽了，还显示抓取的话，那么要看一下robots文件有没有被抓取，一般生效时间会有一个延迟。

支持 0 反对 0 举报 2022-03-15 18:35

一句话解释的事情：

“如果robots屏蔽的网页、文件被其他页面所链接，那么spider照样会抓取，筛选，建立索引！”

9 年前赞同 1 评论 0 收藏举报

冯涵吴先志等 1 人赞同该回答

只能说见怪不怪，纠结久了就不纠结了。
大家的回答已经很详细了，不再赘述。
在此我只想说一个事实：
我们公司拥有自己网站的spider Site 系统，能检测任何spider在我们网站的一切行为，从长期数据来看，尤其是baidu spider有太多不可理解的行为，上述的robot里屏蔽但依然抓取是最正常不过的一个现象而已。
简单分享其他几种baidu spider crawl最常见的现象：
1〉spider crawl网站上没有入口的重复页面比crawl 其有大量入口的原始页面的频率及次数要高很多。
2〉一段时间内百度收录急剧减少百度spider crawl急剧增加，当然这跟页面质量有很大关系，不过仔细分析还是会有无法理解的地方
3〉一类页面其中一部分页面下线之后变为模板统一的内容也就几个字的页面，但是这些下线的页面比在线的页面内容丰富的同类型页面baidu spider crawl量要高很多
4〉spider会为网站URL自动加上参数
......
如果是对比几大搜索引擎的spider数据，问题会更多，很多seo理论在数据面前根本站不住脚。
至于上述屏蔽后spider继续抓取的问题该怎么解决，本人感觉没什么好办法，很多时候类似的问题针对google会有很好的解决办法，针对百度，问题出来之后采取什么办法都不怎么好解决(当然也由于自身水平及其有限)，除非在建网站的时候充分考虑到相关因素然后去避免。
以上个人浅见仅供参考。

支持 0 反对 0 举报 2022-03-15 18:42

截图，没有看到有百度蜘蛛抓取的行为。

百度蜘蛛也好奇，你什么文件不让它抓取，排查一下有木有作弊的嫌疑。
它只是看看而已，不紧张，它不会放出来的。

百度官方声明过：大楷意思是，即使设置了Robots，如果抓取的URL在其他地方有出现，百度依然会抓取、索引，这点赞同@白浩波。

支持 0 反对 0 举报 2022-03-15 20:15

有个缓存期了，不要担心，很快就会不抓取的！！

支持 0 反对 0 举报 2022-03-15 21:50

需要一定的时间响应,不着急,百度在细节上的处理还不是那么完美!

支持 0 反对 0 举报 2022-03-15 22:01

1、夫唯老师说的这个时间问题
2、他会从一些站外链接锚文章爬过来

支持 0 反对 0 举报 2022-03-15 23:24

虽然做了，Robots，并不代表搜索引擎不去索引你的网站，他会去抓取，但不会出现在搜索结果中，robots.txt协议并非是一个标准，一个规范，只是约定俗成而已罢了，通常搜索引擎会识别这个文件，但也有一些特殊情况。无论是百度亦或是谷歌，某个页面只要有其他网站链接到该页面的话，同样有可能会被索引和收录。要想彻底屏蔽页面文件被谷歌索引的话（即使有其他网站链接到该页面文件），则需要在页面head中插入noindex元标记或x-robots-tag。如下：

当谷歌蜘蛛看到页面上着noindex的元标记，就会将此页从谷歌搜索结果中完全丢弃，无视是否还有其他页链接到此页。
而百度呢？对于百度而言，并不支持如谷歌那般通过noindex完全将网页从索引上删除，仅支持noarchive元标记来禁止百度显示网页快照。具体语句如下：

上面这个标记只是禁止百度显示该页面快照，但百度仍会为其建索引，并在搜索结果中显示网页摘要。
众所周知，淘宝网通过robots.txt全站屏蔽百度蜘蛛，可为什么我们在百度搜索淘宝网时第一个结果也是淘宝网首页地址呢？而在我们查看该页面快照时却是显示空白？因此看来，网站只能禁止百度快照的显示，却无法做到禁止百度为网页建索引。

支持 0 反对 0 举报 2022-03-16 00:58

他这个时间期限挺长。估计要一个月才能确认不再抓取。
但现在他抓取，但不会放出。

支持 0 反对 0 举报 2022-03-16 01:05

NND，这些文件里面文件很多，分析了下日志，我靠，全在抓取这些对网站没什么用的东西，那些文章页面根本都不过去，让哥很蛋疼纠结啊。
百度在怎么厉害，也不能把我当爹抗啊，虽然我不介意。

«上一页 1 2 下一页» 共14条/2页