请教：为什么同一个页面，百度蜘蛛抓取的文件大小不一样？

已解决

悬赏分：20 - 解决时间 2022-03-17 07:01

而且有两个区间，一个只有4000左右，另外一个在15000左右，请问，同是百度蜘蛛，为什么抓取的文件大小值相差这么大？真实的网页大小，应该是15146这个。谢谢！117.28.255.53 - - [02/Apr/2014:04:49:25 +0800] GET / HTTP/1.1 200 4105 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) -117.28.255.37 - - [02/Apr/2014:12:48:18 +0800] GET / HTTP/1.1 200 4105 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) -220.181.108.159 - - [02/Apr/2014:14:39:01 +0800] GET / HTTP/1.1 200 15146 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) -123.125.71.110 - - [02/Apr/2014:14:44:03 +0800] GET / HTTP/1.1 200 15146 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) -

点赞 0反对 0举报 0 收藏 0 打赏 0

最佳答案

支持 0 反对 0 举报 2022-03-16 22:10

而且有两个...

支持 0 反对 0 举报 2022-03-16 23:25

这个ip是站长工具的网站ip,他默认的是模拟百度抓取的.
并不是百度爬虫.
这个ip是的网站ip,也不是百度爬虫的.是模拟的.

至于长度问题
4105 15146
来自客户端发送内容的长度.
基本可以确定是
%b 除HTTP头以外传送的字节数

支持 0 反对 0 举报 2022-03-17 00:58

看了一下你提供的这四个蜘蛛的IP。其中前两个来自福建电信。后面两个来自北京联通。
因此大胆的做了一个猜测。你的服务器应该属于联通（或者网通）网络。
而我们都知道。电信和网通（铁通，联通，移动等）之间，存在一个巨大的数据连接瓶颈。
电信用户访问铁通服务器下网站就经常出现只能打开半个页面的情形。
同样，电信服务器下的蜘蛛在访问你的也面过程中也有可能出现访问到4000左右字节位置的时候，由于后面有一个大文件超时获取而中断访问。因此就出现了以上的情况。
（以上回答，纯属猜测。以前曾经遇见过类似的情形，当时只是看了一眼没有太在意。后来使用了多线路服务器之后。基本上这个问题没有碰到过了。现在想起来，估计这个缘故。）