点击 240回答 3
2022-03-16 20:57
请教:为什么同一个页面,百度蜘蛛抓取的文件大小不一样?![]() ![]() 而且有两个区间,一个只有4000左右,另外一个在15000左右,请问,同是百度蜘蛛,为什么抓取的文件大小值相差这么大?真实的网页大小,应该是15146这个。谢谢!117.28.255.53 - - [02/Apr/2014:04:49:25 +0800] GET / HTTP/1.1 200 4105 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) -117.28.255.37 - - [02/Apr/2014:12:48:18 +0800] GET / HTTP/1.1 200 4105 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) -220.181.108.159 - - [02/Apr/2014:14:39:01 +0800] GET / HTTP/1.1 200 15146 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) -123.125.71.110 - - [02/Apr/2014:14:44:03 +0800] GET / HTTP/1.1 200 15146 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) -
|
支持 0
反对 0
举报
2022-03-17 00:58
看了一下你提供的这四个蜘蛛的IP。其中前两个来自福建电信。后面两个来自北京联通。
因此大胆的做了一个猜测。你的服务器应该属于联通(或者网通)网络。 而我们都知道。电信和网通(铁通,联通,移动等)之间,存在一个巨大的数据连接瓶颈。 电信用户访问铁通服务器下网站就经常出现只能打开半个页面的情形。 同样,电信服务器下的蜘蛛在访问你的也面过程中也有可能出现访问到4000左右字节位置的时候,由于后面有一个大文件超时获取而中断访问。因此就出现了以上的情况。 (以上回答,纯属猜测。以前曾经遇见过类似的情形,当时只是看了一眼没有太在意。后来使用了多线路服务器之后。基本上这个问题没有碰到过了。现在想起来,估计这个缘故。) |