点击 72回答 8
2022-03-16 02:07
蜘蛛抓取效率影响因素、蜘蛛为什么会离开你的网站?![]() ![]() 对于有几百万、几千万页面的大型网站来说,收录是个大问题。收录由两方面决定,一个是蜘蛛发现了页面,一个是页面的质量。今天谈论第一个问题。观察日志发现,有的蜘蛛几秒就抓下一个页面,有的蜘蛛却几十分钟才抓一个页面;有的蜘蛛爬了几页就离开了网站,有的蜘蛛却可以抓几百页、几千页才离开。请问一下,1、影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小)2、让蜘蛛含恨离开网站的原因有哪些?
|
支持 0
反对 0
举报
2022-03-16 04:33
来点题外话
- 蜘蛛分两类:专享蜘蛛和共享蜘蛛,对于大型网站,绝大大部分来访蜘蛛都是专项蜘蛛,就是专门抓这个域名下的内容。 - 由于带宽限制,蜘蛛每日抓取页面数量有限,会根据网站整体质量,定期观察,对页面更新频繁、优先级高的类别页面重点抓取,来提高抓取效率,根据服务器情况,调整抓取时间和抓取速度,保证网站正常运行。 - 抓取策略:宽度优先,限制深度;重访抓取;暗网抓取 综上,回答问题 1.影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小) URL规划:URL结构;URL优先级;URL重复;无效URL 内容:内容同质化;同一页面对应多个URL;页面是次要页面,但URL优先级很高 页面:页面链接数量大;页面加载时间长(好多因素);代码繁杂;框架;搜索框;蜘蛛陷阱(比如一堆筛选条件); 服务器:速度慢;掉线; 其他:cookie;Robots写错了;程序插件;其他人补充~~~ 2.让蜘蛛含恨离开网站的原因有哪些? 内容:内容重复;页面缺少更新机制;页面更新超级缓慢;页面加载速度超级慢;页面打不开 服务器:防火墙;防采集;限制IP;宕机; 其他:其他蜘蛛抓取量大,导致带宽不够用了;网站降权了;今天抓取数量够了,明天再说;URL优先级太低;其他人补充~~ |