推广 热搜: 食品  快递      www  民事主体  网络营销  代理  东莞市  橡塑 
点击 72回答 8 2022-03-16 02:07

蜘蛛抓取效率影响因素、蜘蛛为什么会离开你的网站?

已解决 悬赏分:60 - 解决时间 2022-03-16 17:39
对于有几百万、几千万页面的大型网站来说,收录是个大问题。收录由两方面决定,一个是蜘蛛发现了页面,一个是页面的质量。今天谈论第一个问题。观察日志发现,有的蜘蛛几秒就抓下一个页面,有的蜘蛛却几十分钟才抓一个页面;有的蜘蛛爬了几页就离开了网站,有的蜘蛛却可以抓几百页、几千页才离开。请问一下,1、影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小)2、让蜘蛛含恨离开网站的原因有哪些?
反对 0举报 0 收藏 0 打赏 0
最佳答案
支持 0 反对 0 举报 2022-03-16 03:21
对于有几百...
支持 0 反对 0 举报 2022-03-16 04:33
来点题外话
- 蜘蛛分两类:专享蜘蛛和共享蜘蛛,对于大型网站,绝大大部分来访蜘蛛都是专项蜘蛛,就是专门抓这个域名下的内容。
- 由于带宽限制,蜘蛛每日抓取页面数量有限,会根据网站整体质量,定期观察,对页面更新频繁、优先级高的类别页面重点抓取,来提高抓取效率,根据服务器情况,调整抓取时间和抓取速度,保证网站正常运行。
- 抓取策略:宽度优先,限制深度;重访抓取;暗网抓取

综上,回答问题
1.影响蜘蛛抓取效率的因素有哪些?(除了服务器压力、页面大小)
URL规划:URL结构;URL优先级;URL重复;无效URL
内容:内容同质化;同一页面对应多个URL;页面是次要页面,但URL优先级很高
页面:页面链接数量大;页面加载时间长(好多因素);代码繁杂;框架;搜索框;蜘蛛陷阱(比如一堆筛选条件);
服务器:速度慢;掉线;
其他:cookie;Robots写错了;程序插件;其他人补充~~~

2.让蜘蛛含恨离开网站的原因有哪些?
内容:内容重复;页面缺少更新机制;页面更新超级缓慢;页面加载速度超级慢;页面打不开
服务器:防火墙;防采集;限制IP;宕机;
其他:其他蜘蛛抓取量大,导致带宽不够用了;网站降权了;今天抓取数量够了,明天再说;URL优先级太低;其他人补充~~
支持 0 反对 0 举报 2022-03-16 05:45
内链结构吧,链接上尽量不要有那种带很多参数的动态链接,容易把蜘蛛绕进去。
支持 0 反对 0 举报 2022-03-16 07:24
我觉得蜘蛛离开的原因有两个:1.你这没有啥好吃的。2.吃饱了。
支持 0 反对 0 举报 2022-03-16 09:03
其实,蜘蛛的爬行是从深度和广度两个方面来进行的:即,既要爬行足够多网站的页面;又要对一个网站进行比较深的爬行,但蜘蛛的精力也是有限的,所以,它就要综合折中来进行了。对于大多数网站,优先照顾广度爬行;而对于很好的网站(比如 PR >=7),则要进行深度爬行。明白了在资源有限的情况下蜘蛛采取的策略,就可以照此应对了。 具体操作参见孙健!
支持 0 反对 0 举报 2022-03-16 10:04
据说,跟代码也有关系。
支持 0 反对 0 举报 2022-03-16 11:35
影响蜘蛛抓取效率因素:
1.网站的结构
2.页面链接分布不合理,有些分布过多导致重复爬行
支持 0 反对 0 举报 2022-03-16 11:51
其实我也想问这些类似的问题。例如。一个网站有多少个网页,蜘蛛爬行多少次才算正常的呢。这些就设计到了你提到的几点,一同讨论吧
网站首页  |  营业执照  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报