点击 174回答 4
2022-03-16 09:27
网站日志当中不懂内容,希望大家帮忙解释![]() ![]() GET /News/Search.aspx KeyWord=%E6%98%A5%E5%AD%A3%E5%AE%B6%E5%B1%85%E8%A3%85%E4%BF%AE%E5%BA%94%E6%B3%A8%E6%84%8F%E7%9A%84%E4%BA%8B%E9%A1%B9 80 - 180.76.5.181 Mozilla/5.0+(compatible;+Baiduspider/2.0;) 200 0 0这当中百度蜘蛛每次抓取这个页面的时候都会出现KeyWord=,并且每次都是不同的内容,不过大多都是%、数字、字母之类的,不知道这作何解释?还有一个疑问,GET /Default.aspx XxJJ=656677 80 - 180.76.6.224这又是什么意思呢?网站日志当中,很多不都是GET /吗?网站快照不更新原因是否在这呢?另,网站快照已经十个多月都未更新了,原因到底在哪呢?
|
支持 0
反对 0
举报
2022-03-16 12:16
GET /News/ KeyWord=*
爬虫爬行搜索功能中的某个关键词,这里不一定是搜索页面,因为有些网站虽然没有刻意做搜索页面但在首页有搜索框。我很相信你的日志反映了爬虫爬行了你的搜索功能。 GET / XxJJ=656677 80 - 这个要这么理解,爬虫爬行 这个页面,由于这个页面是以动态URL形式存在,而动态url存在多态展示的特点,后面带 XxJJ=656677 表示它的一个状态。需要强调从访客角度,访问页面是什么状态并不是重要的,爬虫在爬行时很反感这类地址,目前网站url都尽量避免出现动态地址。 网站快照已经十个多月都未更新了,很明显百度惩罚你了,通过日志分析是有助于判断问题所在的。从你提出的这几点问题,我有个建议:屏蔽百度抓取网站中所有.aspx 格式的页面,屏蔽 ,需要注意如果你整站都是.aspx格式的url就不能进行屏蔽 |