打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
搜索引擎爬虫的三大更新策略都是什么呢?

搜索引擎爬虫的更新,基本应用在像快照的更新,搜索引擎对已抓取页面的再抓取行为等。至于为什么要进行再抓取基本是因为互联网上万万亿的页面量。很多页面还是有一直变化的。这个变化的前置因子,导致了爬虫要不断的更新自己的数据,从而一定要对已经抓取的网页进行再抓取。那搜索引擎爬虫的三大更新策略都是什么呢?

搜索引擎爬虫的历史更新策略

所谓历史更新策略,就是针对已经抓取的网页有一个再抓取的时间限制。例如爬虫抓取【平哥SEO】博客的首页,从而搜索引擎通过一直以来的抓取得出我的博客首页平均每3天更新一次,那么爬虫的抓取策略就会调整为每3天访问一次我的博客首页。

这样的更新抓取策略告诉我们,网页变化频繁就会引来蜘蛛的频繁抓取。所以在这里如果你的网页全部是静态的。也就意味着不生成一遍对应页面是不会发生变化的。

相对而言针对这种策略逻辑你的站就不是很好。所以网址设置为伪静态的,在网站打开速度能够很好控制的前提下,把网页本身设置为动态页面是很不错的选择。

搜索引擎爬虫的用户体验更新策略

所谓用户体验的网页更新策略,是搜索引擎认为网页参与具有一定搜索量词的排名,且在前3页的,是经常会被用户访问到的页面。那么针对这类页面要更优先的进行抓取更新。

而3页之后的网页对于用户而言,访问的人占到了极少数,晚一些时间更新也未尝不可。因此采取的一种网页抓取更新策略。

这种策略让我们知道,一些核心关键词排名靠前的网页,被爬虫抓取的频次是更多的。那么值得思考的一个问题是网站也会有一些详情页,聚合页甚至文章页参与比错的词的排名。这是不是意味着这次页面抓取量也不错呢?

针对这个问题,平哥SEO优化之前通过对访问日志的分析确定了这个答案,在80%的情况下,确实是这样的。但这种页面的频率远低于首页、频道页等距离首页更近,路径更短的页面抓取量。

不过,我们还是可以好好优化我们的详情页/文章页,在这类页面以展示最新内容,为最新内容的收录增加爬虫抓取的入口。

搜索引擎爬虫抓取网页的抽样聚类策略

谈到这个策略,我们先从字面意思来看“抽样,聚类”。抽样是指从网站中抽取一些样本出来进行观察,而聚类是根据这些样本的观察得出一定的结论后应用于这个类型上。

我们的网站都是有不同类型组成的,例如列表页、产品详情页、文章页、频道页、聚合页等,这些都是不同的类型。搜索引擎从这中间抽选出一些样本,进行观察后得出一个更新周期后,应用于整个类型的方式就是抽样聚类的网页抓取更新策略。

我们举个例子,搜索引擎从列表页抽样找到A列表页,通过分析观察发现A列表页每2天可以抓取一次。然后和A列表页同类型的还有B、C、D列表页,因为他们的模版一样、导航都有、首页下模块也特指这四个列表页。那么他们是一类的,所以B、C、D列表页和A列表页一样,都是2天一抓取。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
简单分析搜索引擎蜘蛛的爬取策略
网络爬虫技术
网络爬虫基本原理(二)
认识搜索引擎爬虫
网络爬虫实现原理与技术,终于有人讲明白了(值得收藏)
深入了解搜索引擎原理第一课
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服