打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
认识搜索引擎爬虫
什么是搜索引擎爬虫?机器人、蜘蛛、Bot、Spider 等,这几种叫法都是指同个东西,具体意思请移步问度娘。

搜索引擎通用爬虫框架
  
(图片来自《这就是搜索引擎》书籍)


搜索引擎爬虫大致分为分3类:
  • 批量型爬虫(Batch Crawler):有明确的抓取范围和目标,完成任务就停止。

  • 增量型爬虫(Incremental Crawler): 商业搜索引擎基本上这类

  • 垂直型爬虫(Focused Crawler):垂直行业,难点在于如何判断页面内容


优秀爬虫特性:(爬虫开发者角度)
  • 高效性:爬虫下载网页的抓取速度。如和程序访问磁盘的操作方法,数据结构的选择 很有关

  • 可扩展性:增加服务器、爬虫数量。 多个数据中心,多台服务器,每台服务器多个爬虫,每个爬虫多线程

  • 健壮性 :遇到各种异常情况能正确处理。如:HTML代码不规范、被抓取服务器死机、爬虫陷阱、爬虫所在服务器宕机,

  • 友好性:一是保护网站的部分私密性(遵守robots.txt);另一是建设被抓取网站的网络负载


爬虫质量评价标准:(搜索引擎用户体验角度)
  大型商业搜索引擎至少包含两套不同目的的抓取系统。一套是FreshBot,主要考虑网页的时新性,对于更新频繁的网页,可达到以秒计的更新周期。 另套是Deep CrawlBot,主要针对更新不是那么频繁的网页,以天为更新周期。 还有针对暗网的抓取系统。

具体了解搜索引擎爬虫看以下文章
爬虫系统还有至关重要的4个方面:《抓取策略》、《网页更新策略》、《暗网抓取》和《分布式策略》,基本上决定了爬虫系统的质量和性能。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
网络爬虫基本原理(二)
搜索引擎中网络爬虫的设计分析
网络爬虫
网络爬虫系统Heritrix的结构分析 (个人读书报告)
10.网站手机号码抓取软件?网站获取手机号码?网页获取手机号码?抓取手机号?手机号获取?都是骗人的吗?
了解入门爬虫技术原理,看这篇就够了
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服