认识搜索引擎爬虫

打开APP

未登录

开通VIP，畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

认识搜索引擎爬虫

userphoto

共同成长888 >《电脑知识》

2020.02.29

什么是搜索引擎爬虫？机器人、蜘蛛、Bot、Spider 等，这几种叫法都是指同个东西，具体意思请移步问度娘。

搜索引擎通用爬虫框架

（图片来自《这就是搜索引擎》书籍）

搜索引擎爬虫大致分为分3类：

批量型爬虫（Batch Crawler）：有明确的抓取范围和目标，完成任务就停止。
增量型爬虫（Incremental Crawler）：商业搜索引擎基本上这类
垂直型爬虫（Focused Crawler）：垂直行业，难点在于如何判断页面内容

优秀爬虫特性：（爬虫开发者角度）

高效性：爬虫下载网页的抓取速度。如和程序访问磁盘的操作方法，数据结构的选择很有关
可扩展性：增加服务器、爬虫数量。多个数据中心，多台服务器，每台服务器多个爬虫，每个爬虫多线程
健壮性 ：遇到各种异常情况能正确处理。如：HTML代码不规范、被抓取服务器死机、爬虫陷阱、爬虫所在服务器宕机，
友好性：一是保护网站的部分私密性（遵守robots.txt）；另一是建设被抓取网站的网络负载

爬虫质量评价标准：（搜索引擎用户体验角度）

抓取网页覆盖率
抓取网页时新性（对应的技术“网页更新策略”）
抓取网页重要性
（对应的技术“爬虫抓取策略”）

大型商业搜索引擎至少包含两套不同目的的抓取系统。一套是FreshBot，主要考虑网页的时新性，对于更新频繁的网页，可达到以秒计的更新周期。另套是Deep CrawlBot，主要针对更新不是那么频繁的网页，以天为更新周期。还有针对暗网的抓取系统。

具体了解搜索引擎爬虫看以下文章：

爬虫系统还有至关重要的4个方面：《抓取策略》、《网页更新策略》、《暗网抓取》和《分布式策略》，基本上决定了爬虫系统的质量和性能。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

打开APP，阅读全文并永久保存查看更多类似文章

猜你喜欢

类似文章

【热】打开小程序，算一算2024你的财运

网络爬虫基本原理(二)

搜索引擎中网络爬虫的设计分析

网络爬虫系统Heritrix的结构分析（个人读书报告）

10.网站手机号码抓取软件？网站获取手机号码？网页获取手机号码？抓取手机号？手机号获取？都是骗人的吗？

了解入门爬虫技术原理，看这篇就够了

更多类似文章 >>

生活服务

热点新闻

分享收藏导长图关注下载文章

绑定账号成功
后续可登录账号畅享VIP特权！

如果VIP功能使用有故障，
可点击这里联系客服！

联系客服