批量型爬虫(Batch Crawler):有明确的抓取范围和目标,完成任务就停止。
增量型爬虫(Incremental Crawler): 商业搜索引擎基本上这类
垂直型爬虫(Focused Crawler):垂直行业,难点在于如何判断页面内容
高效性:爬虫下载网页的抓取速度。如和程序访问磁盘的操作方法,数据结构的选择 很有关
可扩展性:增加服务器、爬虫数量。 多个数据中心,多台服务器,每台服务器多个爬虫,每个爬虫多线程
健壮性 :遇到各种异常情况能正确处理。如:HTML代码不规范、被抓取服务器死机、爬虫陷阱、爬虫所在服务器宕机,
友好性:一是保护网站的部分私密性(遵守robots.txt);另一是建设被抓取网站的网络负载
联系客服