打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
基于分布式爬虫框架,神箭手云平台想为企业提供一套数据采集业务

  根据IDC预计,全球大数据市场规模在2019年将达到1870亿美金; 而我国的人口红利、流量红利逐步消失,也将迎来大数据领域的高速增长。爬虫技术作为爬取大数据的主要方式之一也备受重视,但问题是,对于不同网站抓取目标的描述或定义、对网页或数据的分析与过滤都是不一样的,再加上目前头部网站反爬严格,因此一款灵活的爬虫框架程序越来越被开发者所需要。基于分布式爬虫框架,神箭手云平台想为企业提供一套数据采集业务

  36氪今日接触的神箭手云平台就提供分布式云端通用爬虫框架,爬虫程序更接近自然语言和普通用户,只需要在平台注册,输入需求就可以爬取相应的数据。

  基于爬虫程序,神箭手有一块爬虫市场的业务,市场上有社交数据、O2O数据、企业信息数据等爬虫采集,用户根据需要可以购买个人版和企业版,区别在于节点个数,节点越多爬取的速度越快。

  关于应对反爬的措施,CEO 吴桐告知36氪,神箭手买了180台代理服务器,一天能产生15万个IP。用户购买爬虫程序后,只需自己开发调用函数,代理这部分,网站会询问用户是否需要代理IP。但使用神箭手的IP必须在平台上写程序、用平台的软件才可以。

  此外,神箭手也识别验证码。通常用户都是借助第三方打码平台识别验证码,要和第三方接入、自己写代码、充钱、找程序员对接。神箭手平台上的验证码识别方案需要用户充钱即可,平台已自动接入第三方。

  神箭手业务主要针对中型企业,主要因为中型企业规模较小,没有完全解决代理IP问题,神箭手是一套通用的SaaS体系,支持WEBHOOK/RESTFUL等,控制和数据可接入企业,成为企业的一个模块。而大企业更多要求私有化部署,这对于初创企业来说投入较大,需要派遣很多人力进行现场实施和售后维护。目前神箭手想要集中精力做线上,希望首先解决通用需求积累经验,做好线上再做线下

  神箭手客户有摸象大数据、信义立方、良品铺子、超级星饭团、小红唇等。

  神箭手的盈利模式是根据其业务展开的。首先是卖服务器,也就是卖买计算资源,称之为节点。一个节点79/月。其次是代理IP,个人代理39/月,企业代理199/月,海外代理299/月。第三是验证码识别,每验证一次扣除0.01元。第四是综合以上的套餐服务,根据爬虫节点个数、代理IP种类不同等有499/月和1399/月两种,定制版需要具体询价。

  和神箭手做同样事情的有火车头。火车头可以抓取网页上散乱的数据信息,并通过一系列的分析处理挖掘出所需数据,采集不限网页。神箭手和火车头的区别在于,神箭手面向什么都懂或者什么都不懂的用户,而火车头面向的用户正好处于两者之间。国外Web Scraping和神箭手做得事情比较相像。

  神箭手目前团队15人,未来的目标是完善线上SaaS业务,以及展开私有化部署。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
如何批量采集微信公众号文章
美团外卖商家数据分享
什么是高匿ip?什么业务需要选择高匿ip?
爬虫技术在互联网大数据中的应用
大数据平台架构的“五横一纵”
大数据与数据挖掘(4)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服