打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python爬虫学习心得一

学习来源:https://www.bilibili.com/video/BV12E411A7ZQ?p=15

爬虫的基本流程:准备工作,获取数据,解析内容,保存数据。任务介绍需求分析爬取豆瓣电影Top250的基本信息,包括电影的名称、豆瓣评分、评价数、电影概况、电影链接等。https://movie.douban.com/top250

爬虫初识什么是爬虫?网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。

百度指数:可以对比百度搜索点击热度的数据。电影天堂爬取豆瓣的电影介绍。http://index.baidu.com/v2/index.html#/

天眼查就是数据采集、清洗、聚合、建设、平台。https://www.tianyancha.com/

爬虫可以做什么?你可以爬取妹子的图片,爬取自己想看的视频等等,只要你能通过浏览器访问的数据,都可以通过爬虫获取。

爬虫的本质是什么?模拟浏览器打开网页,获取网页中我们想要的那部分数据。

搜索引擎的原理

  

基本流程:准备工作-获取数据-解析内容-保存数据

准备工作

通过浏览器查看分析目标网页,学习编程基础规范。

获取数据

通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个response,便是索要获取的页面内容。

解析内容

得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析。

保存数据

保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python之初识网络爬虫
学透这10个Python爬虫框架,轻松获取一切数据
Python爬虫入门,快速抓取大规模数据(第四部分)
Python爬虫介绍 | 文末有福利
28个python爬虫项目,看完这些你离爬虫高手就不远了
Python入门(一):爬虫基本结构&简单实例
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服