打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python 基础编写基于浏览器爬虫

文章来源: 重生信息安全

前言

爬虫程序分很多种,有指定区域 文字 图片 内容 爬取,有通过某引擎进行爬取大数据,下面简单的介绍下通过搜索引擎来进行关键词爬取数据

功能代码结构


1.主代码   

2.配置文件 

3.支持库

正文

先来看一下代码

此处 必应调用的方式是,如下图:

https://cn.bing.com/search?q=1&qs=n&form=QBLH&sp=-1&pq=1&sc=8-1&sk=&cvid=9F6D9AA507274620BE1FFBABCD3E1A78

这个是需要的参数,也是必要的,通过先搜索随机数之后取该接口 以及 参数 参数值

如果只是爬取这一个页面就不需要这样做了,但是我们爬取的是大数据,所以这个地方是要取 下一页的元素

置响应代码,好让代码去自动处理下一页的关系。

继续看:

这个地方找的是 我们一个配置文件 ,在最开始我们都有定义

Self.out ,相当于过滤,不对self.out 内的 内容进行搜索,这个地方就相当于在调用这个 config.json 这个配置文件

编写json配置文件:

先总合上面,是不是这一个基本的模块就很清楚了,说的简单点 ,就是 我先定义 然后调用搜索接口,然后去调用并判断这个配置文件

继续往下走!

模拟请求头 ,这个就好比是一个标识,比如模拟手机的 谷歌的 火狐的 等等。

下面就是逻辑判断

上诉总结:


其实很简单,我们把他集合并分解就是--该程序是通过必应搜索去进行搜索关键词,对搜索到的关键词取url 连接,结果并以txt 文本的方式去进行保存,我们所需要的是在 config.json 这个配置文件里面填写想要的爬行的关键词

代码简单阐述:

先定义需要使用的函数 ,通过函数去进行判断 配置文件,并模拟 inter 请求,去进行进行之后,使用函数对其进行判断所爬出的结果,取域名地址,保存到文本进程完结

相关代码:

其实我们只要注意以下几点,就可以完全做到编写简单的爬虫程序:

1:程序框架 (制定程序框架,要知道这个程序是做什么的 需要什么东西) 2:按需编写 (先对其进行定义,根据所定义的去进行编写,每定义一个,编写一个,这样会减少错误率)

结尾

大佬勿喷!来自一个python 菜鸟!该程序仅提供学习参考!!!

程序源代码 : https://share.weiyun.com/5gxtVk3

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
前后端分离有什么了不起,手把手教你用Python爬下来!
菜鸟写Python程序,如何从新手变老手
你觉得可以用python爬虫做哪些有意思的事情?
本文送给希望用python写出爬虫程序的零基础小伙伴
python|python实现汉译英
爬虫精进6
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服