打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
菜鸡教菜鸡写爬虫?
盘他网盘搜索
做最好的网盘搜索
关注
你们有毒

你们有毒,随便发的东西都能有33个人打赏......你们是太有钱了?还是太有毒了?

爬虫是什么?

可能大部分关注这个公众号的人都知道,爬虫可以用来做网盘搜索,爬虫可以爬取百度网盘链接和提取码......

但是你真的知道爬虫是什么吗?

百度百科说:

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

维基百科说:

爬虫是一种用来自动浏览万维网的网络机器人。

emmm......是不是会有人问万维网是什么?

会上网的都知道,我们浏览网站的时候需要做一系列动作:打开浏览器->输入网址->点击访问->浏览网页。

而爬虫是一种程序,它可以自动去执行上面这一系列浏览网页的动作,然后把这些网页的内容保存下来。为后续对这些网页数据的处理操作做准备。

怎么才能拥有一个爬虫?

那么,我要如何做才能有一个自己的爬虫?

很简单,如果你可以不吃不喝,重复打开不同的网页的动作,然后把网页里的内容复制粘贴到本地的文件里,那么,恭喜你!你拥有了一个爬虫。甚至此时的你就是一个爬虫!

上边是开玩笑的,因为这样真的很累很无聊  至于我怎么知道很累很无聊的?你说为什么呢?

百度百科说了,爬虫是一种程序或者脚本,那么程序哪里来的?简单!你可以上网下载,也可以自己写。

哪里下载?强推世界上最大的通信交友网站:

https://github.com/

上这个网站,搜索一下百度网盘爬虫,你会看到很多的开源代码的

那么怎么写?麻烦继续往下看。

怎么写爬虫?
基础写爬虫在什么难度等级?
    难度当然是啦~谁不是从基础出来的?
那怎么写爬虫?
    简单啊,就我所知的所有编程语言都可以写爬虫。
......
    啥?不会任何一种编程语言?
......
    好的,本次爬虫教程到此结束。
Python写爬虫

盘他的爬虫使用python写的,为什么用python?当然是因为网上都说python适合写爬虫啊。当时的我还是个小菜鸡,只能别人说啥就是啥了啊。

往下的内容可能需要会一点点python基础(真的只要一丢丢)才看的懂,不过我也没什么有深度的内容教给大家就是了。

爬虫工作过程有三个步骤:

  • 网页请求:采集数据之前我们要先获取网页的源代码,下面是盘他搜索页面的网页源代码

  • 网页分析:我们需要对请求到的网页源代码进行分析,下方是盘他的部分网页源代码,简单看一下。一个class为'result-list'的<div>里有一个网盘链接的<a>。

  1. <div class='result-list'>

  2. <a href='https://pan.baidu.com/s/1sjwQkrj' target='_blank'>《天才与疯子》天才的组合创造.pdf</a>

  3. <a>

  4. </div>

  • 数据存储:爱存哪里存哪里,自己百度一下方法

Python有很多和爬虫有关的开源库供大家大家使用,比如网页请求有requests,urllib 等;网页分析有BeautifulSoup,PyQuery等。

我常用的库有:requests,BeautifulSoup,re,time,lxml,js2xml等。

来一个简单的代码吧:

import requests # 调用网页请求的函数库

from bs4 import BeautifulSoup # 调用网页分析的函数库

url='https://www.panhim.com/search?query=%E5%A4%A9%E6%89%8D' # 要获取的网页链接

res = requests.get(url) # get请求网页,赋值给变量res

html_content = res.content # 获取网页源代码,,赋值给变量html_content

soup = BeautifulSoup(html_content, 'html.parser') # 对源代码进行解析,赋值给变量soup

href = soup.select('.result-list a')[0]['href'] # 获取盘他搜索结果的第一个网盘链接,赋值给href

print(href) # 打印出网盘链接

上面的代码可以获取盘他搜索“天才”的第一个结果。当然,你照搬我的代码是会报错的,因为盘他需要口令验证(本身就会爬虫的人可以很简单地直接实现口令验证,我已经发现有人做过这件事了,然后我把他封了)。但是我又不能把别人的网站放上来搞,会被人说的。

我给大家的这个程序和我最开始接触到爬虫时的那个程序很像,那个程序可以说是我学python的启蒙。

我这个人喜欢先做后学,当初直接修改那个程序去进行网盘链接爬取,之后在做中学,慢慢地写出了现在盘他使用的爬虫程序。

你们也可以去尝试一下修改我的程序,爬取某个网站的资源链接,比如mp4ba.com的某个资源页面的标题和网盘链接,这个网站我看了一下,很好爬的,用上面的程序就能爬。

写爬虫需要掌握些什么?

单看上面的程序你可能会一头雾水,那是因为你缺少一些必要的知识:

  • Python,写爬虫你至少要懂python如何调用函数库,if else以及for循环

  • HTML,网页编码也要懂,这样才能准确地提取你要的数据(比如链接)

剩下的还要懂requests,beautifulsoup函数库的使用,可以在使用过程中百度慢慢学。

网站的类型多种多样,你可能在写爬虫的过程中遇到各种各样的网站,比如利用javascript加载数据的网站,那你就需要了解一下javascript或者数据包抓取了。

最后,推荐一些教程网站吧:

  • 学Python可以看廖雪峰的python教程

  • 学Html,javascript可以看菜鸟教程

百度一下就可以看到这些网站了。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Python爬虫程序获取百度搜索结果的标题、描述、url。
Python入门(一):爬虫基本结构&简单实例
用Python进行Web爬取数据
Python爬虫入门,快速抓取大规模数据
Python爬虫批量下载文献
【图文详解】python爬虫实战——5分钟做个图片自动下载器
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服