你们有毒,随便发的东西都能有33个人打赏......你们是太有钱了?还是太有毒了?
可能大部分关注这个公众号的人都知道,爬虫可以用来做网盘搜索,爬虫可以爬取百度网盘链接和提取码......
但是你真的知道爬虫是什么吗?
百度百科说:
爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
维基百科说:
爬虫是一种用来自动浏览万维网的网络机器人。
emmm......是不是会有人问万维网是什么?
会上网的都知道,我们浏览网站的时候需要做一系列动作:打开浏览器->输入网址->点击访问->浏览网页。
而爬虫是一种程序,它可以自动去执行上面这一系列浏览网页的动作,然后把这些网页的内容保存下来。为后续对这些网页数据的处理操作做准备。
那么,我要如何做才能有一个自己的爬虫?
很简单,如果你可以不吃不喝,重复打开不同的网页的动作,然后把网页里的内容复制粘贴到本地的文件里,那么,恭喜你!你拥有了一个爬虫。甚至此时的你就是一个爬虫!
上边是开玩笑的,因为这样真的很累很无聊 至于我怎么知道很累很无聊的?你说为什么呢?
百度百科说了,爬虫是一种程序或者脚本,那么程序哪里来的?简单!你可以上网下载,也可以自己写。
哪里下载?强推世界上最大的通信交友网站:
https://github.com/
上这个网站,搜索一下百度网盘爬虫,你会看到很多的开源代码的
那么怎么写?麻烦继续往下看。
盘他的爬虫使用python写的,为什么用python?当然是因为网上都说python适合写爬虫啊。当时的我还是个小菜鸡,只能别人说啥就是啥了啊。
往下的内容可能需要会一点点python基础(真的只要一丢丢)才看的懂,不过我也没什么有深度的内容教给大家就是了。
爬虫工作过程有三个步骤:
网页请求:采集数据之前我们要先获取网页的源代码,下面是盘他搜索页面的网页源代码
网页分析:我们需要对请求到的网页源代码进行分析,下方是盘他的部分网页源代码,简单看一下。一个class为'result-list'的<div>里有一个网盘链接的<a>。
<div class='result-list'>
<a href='https://pan.baidu.com/s/1sjwQkrj' target='_blank'>《天才与疯子》天才的组合创造.pdf</a>
<a>
</div>
数据存储:爱存哪里存哪里,自己百度一下方法
Python有很多和爬虫有关的开源库供大家大家使用,比如网页请求有requests,urllib 等;网页分析有BeautifulSoup,PyQuery等。
我常用的库有:requests,BeautifulSoup,re,time,lxml,js2xml等。
来一个简单的代码吧:
import requests # 调用网页请求的函数库
from bs4 import BeautifulSoup # 调用网页分析的函数库
url='https://www.panhim.com/search?query=%E5%A4%A9%E6%89%8D' # 要获取的网页链接
res = requests.get(url) # get请求网页,赋值给变量res
html_content = res.content # 获取网页源代码,,赋值给变量html_content
soup = BeautifulSoup(html_content, 'html.parser') # 对源代码进行解析,赋值给变量soup
href = soup.select('.result-list a')[0]['href'] # 获取盘他搜索结果的第一个网盘链接,赋值给href
print(href) # 打印出网盘链接
上面的代码可以获取盘他搜索“天才”的第一个结果。当然,你照搬我的代码是会报错的,因为盘他需要口令验证(本身就会爬虫的人可以很简单地直接实现口令验证,我已经发现有人做过这件事了,然后我把他封了)。但是我又不能把别人的网站放上来搞,会被人说的。
我给大家的这个程序和我最开始接触到爬虫时的那个程序很像,那个程序可以说是我学python的启蒙。
我这个人喜欢先做后学,当初直接修改那个程序去进行网盘链接爬取,之后在做中学,慢慢地写出了现在盘他使用的爬虫程序。
你们也可以去尝试一下修改我的程序,爬取某个网站的资源链接,比如mp4ba.com的某个资源页面的标题和网盘链接,这个网站我看了一下,很好爬的,用上面的程序就能爬。
单看上面的程序你可能会一头雾水,那是因为你缺少一些必要的知识:
Python,写爬虫你至少要懂python如何调用函数库,if else以及for循环
HTML,网页编码也要懂,这样才能准确地提取你要的数据(比如链接)
剩下的还要懂requests,beautifulsoup函数库的使用,可以在使用过程中百度慢慢学。
网站的类型多种多样,你可能在写爬虫的过程中遇到各种各样的网站,比如利用javascript加载数据的网站,那你就需要了解一下javascript或者数据包抓取了。
最后,推荐一些教程网站吧:
学Python可以看廖雪峰的python教程
学Html,javascript可以看菜鸟教程
百度一下就可以看到这些网站了。
联系客服