菜鸡教菜鸡写爬虫？

盘他网盘搜索

做最好的网盘搜索

关注

你们有毒

你们有毒，随便发的东西都能有33个人打赏......你们是太有钱了？还是太有毒了？

爬虫是什么？

可能大部分关注这个公众号的人都知道，爬虫可以用来做网盘搜索，爬虫可以爬取百度网盘链接和提取码......

但是你真的知道爬虫是什么吗？

百度百科说：

爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

维基百科说：

爬虫是一种用来自动浏览万维网的网络机器人。

emmm......是不是会有人问万维网是什么？

会上网的都知道，我们浏览网站的时候需要做一系列动作：打开浏览器->输入网址->点击访问->浏览网页。

而爬虫是一种程序，它可以自动去执行上面这一系列浏览网页的动作，然后把这些网页的内容保存下来。为后续对这些网页数据的处理操作做准备。

怎么才能拥有一个爬虫？

那么，我要如何做才能有一个自己的爬虫？

很简单，如果你可以不吃不喝，重复打开不同的网页的动作，然后把网页里的内容复制粘贴到本地的文件里，那么，恭喜你！你拥有了一个爬虫。甚至此时的你就是一个爬虫！

上边是开玩笑的，因为这样真的很累很无聊至于我怎么知道很累很无聊的？你说为什么呢？

百度百科说了，爬虫是一种程序或者脚本，那么程序哪里来的？简单！你可以上网下载，也可以自己写。

哪里下载？强推世界上最大的通信交友网站:

https://github.com/

上这个网站，搜索一下百度网盘爬虫，你会看到很多的开源代码的

那么怎么写？麻烦继续往下看。

怎么写爬虫？

零基础写爬虫在什么难度等级？

难度当然是零啦~谁不是从零基础出来的？

那怎么写爬虫？

简单啊，就我所知的所有编程语言都可以写爬虫。

......

啥？不会任何一种编程语言？

......

好的，本次爬虫教程到此结束。

Python写爬虫

盘他的爬虫使用python写的，为什么用python？当然是因为网上都说python适合写爬虫啊。当时的我还是个小菜鸡，只能别人说啥就是啥了啊。

往下的内容可能需要会一点点python基础（真的只要一丢丢）才看的懂，不过我也没什么有深度的内容教给大家就是了。

爬虫工作过程有三个步骤：

网页请求：采集数据之前我们要先获取网页的源代码，下面是盘他搜索页面的网页源代码

网页分析：我们需要对请求到的网页源代码进行分析，下方是盘他的部分网页源代码，简单看一下。一个class为'result-list'的<div>里有一个网盘链接的<a>。

<div class='result-list'>
<a href='https://pan.baidu.com/s/1sjwQkrj' target='_blank'>《天才与疯子》天才的组合创造.pdf</a>
<a>
</div>

数据存储：爱存哪里存哪里，自己百度一下方法

Python有很多和爬虫有关的开源库供大家大家使用，比如网页请求有requests，urllib 等；网页分析有BeautifulSoup，PyQuery等。

我常用的库有：requests，BeautifulSoup，re，time，lxml，js2xml等。

来一个简单的代码吧：


import requests # 调用网页请求的函数库
from bs4 import BeautifulSoup # 调用网页分析的函数库
url='https://www.panhim.com/search?query=%E5%A4%A9%E6%89%8D' # 要获取的网页链接
res = requests.get(url) # get请求网页，赋值给变量res
html_content = res.content # 获取网页源代码,，赋值给变量html_content
soup = BeautifulSoup(html_content, 'html.parser') # 对源代码进行解析，赋值给变量soup
href = soup.select('.result-list a')[0]['href'] # 获取盘他搜索结果的第一个网盘链接，赋值给href
print(href) # 打印出网盘链接

上面的代码可以获取盘他搜索“天才”的第一个结果。当然，你照搬我的代码是会报错的，因为盘他需要口令验证（本身就会爬虫的人可以很简单地直接实现口令验证，我已经发现有人做过这件事了，然后我把他封了）。但是我又不能把别人的网站放上来搞，会被人说的。

我给大家的这个程序和我最开始接触到爬虫时的那个程序很像，那个程序可以说是我学python的启蒙。

我这个人喜欢先做后学，当初直接修改那个程序去进行网盘链接爬取，之后在做中学，慢慢地写出了现在盘他使用的爬虫程序。

你们也可以去尝试一下修改我的程序，爬取某个网站的资源链接，比如mp4ba.com的某个资源页面的标题和网盘链接，这个网站我看了一下，很好爬的，用上面的程序就能爬。

写爬虫需要掌握些什么？

单看上面的程序你可能会一头雾水，那是因为你缺少一些必要的知识：

Python，写爬虫你至少要懂python如何调用函数库，if else以及for循环
HTML，网页编码也要懂，这样才能准确地提取你要的数据（比如链接）

剩下的还要懂requests，beautifulsoup函数库的使用，可以在使用过程中百度慢慢学。

网站的类型多种多样，你可能在写爬虫的过程中遇到各种各样的网站，比如利用javascript加载数据的网站，那你就需要了解一下javascript或者数据包抓取了。

最后，推荐一些教程网站吧：

学Python可以看廖雪峰的python教程
学Html，javascript可以看菜鸟教程

百度一下就可以看到这些网站了。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。