本帖最后由 撩月 于 2017-1-16 21:40 编辑 大家好,我是小无奈,最近这几天沉迷于做爬虫无法自拔,终于做出来了一个属于自己的爬虫。
对于一个没什么基础的人来说,做一个爬虫 也算是个艰难的过程,从下载 Pycharm 到学习字典 列表,正则表达式,以及一定的网页分析 本宝宝一步一步走过来了。有兴趣的可以玩一下爬虫,爬取一些数据,分析数据是很有用的。接下来就是开始数据分析,高端系统学习 Python 了,加油 共勉。
另外 代码仅供参考 ,如果进行非法行为 ,概不负责。
- # coding = utf-8
- import urllib
- import re
- #加载基础模块
- url='http://www.zcool.com.cn'
- def getHtml(url):'''下载网页‘’‘
- page = urllib.urlopen(url)
- html = page.read()
- return html
- html=getHtml(url)’‘’下载照片‘’‘
- def getimg(html):
- reg = 'href='(.+?\s.html)'\sst_t='click''’‘’正则表达式‘’‘
- imgre = re.compile(reg)
- imglist = re.findall(imgre, html)
- url=[]
- imglist=list(set(imglist))’‘’去除重复数组‘’‘
- for k in imglist:
- k1=str(k)
- ki=k1[:41]
- web='.html'
- ki = ki+web
- url.append(ki)’‘’重建新的地址,站酷有意把地址添加一个\n \r 增加获取地址的难度
- x=0
- for i in url:
- img2=getHtml(i)
- rex='src='(.+?.jpg)' ' ‘’‘正则’‘’
- rax=re.compile(rex)
- getimg3=re.findall(rax,img2)
- for i in getimg3:
- urllib.urlretrieve(i, '%s.jpg' % x) ‘’‘下载照片’‘’
- x=x+1
- return imglist
- imgkk=getimg(html)
复制代码
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。