Python小程序自动爬取站酷网首页的照片

本帖最后由撩月于 2017-1-16 21:40 编辑

大家好，我是小无奈，最近这几天沉迷于做爬虫无法自拔，终于做出来了一个属于自己的爬虫。

对于一个没什么基础的人来说，做一个爬虫也算是个艰难的过程，从下载 Pycharm 到学习字典列表，正则表达式，以及一定的网页分析本宝宝一步一步走过来了。有兴趣的可以玩一下爬虫，爬取一些数据，分析数据是很有用的。接下来就是开始数据分析，高端系统学习 Python 了，加油共勉。

另外代码仅供参考，如果进行非法行为，概不负责。

# coding = utf-8
import urllib
import re
#加载基础模块
url='http://www.zcool.com.cn'
def getHtml(url):'''下载网页‘’‘
page = urllib.urlopen(url)
html = page.read()
return html
html=getHtml(url)’‘’下载照片‘’‘
def getimg(html):
reg = 'href='(.+?\s.html)'\sst_t='click''’‘’正则表达式‘’‘
imgre = re.compile(reg)
imglist = re.findall(imgre, html)
url=[]
imglist=list(set(imglist))’‘’去除重复数组‘’‘
for k in imglist:
k1=str(k)
ki=k1[:41]
web='.html'
ki = ki+web
url.append(ki)’‘’重建新的地址，站酷有意把地址添加一个\n \r 增加获取地址的难度
x=0
for i in url:
img2=getHtml(i)
rex='src='(.+?.jpg)' ' ‘’‘正则’‘’
rax=re.compile(rex)
getimg3=re.findall(rax,img2)
for i in getimg3:
urllib.urlretrieve(i, '%s.jpg' % x) ‘’‘下载照片’‘’
x=x+1
return imglist
imgkk=getimg(html)

复制代码

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。