打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python小程序自动爬取站酷网首页的照片
本帖最后由 撩月 于 2017-1-16 21:40 编辑

大家好,我是小无奈,最近这几天沉迷于做爬虫无法自拔,终于做出来了一个属于自己的爬虫。

对于一个没什么基础的人来说,做一个爬虫 也算是个艰难的过程,从下载 Pycharm  到学习字典 列表,正则表达式,以及一定的网页分析 本宝宝一步一步走过来了。有兴趣的可以玩一下爬虫,爬取一些数据,分析数据是很有用的。接下来就是开始数据分析,高端系统学习 Python 了,加油  共勉。

另外  代码仅供参考  ,如果进行非法行为  ,概不负责。

  1. # coding = utf-8
  2. import urllib
  3. import re
  4. #加载基础模块
  5. url='http://www.zcool.com.cn'

  6. def getHtml(url):'''下载网页‘’‘
  7.     page = urllib.urlopen(url)
  8.     html = page.read()
  9.     return html

  10. html=getHtml(url)’‘’下载照片‘’‘
  11. def getimg(html):
  12.     reg = 'href='(.+?\s.html)'\sst_t='click''’‘’正则表达式‘’‘
  13.     imgre = re.compile(reg)
  14.     imglist = re.findall(imgre, html)
  15.     url=[]
  16.     imglist=list(set(imglist))’‘’去除重复数组‘’‘
  17.     for k in imglist:
  18.         k1=str(k)
  19.         ki=k1[:41]
  20.         web='.html'
  21.         ki = ki+web
  22.         url.append(ki)’‘’重建新的地址,站酷有意把地址添加一个\n \r 增加获取地址的难度   
  23.     x=0
  24.     for i in url:
  25.         img2=getHtml(i)
  26.         rex='src='(.+?.jpg)' '   ‘’‘正则’‘’
  27.         rax=re.compile(rex)
  28.         getimg3=re.findall(rax,img2)
  29.         for i in getimg3:
  30.             urllib.urlretrieve(i, '%s.jpg' % x)   ‘’‘下载照片’‘’
  31.             x=x+1
  32.     return imglist
  33. imgkk=getimg(html)
复制代码



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
如何通过Python进行图片批量下载?
python爬图
Crawler:反爬虫之基于urllib库+伪装浏览器方式实现从各种网站上(以百度贴吧为例)获得你喜欢的照片下载到本地电脑上
Python之初识网络爬虫
Python写一个简单的爬虫样例(不超过50行代码)
Python爬虫是怎么回事?一张图告诉你爬虫的原理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服