用python实现一个抓取腾讯电影的爬虫

实现思路：

抓取一个电影网站中的所有电影的思路如下：

根据一个URL得到电影网站的所有分类
得到每个分类中的电影的页数
根据其电影分类的URL规律构造每个分类中每个页面的URL
分析每个页面中的html，并用正则把电影信息过滤出来

准备工作：

安装python（我用的是mac系统，默认的版本是Python 2.7.1 ）
安装mongodb，从官网下载最新版本，然后启动即可，注意如放在外网的话，要设定验证密码或绑定地址为127.0.0.1，否则黑客轻易就进去了
安装BeautifulSoup和pymongo模块
安装一个python编辑器，我个人喜欢用sublime text2

编写部分：

这次以腾讯视频为例，其他视频网站只是换一下正则表达式。

根据视频所有分类的URL获取网站中所有视频分类

腾讯的所有视频的URL为：//v.qq.com/list/1_-1_-1_-1_1_0_0_20_0_-1_0.html

首先我们import urllib2包，封装一个读取url中html的方法，详细代码如下：

导入需要的模块并定义全局变量：

`01`	`# -- coding: utf-8 --`

`02`	`import re`

`03`	`import urllib2`

`04`	`from bs4 import BeautifulSoup`

`05`	`import string,` `time`

`06`	`import pymongo`

07

`08`	`NUM = 0 #全局变量,电影数量`

`09`	`m_type = u''` `#全局变量,电影类型`

`10`	`m_site = u'qq'` `#全局变量,电影网站`

gethtml方法，传入一个url，返回这个url的html内容：

`1`	`#根据指定的URL获取网页内容`

`2`	`def` `gethtml(url):`

`3`	`req` `=` `urllib2.Request(url)`

`4`	`response` `=` `urllib2.urlopen(req)`

`5`	`html` `=` `response.read()`

`6`	`return` `html`

然后查看这个URL的源码文件，得知其电影分类的信息在<ul class="clearfix _group" gname="mi_type" gtype="1">标签内部，每条电信分类的格式为：

ok，我们再写一个gettags方法，将所有的电影分类及url存放于一个字典中，代码如下：

`01`	`#从电影分类列表页面获取电影分类`

`02`	`def` `gettags(html):`

`03`	`global` `m_type`

`04`	`soup` `=` `BeautifulSoup(html)` `#过滤出分类内容`

`05`	`#print soup`

`06`	`#<ul class="clearfix _group" gname="mi_type" gtype="1">`

`07`	`tags_all` `=` `soup.find_all('ul', {'class'` `:` `'clearfix _group'` `,` `'gname'` `:` `'mi_type'})`

`08`	`#print len(tags_all), tags_all`

`09`	`#print str(tags_all[1]).replace('\n', '')`

10

`11`	`#<a _hot="tag.sub" class="_gtag _hotkey" href="//v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html" title="动作" tvalue="0">动作</a>`

`12`	`re_tags` `=` `r'<a _hot=\"tag\.sub\" class=\"_gtag _hotkey\" href=\"(.+?)\" title=\"(.+?)\" tvalue=\"(.+?)\">.+?</a>'`

`13`	`p` `=` `re.compile(re_tags, re.DOTALL)`

14

`15`	`tags` `=` `p.findall(str(tags_all[0]))`

`16`	`if` `tags:`

`17`	`tags_url` `=` `{}`

`18`	`#print tags`

`19`	`for` `tag` `in` `tags:`

`20`	`tag_url` `=` `tag[0].decode('utf-8')`

`21`	`#print tag_url`

`22`	`m_type` `=` `tag[1].decode('utf-8')`

`23`	`tags_url[m_type]` `=` `tag_url`

24

25 else:

`26`	`print` `"Not Find"`

`27`	`return` `tags_url`

接下来用一个循环分类获取每个分类下电影的页数，代码如下：

`1`	`for` `url` `in` `tag_urls.items():`

`2`	`print` `str(url[1]).encode('utf-8')` `#,url[0]`

`3`	`maxpage` `=` `int(get_pages(str(url[1]).encode('utf-8')))`

`4`	`print` `maxpage`

获取每个分类中有多少页电影的代码如下：

`01`	`#获取每个分类的页数`

`02`	`def` `get_pages(tag_url):`

`03`	`tag_html` `=` `gethtml(tag_url)`

`04`	`#div class="paginator`

`05`	`soup` `=` `BeautifulSoup(tag_html)` `#过滤出标记页面的html`

`06`	`#print soup`

`07`	`#<div class="mod_pagenav" id="pager">`

`08`	`div_page` `=` `soup.find_all('div', {'class'` `:` `'mod_pagenav',` `'id'` `:` `'pager'})`

`09`	`#print div_page #len(div_page), div_page[0]`

10

`11`	`#<a class="c_txt6" href="//v.qq.com/list/1_2_-1_-1_1_0_24_20_0_-1_0.html" title="25"><span>25</span></a>`

`12`	`re_pages` `=` `r'<a class=.+?><span>(.+?)</span></a>'`

`13`	`p` `=` `re.compile(re_pages, re.DOTALL)`

`14`	`pages` `=` `p.findall(str(div_page[0]))`

`15`	`#print pages`

`16`	`if` `len(pages) >` `1:`

`17`	`return` `pages[-2]`

18 else:

`19`	`return` `1`

然后在每个分类中，根据其URL的规律生成具体的每页的URL，详细代码如下：

`1`	`for` `x` `in` `range(0, maxpage):`

`2`	`#//v.qq.com/list/1_0_-1_-1_1_0_0_20_0_-1_0.html`

`3`	`m_url` `=` `str(url[1]).replace('0_20_0_-1_0.html', '')`

`4`	`movie_url` `=` `"%s%d_20_0_-1_0.html"` `%` `(m_url, x)`

`5`	`print` `movie_url`

`6`	`movie_html` `=` `gethtml(movie_url.encode('utf-8'))`

`7`	`#print movie_html`

`8`	`getmovielist(movie_html)`

getmovielist函数的作用是将每页地址返回的html传入，然后从中过滤出电影信息所在的html块，详细代码如下：

`01`	`def` `getmovielist(html):`

`02`	`soup` `=` `BeautifulSoup(html)`

03

`04`	`#<ul class="mod_list_pic_130">`

`05`	`divs` `=` `soup.find_all('ul', {'class'` `:` `'mod_list_pic_130'})`

`06`	`#print divs`

`07`	`for` `div_html` `in` `divs:`

`08`	`div_html` `=` `str(div_html).replace('\n', '')`

`09`	`#print div_html`

`10`	`getmovie(div_html)`

将过滤出来的包含电影信息的html代码块传入getmovie函数来分离出具体的电影信息并入库，详细代码如下：

`01`	`def` `getmovie(html):`

`02`	`global` `NUM`

`03`	`global m_type`

`04`	`global m_site`

05

06 #<h6 class="caption"> <a href="http://www.tudou.com/albumcover/Z7eF_40EL4I.html" target="_blank" title="徒步旅行队">徒步旅行队</a> </h6> <ul class="info"> <li class="desc">法国卖座喜剧片</li> <li class="cast"> </li> </ul> </div> <div class="ext ext_last"> <div class="ext_txt"> <h3 class="ext_title">徒步旅行队</h3> <div class="ext_info"> <span class="ext_area">地区: 法国</span> <span class="ext_cast">导演: </span> <span class="ext_date">年代: 2009</span> <span class="ext_type">类型: 喜剧</span> </div> <p class="ext_intro">理查德·达奇拥有一家小的旅游公司，主要经营法国游客到非洲大草原的旅游服务。六个法国游客决定参加理查德·达奇组织的到非洲的一...</p>

07

`08`	`re_movie = r'<li><a class=\"mod_poster_130\" href=\"(.+?)\" target=\"_blank\" title=\"(.+?)\"><img.+?</li>'`

`09`	`p = re.compile(re_movie, re.DOTALL)`

`10`	`movies = p.findall(html)`

`11`	`if` `movies:`

`12`	`conn = pymongo.Connection('localhost',` `27017)`

`13`	`movie_db = conn.dianying`

`14`	`playlinks = movie_db.playlinks`

`15`	`#print movies`

`16`	`for` `movie` `in` `movies:`

`17`	`#print movie`

`18`	`NUM` `+=` `1`

`19`	`print` `"%s : %d"` `% ("="` `*` `70,` `NUM)`

`20`	`values = dict(`

`21`	`movie_title = movie[1],`

`22`	`movie_url = movie[0],`

`23`	`movie_site = m_site,`

`24`	`movie_type = m_type`

25 )

`26`	`print values`

`27`	`playlinks.insert(values)`

`28`	`print` `"_"` `*` `70`

`29`	`NUM` `+=` `1`

`30`	`print` `"%s : %d"` `% ("="` `*` `70,` `NUM)`

31

32 #else:

`33`	`# print "Not Find"`

总结一下：爬虫实现的原理就是通过对其网页内容规律的观察，然后分离出包含我们感兴趣的html代码块，然后用正则表达式从将这些代码块中将想要的信息分离出来。

最后就是实现一个搜索或者展现的平台了，只是普通的从库中查询相应的信息并以Web方式展现出来，大家可用php、python、ruby、node.js等语言各显神通。如我的是用python的tornado框架实现的，地址是：http://www.dianying.at

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。