Python常见的数据类型主要包括:不可变数据类型和可变数据类型,其中前者有:Number(数字类型),String(字符串类型),Tuple(元组);后者有:List(列表类型),Dict(字典类型),Set(集合类型)。
绝大多数爬虫是按“发送请求——获得页面——解析页面——抽取并储存内容”的流程运行。
Python中和爬虫有关的包有以下数量:
urllib
requests
bs4
scrapy
pyspider等等
前辈们指导从requests+Xpath 开始学习,requests 的主要作用是连接网站,返回网页,Xpath 的主要作用是解析网页,便于抽取数据。
scrapy是一个功能非常强大的爬虫框架,它不仅能便捷地构建request,还有强大的 selector 能够方便地解析response。
如果爬到的数据量较小时,可以用文档的形式来存储这些小量数据,如果爬到的数据量比较大,就不能采用上面的方法了。
MongoDB 可以方便你去存储一些非结构化的数据。
分布式爬虫就是用多线程的原理让多个爬虫同时运行,但需要掌握Scrapy+MongoDB + Redis 这三种工具。
Scrapy——用于做基本的页面爬取
MongoDB——用于存储爬取的数据
Redis ——则用来存储要爬取的网页队列,也就是任务队列。
用 lxml+Xpath代替 BeautifulSoup 来进行网页解析。
当使用者不习惯使用IDLE,则可用熟悉的无格式文本编辑器编写Python程序,如果是:
Windows操作系统,则可使用EditPlus、Notepad++、UltraEdit等程序;
Linux系统上使用vim、gedit等工具;
MacOSX 系统上可使用 TextEdit、Sublime Text 等工具。
在编辑 Python 的文件时,需要注意程序中单词的大小写,Python 程序中对于大小写是严格区分的。
Python程序中没有要求语句使用分号结尾,当然使用分号也行,就是并没有实质的作用(除非同一行有更多的代码),还有就是这种写代码的方法Python是不推荐的。
到现在这个阶段,Python已经经历多个版本了,并且每次更新,代码的呈现方式会发生较大变化,看看下面这个最简单的Python程序:
在Python2中显示为:
print 'Hello World'
在Python3中显示为:
print ('Hello World')
现阶段,一般都在使用Python第三个版本了。
可以看看运行的效果:
注意:Windows 系统,Mac OS X 或 Linux 系统都区分大小写。
可以看看大小写的区别:
声明:本文基于参考文摘进行编辑
微信ID: lxdlxd19900511,同样有相互交流的主群,加微信可以入群哦!!同时,QQ主群号码为:679544379.
百度搜索生信菜鸟驿站也可以关注哦:
联系客服