打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
第一个最基础的Python程序

Python常见的数据类型主要包括:不可变数据类型和可变数据类型,其中前者有:Number(数字类型),String(字符串类型),Tuple(元组);后者有:List(列表类型),Dict(字典类型),Set(集合类型)。


绝大多数爬虫是按“发送请求——获得页面——解析页面——抽取并储存内容”的流程运行。


Python中和爬虫有关的包有以下数量:

  • urllib

  • requests

  • bs4

  • scrapy

  • pyspider等等

前辈们指导从requests+Xpath 开始学习,requests 的主要作用是连接网站,返回网页,Xpath 的主要作用是解析网页,便于抽取数据。


scrapy是一个功能非常强大的爬虫框架,它不仅能便捷地构建request,还有强大的 selector 能够方便地解析response。

如果爬到的数据量较小时,可以用文档的形式来存储这些小量数据,如果爬到的数据量比较大,就不能采用上面的方法了。


MongoDB 可以方便你去存储一些非结构化的数据


分布式爬虫就是用多线程的原理让多个爬虫同时运行,但需要掌握Scrapy+MongoDB + Redis 这三种工具。


  • Scrapy——用于做基本的页面爬取

  • MongoDB——用于存储爬取的数据

  • Redis ——则用来存储要爬取的网页队列,也就是任务队列。


lxml+Xpath代替 BeautifulSoup进行网页解析


当使用者不习惯使用IDLE,则可用熟悉的无格式文本编辑器编写Python程序,如果是:

  • Windows操作系统,则可使用EditPlus、Notepad++、UltraEdit等程序;

  • Linux系统上使用vim、gedit等工具;

  • MacOSX 系统上可使用 TextEdit、Sublime Text 等工具。


在编辑 Python 的文件时,需要注意程序中单词的大小写Python 程序中对于大小写是严格区分的。


Python程序中没有要求语句使用分号结尾,当然使用分号也行,就是并没有实质的作用(除非同一行有更多的代码),还有就是这种写代码的方法Python是不推荐的。


到现在这个阶段,Python已经经历多个版本了,并且每次更新,代码的呈现方式会发生较大变化,看看下面这个最简单的Python程序

  • Python2中显示为

print 'Hello World'

  • Python3中显示为

print ('Hello World')

现阶段,一般都在使用Python第三个版本了。

可以看看运行的效果:

注意:Windows 系统,Mac OS X 或 Linux 系统都区分大小写。

可以看看大小写的区别:


声明:本文基于参考文摘进行编辑

微信ID: lxdlxd19900511,同样有相互交流的主群,加微信可以入群哦!!同时,QQ主群号码为:679544379.

百度搜索生信菜鸟驿站也可以关注哦

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【含代码】Python爬虫实战:爬取全站小说排行榜
使用Scrapy构建一个网络爬虫
python爬虫30 | scrapy后续,把「糗事百科」的段子爬下来然后存到数据库中
从零开始写Python爬虫,四大工具你值得拥有!
python爬虫入门,10分钟就够了,这可能是我见过最简单的基础教学
如何用 Python 爬取网页制作电子书
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服