打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
beautifulsoup4教程(四)css选择器

beautifulsoup4教程(一)基础知识和第一个爬虫

beautifulsoup4教程(二)bs4中四大对象

beautifulsoup4教程(三)遍历和搜索文档树

beautifulsoup4教程(四)css选择器


六、CSS选择器

6.1 通过标签名查找
print soup.select('title')print soup.select('a')print soup.select('b')result:[<title>The Dormouse's story</title>][<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>][<b>The Dormouse's story</b>]
6.2 通过类名查找
print soup.select('.story')result:[<p class="story">Once upon a time there were three little sisters; and their names were\n<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,\n<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and\n<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;\nand they lived at the bottom of a well.</p>, <p class="story">...</p>]
6.3 通过id名查找
print soup.select('#link1')result:print soup.select('#link1')
6.4 组合查找

多个过滤条件需要用空格隔开,从前往后是逐层筛选,选择器作用的不是 同一个结点。

print soup.select('p #link1')print soup.select('a #link1')result:[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>][]

通过下面这种方式会更好理解

print soup.select('p >#link1')print soup.select('a >#link1')result:[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>][]
6.5 属性查找
print soup.select('p >a')print soup.select('p >a[href="http://example.com/tillie"]')result:[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>][<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
6.6 列表迭代
  • 通过上述方法返回的都是列表,是可迭代对象。
print soup.select('p >a')print type(soup.select('p >a'))print "===="print soup.select('p >a')[0]print "===="for a in soup.select('p >a'):    print a    result:[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]<type 'list'>====<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>====<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a><a class="sister" href="http://example.com/lacie" id="link2">Lacie</a><a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python:BeautifulSoup select()/select
【Python爬虫学习笔记(3)】Beautiful Soup库相关知识点总结
Beautiful Soup模块详解
Beautiful Soup 4.4.0 教程
Python BS4库的安装与使用详解
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服