打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
python+playwright 学习-35.获取页面的完整 HTML 内容

前言

selenium 里面有个driver.page_source 可以获取整个html页面的内容,playwright里面也有类似的方法 使用 page.content()

page.content() 获取html内容

使用示例

from playwright.sync_api import sync_playwright
# 上海悠悠 wx:283340479
# blog:https://www.cnblogs.com/yoyoketang/

with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
context = browser.new_context()
page = context.new_page()

page.goto("https://www.cnblogs.com/yoyoketang/")
print(page.content())

对于喜欢爬虫的小伙伴就可以去抓取页面上的内容了。

inner_html() 与 inner_text()

page.content() 是获取整个页面的HTML,如果我们只需获取某个元素的HTML,如下图

可以使用locator().inner_html() 方法获取

  • inner_html()  获取元素的整个html源码内容

  • inner_text() 获取元素的文本内容

from playwright.sync_api import sync_playwright
# 上海悠悠 wx:283340479
# blog:https://www.cnblogs.com/yoyoketang/

with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
context = browser.new_context()
page = context.new_page()

page.goto("https://www.cnblogs.com/yoyoketang/")
# print(page.content())
# 获取某个元素的HTML
blog = page.locator('#blogTitle')
print(blog.inner_html())
print('-------------上海-悠悠----------------------')
print(blog.inner_text())

text_content() 与 inner_text() 获取页面文本

text_content() 用来获取某个元素内所有文本内容,包含子元素内容,隐藏元素也能获取。
inner_text() 的返回值会被格式化 ,但是text_content()的返回值不会被格式化
最重要的区别 inner_text()返回的值, 依赖于页面的显示, text_content()依赖于代码的内容

from playwright.sync_api import sync_playwright
# 上海悠悠 wx:283340479
# blog:https://www.cnblogs.com/yoyoketang/

with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
context = browser.new_context()
page = context.new_page()

page.goto("https://www.cnblogs.com/yoyoketang/")
# print(page.content())
# 获取某个元素的HTML
blog = page.locator('#blogTitle')
# print(blog.inner_html())
# print('-------------上海-悠悠----------------------')
# print(blog.inner_text())
print(blog.text_content())

all_inner_texts() 与 all_text_contents()

all_inner_texts() 和 all_text_contents() 也是用于获取页面上的文本,但是返回的是list列表

from playwright.sync_api import sync_playwright
# 上海悠悠 wx:283340479
# blog:https://www.cnblogs.com/yoyoketang/

with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
context = browser.new_context()
page = context.new_page()

page.goto("https://www.cnblogs.com/yoyoketang/")
# print(page.content())
# 获取某个元素的HTML
blog = page.locator('#blogTitle')
# print(blog.inner_html())
# print('-------------上海-悠悠----------------------')
# print(blog.inner_text())
# print(blog.text_content())

print(blog.all_inner_texts())
print('-------------上海-悠悠----------------------')
print(blog.all_text_contents())

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
python playwright 自动等待和断言详解
深入探索C++模型--参考资料
分享一个playwright网络爬虫实战教程
Python Playwright API使用实例详解
不用写一行代码!Python最强自动化神器Playwright!
新一代python爬虫利器Playwright——自动写代码!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服