使用 Playwright 进行 Python 爬虫

最新推荐文章于 2025-05-15 15:31:51 发布

AI航海家(Ethan)

最新推荐文章于 2025-05-15 15:31:51 发布

阅读量1.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： python 爬虫文章标签： python 爬虫开发语言

本文链接：https://blog.youkuaiyun.com/rootb/article/details/146870978

python 同时被 2 个专栏收录

36 篇文章

订阅专栏

爬虫

5 篇文章

订阅专栏

使用 Playwright 进行 Python 爬虫：深入掌握 Locator 和其他属性 🐍

Hello，各位爬虫新手们！今天我们聚焦于使用 Python 的 Playwright。虽然有很多可用的选择，但 Playwright 的强大和易用性使得它在爬虫界脱颖而出。特别是对于那些需要精确定位页面元素的任务，Playwright 的 locator 方法真的是宝藏！✨

安装 Playwright

既然我们决定使用 Python，那就让我们开始安装 Playwright 吧！打开终端并运行以下命令：

pip install playwright
playwright install

第一个命令会安装 Playwright 库，而第二个命令则是为了下载各种浏览器，你可以用来测试和爬虫。

使用 Playwright 进行简单爬虫

先来看看一个简单的示例，了解 Playwright 是如何工作的。这段代码将打开一个网页并提取出标题文本。

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)  # headless=False 可以看到浏览器打开的操作
    page = browser.new_page()
    page.goto('https://example.com')

    # 提取页面中的标题
    title = page.text_content('h1')
    print(f'页面标题是：{title}')

    browser.close()

深入了解 Locator

locator 是 Playwright 中强大的定位元素的方式。它让你不仅可以通过简单的选择器定位单个元素，还可以进行更丰富的操作，比如点击、输入等。

使用 Locator

假如我们想要更加精确地选择网页中的元素，比如，我们希望获取所有的链接并打印它们的 href：

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto('https://example.com')
    
    # 使用 locator 获取所有链接
    links = page.locator('a')
    
    # 获取链接的数量
    link_count = links.count()
    print(f'页面上有 {link_count} 个链接')
    
    # 打印每个链接的 href
    for i in range(link_count):
        href = links.nth(i).get_attribute('href')
        print(f'链接 {i + 1}: {href}')

    browser.close()

Locator 的其他属性

点击元素：使用 locator.click() 可以模拟用户点击。
输入文本：可以通过 locator.fill('文本') 向输入框填入内容。
等待元素：使用 locator.wait_for() 确保元素在页面上可见。
提取文本：locator.text_content() 提取元素的文本。

其他实用属性

除了 locator，Playwright 还有许多实用的属性和方法可以帮助我们更高效地进行网页抓取：

导航页面：

page.goto('https://example.com', timeout=60000)  # 设置超时时间

截图：

page.screenshot(path='screenshot.png', full_page=True)  # 截取全页面截图

处理对话框：

page.on('dialog', lambda dialog: dialog.accept())  # 自动接受对话框

Evaluate 脚本执行：

result = page.evaluate('() => document.title')  # 执行脚本获取页面标题
print(result)

总结

Playwright 是一个非常出色的框架，其强大的 locator 系统可以极大地简化网页爬虫中的页面元素定位问题。同时，它的许多功能也让我们在处理复杂页面时得心应手。希望这篇指南能帮助你深入掌握 Playwright 的使用，无论是简单网页抓取，还是复杂的互动页面操作。Happy Coding！🎉

感谢你的阅读，别忘了在你的项目中实践这些知识哦！有任何问题，欢迎交流！💬