Playwright实战：数据抓取与API交互

最新推荐文章于 2025-05-27 10:59:55 发布

CarlowZJ

最新推荐文章于 2025-05-27 10:59:55 发布

阅读量583

点赞数 20

文章标签：交互数据库 Playwright

本文链接：https://blog.youkuaiyun.com/csdn122345/article/details/147024439

版权

1. Playwright在数据抓取中的应用

数据抓取的概念：数据抓取是从网页中提取结构化数据的过程。
Playwright的优势：能够处理动态加载的网页，模拟真实用户行为，提高抓取效率和成功率。

2. 动态网页抓取技巧

等待元素加载：确保动态内容加载完成后再抓取数据。

Python复制

from playwright.sync_api import sync_playwright

def scrape_dynamic_page():
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=False)
        page = browser.new_page()
        page.goto("https://example-dynamic-page.com")
        page.wait_for_selector("#data-container")
        data = page.locator("#data-container").text_content()
        print(data)
        browser.close()

scrape_dynamic_page()

处理分页：如何抓取多页数据。

Python复制

from playwright.sync_api import sync_playwright

def scrape_multiple_pages():
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=False)
        page = browser.new_page()
        page.goto("https://example-dynamic-page.com")
        data = []
        while True:
            data.extend(page.locator(".data-item").all_text_contents())
            next_button = page.locator("#next-page")
            if not next_button.is_enabled():
                break
            next_button.click()
            page.wait_for_load_state("networkidle")
        print(data)
        browser.close()

scrape_multiple_pages()

3. API请求发送与响应处理

发送API请求：如何使用Playwright发送API请求并处理响应。

Python复制

from playwright.sync_api import sync_playwright

def send_api_request():
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=False)
        page = browser.new_page()
        response = page.request.get("https://example.com/api/data")
        data = response.json()
        print(data)
        browser.close()

send_api_request()

模拟API响应：如何模拟API响应进行测试。

Python复制

from playwright.sync_api import sync_playwright

def mock_api_response():
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=False)
        page = browser.new_page()
        page.route("https://example.com/api/data", lambda route: route.fulfill(status=200, json={"key": "value"}))
        page.goto("https://example.com")
        data = page.locator("#data-display").text_content()
        print(data)
        browser.close()

mock_api_response()

4. 实战示例：数据抓取与API交互

代码示例：抓取一个动态网页的数据并发送API请求。

Python复制

from playwright.sync_api import sync_playwright

def scrape_and_send_api():
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=False)
        page = browser.new_page()
        # 抓取数据
        page.goto("https://example-dynamic-page.com")
        page.wait_for_selector("#data-container")
        data = page.locator("#data-container").text_content()
        # 发送API请求
        response = page.request.post("https://example.com/api/submit", data={"data": data})
        print(response.json())
        browser.close()

scrape_and_send_api()