XPath基本用法

最新推荐文章于 2025-05-17 13:02:02 发布

原创最新推荐文章于 2025-05-17 13:02:02 发布 · 524 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#前端 #html5

Python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了如何利用Python的requests库获取网页HTML内容，并通过lxml和etree解析HTML，提取元数据。接着，展示了在Scrapy框架下创建爬虫，设置起始URL，以及使用XPath解析器来提取所需信息。文章详细阐述了网络爬虫的基本步骤，适用于初学者掌握网页数据抓取技术。

绝对路径：/step/step/...

相对路径：//step/step/....

提取元数据：a/text() --------> 原创

提取属性数据：a/@class --------> article-type article-type-yc

提取目标数据：

//div[@class="article-type article-type-yc"]

-------->

应用过程：

1、requests

from lxml import etree
import requests
url = “ ”
html = requests.get(url).text
txt = etree.HTML()

2、scrapy

class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['']
    start_urls = []

    for i in range(1, 3):
        url = 'http://......page{}'.format(i)
        start_urls.append(url)

    def parse(self, response):
        res = response.xpath('//div[@class=" "]')