python requests lxml etree xpath 获取网页信息

最新推荐文章于 2024-09-25 22:29:23 发布

原创最新推荐文章于 2024-09-25 22:29:23 发布 · 521 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

python 专栏收录该内容

27 篇文章

订阅专栏

本文介绍如何利用Python的requests库抓取网页内容，并结合lxml库中的etree和xpath方法进行数据解析和提取，从而高效地获取所需信息。

python requests lxml etree xpath 获取网页信息

import requests
from lxml import etree
import re
baseurl = "https://desk.zol.com.cn/"
url = "https://desk.zol.com.cn/dongman/"
#获取网页
data = requests.get(url)   #获取网页内容
data.encoding = "gbk"    #编码为gbk
et = etree.HTML(data.text)   #将网页内容加载到etree中

#从网页中找链接
list_urls = et.xpath('//ul[@class="pic-list2  clearfix"]/li/a/@href')     #使用xpath找到对应元素列表
for item in list_urls:           #拼接url
    urls = baseurl + item
#列出链接
    print(urls)