解决Python用xpath爬取不到数据的一个思路

原创已于 2024-07-01 16:28:21 修改 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2024-07-01 16:23:54 首次发布

Python 专栏收录该内容

1 篇文章

订阅专栏

前言

最近在学习Python爬虫的知识，既然眼睛会了难免忍不住要实践一把。

不废话直接上主题

代码不复杂，简单的例子奉上：

import requests
from lxml import etree


cookie = '浏览器F12网络请求标头里有'
user_agent = '浏览器F12网络请求标头里有'
# 具体的方法网上有很多这里不是叙述的重点

headers= {
    'User-Agent': user_agent,
    'Cookie': cookie,
    'Host': 'fanqienovel.com',
    'Connection': 'keep-alive'
}

url = "https://****"

# 使用get方法请求网页
resp = requests.get(url, headers=headers)

# 将网页内容按utf-8规范解码为文本形式
content = resp.content.decode('utf-8')

# 将文本内容创建为可解析元素
html = etree.HTML(content)

# 获取1
title1 = html.xpath('//*[@id="app"]/div/div[2]/div/div[1]/div/div[2]/div[2]/div[1]/h1/text()')[0]

# 获取2
title2 = html.xpath('//*[@id="app"]/div/div/div/div[1]/div/div[2]/div[2]/div[1]/h1/text()')[0]

“获取1”是页面打开后直接复制的XPath路径，但根据这个路径获取不到数据，见截图。