request+xpath 爬虫案例demo

最新推荐文章于 2024-05-14 22:18:18 发布

原创最新推荐文章于 2024-05-14 22:18:18 发布 · 526 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一个使用Python的requests库结合Scrapy的Selector模块进行网页数据抓取的简单示例。通过设置请求头并发送GET请求，再利用xpath解析返回的HTML内容，成功获取了指定元素的文本信息。

1. 一个最简单的 request+xpath获取内容

# +----------------------------------------------------------------------
# | User: zq
# | Version: python3.7
# | Time: 2020-03-09 09:33
# +----------------------------------------------------------------------

import requests
from scrapy import Selector

url = "http://www.whzk120.com/index.html"
my_headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
res = requests.get(url, headers=my_headers)
#设置编码
res.encoding= "utf8"
html = res.text

sel = Selector(text=html)
# tag = sel.xpath("//*[@class='indexPart1']/ul/li[1]/a/h2/text()").extract()[0]
tag = sel.xpath("//*[@class='li_01']/a/h2/text()").extract()[0]
pass