python爬虫的xpath、bs4、re方法

最新推荐文章于 2025-01-02 20:11:10 发布

原创最新推荐文章于 2025-01-02 20:11:10 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

本文深入探讨了爬虫技术中的三种关键数据抓取方法：正则表达式、XPath与BeautifulSoup，通过实例展示了如何有效解析网页结构，提取所需数据。

1.re正则表达式

# 正则表达式分析：找开始和结束标签，两个标签之间把想要的内容需要包含进来，然后依次查找分析。

pat = r'<div class="post floated-thumb">(.*?)<p class="align-right"><span class="read-more">'

# 使用findall方法查找符合要求的全部内容，放置到一个列表

divlist = re.findall(pat,HTML,re.S) #re.S : 是.匹配包括换行之内的所有字符

2.xpath（scrapy自带的）

next=response.xpath("//li[@class='next']/a/@href").extract()[0]

extract(): 序列化该节点为unicode字符串并返回list。

3.bs4

bsoup = BeautifulSoup(dataopen, "html.parser")

datas = bsoup.find_all("div", {"class":"reveal-work-wrap"}) #获取所有这个标签，再遍历解析
for x in datas:
    print(x)
    childimg = x.find("img").get("src")
    pathpic1 = childimg.split("/")[-1]
    filepath1 = os.path.join("D:\putweb", pathpic1)
    urllib.request.urlretrieve(childimg,filepath1)